Shaka Player 4.14.11版本发布:优化流媒体播放体验
Shaka Player是一个由谷歌开发的开源JavaScript库,专门用于在浏览器中播放自适应流媒体内容。它支持多种流媒体协议,包括DASH、HLS等,并提供了丰富的功能和灵活的API,使开发者能够轻松构建高质量的流媒体播放应用。
核心改进
本次4.14.11版本更新主要围绕播放稳定性、用户体验和功能完善三个方面进行了优化。
1. 投屏功能增强
开发团队对投屏功能进行了多项改进。首先为缩略图添加了新参数,确保在投屏代理模式下能够正常工作。其次,针对异步调用场景,增加了对投屏代理的响应处理,提升了投屏过程的可靠性。
2. 媒体能力检测优化
针对Vizio等特定设备,修复了MediaCapabilities polyfill的实现问题。这个polyfill用于在不原生支持MediaCapabilities API的设备上模拟其功能,确保播放器能够正确评估设备的解码能力。
3. 定时器竞态条件修复
解决了停止定时器时可能出现的竞态条件问题。这类问题在复杂播放场景下可能导致定时器无法正确清理,进而影响播放器的性能和稳定性。
LCEVC相关改进
对于支持LCEVC(低复杂度增强视频编码)的内容,本次更新确保在双轨道模式下为原始视频分配唯一的ID。这一改进避免了可能的ID冲突,保证了LCEVC增强层与基础层的正确关联和处理。
用户界面优化
UI团队在本版本中进行了多项重要改进:
-
水印元素优化:现在只在必要时才创建水印元素,减少了不必要的DOM操作,提升了性能。
-
时间轴拖动体验:修复了拖动进度条时当前时间显示不准确的问题,同时解决了初始化阶段无法正常跳转的问题。
-
进度条交互:即使进度条处于隐藏状态,也不再允许跳转操作,避免了潜在的误操作。
-
画中画与全屏切换:优化了从画中画模式切换到全屏模式(或反向切换)时的UI行为,确保过渡更加平滑自然。
加密方案支持
更新了eme-encryption-scheme-polyfill,这是用于在不完全支持加密媒体扩展(EME)的设备上模拟相关功能的工具库。这一更新进一步增强了播放器在各种设备上处理加密内容的能力。
技术价值分析
从技术角度看,4.14.11版本虽然是一个小版本更新,但解决的都是实际应用中可能遇到的痛点问题。特别是投屏功能的改进和UI交互的优化,直接提升了终端用户的使用体验。而底层如定时器竞态条件和媒体能力检测的修复,则体现了开发团队对播放器稳定性的持续关注。
对于开发者而言,这些改进意味着更少的边界情况需要处理,可以更专注于业务逻辑的实现。对于终端用户,则意味着更流畅、更可靠的播放体验。
Shaka Player作为开源项目,通过这样持续的迭代更新,不断巩固其在Web流媒体播放领域的地位,为开发者提供了强大的工具,也为终端用户带来了高质量的流媒体体验。
AutoGLM-Phone-9BAutoGLM-Phone-9B是基于AutoGLM构建的移动智能助手框架,依托多模态感知理解手机屏幕并执行自动化操作。Jinja00
Kimi-K2-ThinkingKimi K2 Thinking 是最新、性能最强的开源思维模型。从 Kimi K2 开始,我们将其打造为能够逐步推理并动态调用工具的思维智能体。通过显著提升多步推理深度,并在 200–300 次连续调用中保持稳定的工具使用能力,它在 Humanity's Last Exam (HLE)、BrowseComp 等基准测试中树立了新的技术标杆。同时,K2 Thinking 是原生 INT4 量化模型,具备 256k 上下文窗口,实现了推理延迟和 GPU 内存占用的无损降低。Python00
GLM-4.6V-FP8GLM-4.6V-FP8是GLM-V系列开源模型,支持128K上下文窗口,融合原生多模态函数调用能力,实现从视觉感知到执行的闭环。具备文档理解、图文生成、前端重构等功能,适用于云集群与本地部署,在同类参数规模中视觉理解性能领先。Jinja00
HunyuanOCRHunyuanOCR 是基于混元原生多模态架构打造的领先端到端 OCR 专家级视觉语言模型。它采用仅 10 亿参数的轻量化设计,在业界多项基准测试中取得了当前最佳性能。该模型不仅精通复杂多语言文档解析,还在文本检测与识别、开放域信息抽取、视频字幕提取及图片翻译等实际应用场景中表现卓越。00
GLM-ASR-Nano-2512GLM-ASR-Nano-2512 是一款稳健的开源语音识别模型,参数规模为 15 亿。该模型专为应对真实场景的复杂性而设计,在保持紧凑体量的同时,多项基准测试表现优于 OpenAI Whisper V3。Python00
GLM-TTSGLM-TTS 是一款基于大语言模型的高质量文本转语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合了用于语音 token 生成的大语言模型(LLM)和用于波形合成的流匹配(Flow Matching)模型。 通过引入多奖励强化学习框架,GLM-TTS 显著提升了合成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。Python00
Spark-Formalizer-X1-7BSpark-Formalizer 是由科大讯飞团队开发的专用大型语言模型,专注于数学自动形式化任务。该模型擅长将自然语言数学问题转化为精确的 Lean4 形式化语句,在形式化语句生成方面达到了业界领先水平。Python00