Keras NLP v0.21.0发布:新增Xception、Qwen等多项模型与功能升级
Keras NLP是TensorFlow生态系统中专注于自然语言处理任务的深度学习库,它建立在Keras框架之上,为开发者提供了高效、模块化的NLP模型构建工具。最新发布的v0.21.0版本带来了多项重要更新,包括新增多个前沿模型架构、改进权重加载机制等关键特性。
新增模型架构
Xception图像分类模型
本次更新引入了Xception深度卷积神经网络架构,这是一种极致的Inception架构变体。Xception通过深度可分离卷积替代传统Inception模块,在保持模型性能的同时显著减少了参数量。该模型特别适合移动端和边缘计算场景下的图像分类任务。
Qwen系列大语言模型
v0.21.0新增了Qwen2.5大语言模型支持,包括基础语言模型和指令调优模型,参数规模从0.5B到72B不等。Qwen系列模型在中文处理和多轮对话任务上表现出色,其指令调优版本特别适合构建对话系统和智能助手应用。
Qwen MoE混合专家模型
新增的Qwen MoE是基于Transformer的混合专家(Mixture of Experts)解码器语言模型。其基础版本在运行时仅激活2.7B参数,通过动态路由机制实现了计算效率的大幅提升。这种架构特别适合需要处理多样化输入分布的任务。
Mixtral稀疏混合专家模型
Mixtral是一种预训练的生成式稀疏混合专家模型,包含预训练和指令调优版本,运行时激活参数为7B。与密集模型相比,Mixtral在保持性能的同时显著降低了计算成本。
Moonshine语音识别模型
新增的Moonshine模型专注于语音识别任务,采用端到端深度学习架构,能够直接将音频信号转换为文本输出。该模型在噪声鲁棒性和实时性方面做了特别优化。
CSPNet分类模型
Cross Stage Partial Network(CSPNet)是一种高效的图像分类架构,通过特征图的部分跨阶段连接减少了计算冗余。该模型在保持精度的同时提升了推理速度,适合实时视觉应用。
Llama3支持
v0.21.0扩展了对Llama系列模型的支持,新增了Llama 3.1和3.2版本。这些模型在长文本理解和代码生成任务上表现优异。
核心功能改进
分片权重支持
新版本为KerasPresetSaver和KerasPresetLoader添加了分片权重支持,默认最大分片大小为10GB。这一改进使得超大模型的保存和加载更加高效,特别是在内存受限的环境中。分片机制会自动将大型权重矩阵分割为多个文件,降低了单次内存需求。
其他重要改进
- 修复了PaliGemmaVitEncoder和Gemma3VisionEncoderBlock的输出形状计算问题
- 优化了ReversibleEmbedding层的int8量化逻辑
- 增加了COCO ID到类别名称的映射工具
- 改进了音频到文本预处理器的类定义
- 增强了模型导出和转换脚本的稳定性
技术影响与应用场景
本次更新显著扩展了Keras NLP在以下几个领域的能力:
-
多模态应用:新增的Xception和CSPNet为视觉任务提供了更多选择,而Moonshine模型则增强了音频处理能力,使得构建视听多模态系统更加便捷。
-
大模型部署:Qwen和Mixtral等大模型的加入,配合分片权重支持,使得在资源受限环境中部署数十亿参数模型成为可能。
-
高效推理:混合专家架构的引入为需要高吞吐量的应用场景提供了计算效率更高的选择,特别是在需要实时响应的对话系统中。
-
中文NLP:Qwen系列模型的加入显著增强了框架对中文任务的支持,为中文开发者提供了更强大的基础模型选择。
Keras NLP v0.21.0通过这些更新,进一步巩固了其作为生产级NLP工具库的地位,为开发者提供了从研究到部署的全流程支持。新加入的模型架构和功能改进,使得开发者能够更高效地构建和部署先进的自然语言处理和跨模态应用。
PaddleOCR-VL
PaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00- DDeepSeek-V3.2-ExpDeepSeek-V3.2-Exp是DeepSeek推出的实验性模型,基于V3.1-Terminus架构,创新引入DeepSeek Sparse Attention稀疏注意力机制,在保持模型输出质量的同时,大幅提升长文本场景下的训练与推理效率。该模型在MMLU-Pro、GPQA-Diamond等多领域公开基准测试中表现与V3.1-Terminus相当,支持HuggingFace、SGLang、vLLM等多种本地运行方式,开源内核设计便于研究,采用MIT许可证。【此简介由AI生成】Python00
openPangu-Ultra-MoE-718B-V1.1
昇腾原生的开源盘古 Ultra-MoE-718B-V1.1 语言模型Python00HunyuanWorld-Mirror
混元3D世界重建模型,支持多模态先验注入和多任务统一输出Python00AI内容魔方
AI内容专区,汇集全球AI开源项目,集结模块、可组合的内容,致力于分享、交流。03Spark-Scilit-X1-13B
FLYTEK Spark Scilit-X1-13B is based on the latest generation of iFLYTEK Foundation Model, and has been trained on multiple core tasks derived from scientific literature. As a large language model tailored for academic research scenarios, it has shown excellent performance in Paper Assisted Reading, Academic Translation, English Polishing, and Review Generation, aiming to provide efficient and accurate intelligent assistance for researchers, faculty members, and students.Python00GOT-OCR-2.0-hf
阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00- HHowToCook程序员在家做饭方法指南。Programmer's guide about how to cook at home (Chinese only).Dockerfile012
Spark-Chemistry-X1-13B
科大讯飞星火化学-X1-13B (iFLYTEK Spark Chemistry-X1-13B) 是一款专为化学领域优化的大语言模型。它由星火-X1 (Spark-X1) 基础模型微调而来,在化学知识问答、分子性质预测、化学名称转换和科学推理方面展现出强大的能力,同时保持了强大的通用语言理解与生成能力。Python00- PpathwayPathway is an open framework for high-throughput and low-latency real-time data processing.Python00
项目优选









