Keras Hub 0.19.0 开发版发布：新增视觉模型与注意力优化

2025-07-09 03:11:17作者：沈韬淼Beryl

Keras Hub 是 Keras 生态系统中的重要组件，它提供了大量预训练模型和工具，帮助开发者快速构建和部署深度学习应用。最新发布的 0.19.0 开发版本带来了多项重要更新，特别是在计算机视觉领域和注意力机制优化方面有显著改进。

核心更新内容

视觉模型增强

本次更新引入了多个重要的视觉模型：

Vision Transformer (ViT)：谷歌提出的基于纯注意力机制的视觉Transformer架构，现已在Keras Hub中提供完整的实现，包括骨干网络、各层组件以及图像分类器。
MobileNet系列：轻量级的卷积神经网络架构，特别适合移动端和嵌入式设备部署，新版本提供了完整的模型实现。
BASNet：专注于图像分割任务的深度网络模型，特别擅长处理精细的边缘细节。
EfficientNetV2：在原有EfficientNet基础上改进的高效网络架构，在准确率和计算效率之间取得了更好的平衡。

注意力机制优化

Flash Attention支持：新版本为Stable Diffusion 3 MMDiT模型和Gemma模型添加了Flash Attention支持，这是一种优化的注意力计算实现，可以显著提升模型训练和推理速度，同时降低内存占用。
注意力掩码处理改进：修复了注意力掩码数据类型相关的问题，确保模型在不同硬件平台上的兼容性。

模型管理与工具增强

ModelScope支持：新增了对ModelScope平台模型下载的支持，扩展了模型来源渠道。
预设模型管理工具：引入了新的工具集，帮助开发者更高效地管理和维护模型预设配置。
格式标准化：项目代码现在使用Ruff进行格式化，提高了代码的一致性和可维护性。

技术细节与改进

视觉Transformer实现

Keras Hub中的ViT实现包含了完整的模型架构：

图像分块嵌入层
Transformer编码器堆叠
分类头部
多种预设配置（ViT-Base、ViT-Large等）

开发者可以直接使用这些预设模型进行迁移学习，或者基于这些组件构建自定义的视觉Transformer架构。

轻量级模型优化

MobileNet和EfficientNetV2的加入为移动端和边缘计算场景提供了更多选择：

支持多种宽度和深度配置
提供平衡准确率与计算资源的多种预设
优化后的实现确保在资源受限设备上的高效运行

稳定扩散模型升级

Stable Diffusion 3.5中等版本的加入扩展了文本到图像生成的能力：

改进的生成质量
更稳定的训练过程
与Flash Attention的集成提升了生成速度

开发者体验改进

错误处理增强：改进了分词器训练时的错误消息，使调试更加直观。
依赖管理：明确了TensorFlow Text作为可选依赖，降低了环境配置的复杂性。
预处理工具：图像转换器新增了pad_to_aspect_ratio标志，提供了更灵活的图像预处理选项。
LoRA支持扩展：为Gemma等模型的LoRA（低秩适应）微调增加了对query_proj和value_proj的目标命名支持。

总结

Keras Hub 0.19.0开发版通过引入多种先进的视觉模型和优化注意力计算，显著提升了在计算机视觉和生成式AI领域的能力。特别是对移动端友好模型和高效注意力机制的支持，使得开发者能够构建更高效、更强大的深度学习应用。这些改进不仅扩展了Keras Hub的功能范围，也为模型性能和开发效率带来了实质性提升。

keras-nlp

Pretrained model hub for Keras 3.

项目地址：https://gitcode.com/gh_mirrors/ke/keras-nlp

登录后查看全文

Keras Hub 0.19.0 开发版发布：新增视觉模型与注意力优化

核心更新内容

视觉模型增强

注意力机制优化

模型管理与工具增强

技术细节与改进

视觉Transformer实现

轻量级模型优化

稳定扩散模型升级

开发者体验改进

总结

热门内容推荐

最新内容推荐

项目优选

Keras Hub 0.19.0 开发版发布：新增视觉模型与注意力优化

核心更新内容

视觉模型增强

注意力机制优化

模型管理与工具增强

技术细节与改进

视觉Transformer实现

轻量级模型优化

稳定扩散模型升级

开发者体验改进

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选