Azure AI Inference Python SDK 1.0.0b7版本发布:图像嵌入与结构化输出新特性解析
Azure AI Inference Python SDK是微软Azure云平台提供的用于AI推理任务的开发工具包,它简化了开发者在云端部署和使用AI模型的过程。本次发布的1.0.0b7版本带来了多项重要更新,包括全新的图像嵌入客户端和对结构化输出的支持,这些改进将显著提升开发者在构建AI应用时的效率和灵活性。
图像嵌入功能正式加入
1.0.0b7版本引入了全新的ImageEmbeddingsClient客户端,专门用于处理图像嵌入任务。图像嵌入是将图像转换为数值向量的过程,这些向量能够捕捉图像的关键特征,广泛应用于图像搜索、相似性比较和分类等场景。
开发者现在可以通过简单的API调用获取图像的嵌入向量,而无需关心底层的复杂实现。这一功能的加入使得Azure AI Inference SDK在计算机视觉领域的能力得到了重要扩展,为构建多模态AI应用提供了更强大的支持。
结构化输出支持
新版本对聊天补全功能进行了重要增强,增加了对结构化JSON输出的支持。这意味着开发者现在可以指定输出的JSON格式,甚至定义详细的JSON Schema,确保AI模型的响应严格遵循预定义的结构。
这一特性特别适合需要精确控制输出格式的场景,比如:
- 构建需要与其他系统集成的AI应用
- 开发需要严格数据格式的业务流程自动化工具
- 创建需要规范化输出的企业级解决方案
SDK提供了两种方式来定义结构化输出:
- 简单的"json-object"标志,用于基本的JSON格式输出
- 完整的JsonSchemaFormat,用于定义详细的输出结构
API使用简化
为了提高开发体验,1.0.0b7版本对消息类的构造函数进行了优化。现在,UserMessage、SystemMessage、AssistantMessage和ToolMessage等类的content参数可以作为位置参数直接传递,不再需要显式指定参数名。
这一改进虽然看似微小,但在实际开发中能显著减少代码量,特别是在构建复杂对话历史时。例如,原先需要写成UserMessage(content="我的消息")的代码,现在可以简化为UserMessage("我的消息"),使代码更加简洁易读。
问题修复与性能优化
本次更新还包含了一些重要的错误修复和性能改进:
-
修复了在启用追踪功能但未安装azure-core-tracing-opentelemetry时,异步聊天补全可能出现的错误问题。这一修复确保了追踪功能在各种环境下的稳定性。
-
改进了追踪事件的时间戳处理,现在会强制区分提示和补全事件的时间戳,确保聊天历史的顺序正确性。这对于调试和分析AI模型的交互过程尤为重要。
迁移指南
对于已经使用早期版本的开发者,需要注意以下兼容性变化:
原先通过response_format=ChatCompletionsResponseFormatJSON()配置的JSON格式输出,现在需要改为response_format="json-object"。建议开发者利用这次机会升级到更强大的结构化输出功能,使用JsonSchemaFormat来定义详细的输出模式。
总结
Azure AI Inference Python SDK 1.0.0b7版本的发布,通过引入图像嵌入客户端和结构化输出支持,显著扩展了SDK的功能边界。这些新特性不仅丰富了开发者的工具箱,也为构建更复杂、更可靠的AI应用提供了坚实基础。API的简化改进则进一步提升了开发体验,使代码更加简洁优雅。
对于正在构建AI应用的开发者来说,这次更新提供了处理图像数据和精确控制输出格式的新方法,值得尽快评估和采用。随着Azure AI生态系统的持续完善,我们可以期待未来会有更多强大的功能加入这个SDK。
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00- DDeepSeek-OCR暂无简介Python00
openPangu-Ultra-MoE-718B-V1.1昇腾原生的开源盘古 Ultra-MoE-718B-V1.1 语言模型Python00
HunyuanWorld-Mirror混元3D世界重建模型,支持多模态先验注入和多任务统一输出Python00
AI内容魔方AI内容专区,汇集全球AI开源项目,集结模块、可组合的内容,致力于分享、交流。03
Spark-Scilit-X1-13BFLYTEK Spark Scilit-X1-13B is based on the latest generation of iFLYTEK Foundation Model, and has been trained on multiple core tasks derived from scientific literature. As a large language model tailored for academic research scenarios, it has shown excellent performance in Paper Assisted Reading, Academic Translation, English Polishing, and Review Generation, aiming to provide efficient and accurate intelligent assistance for researchers, faculty members, and students.Python00
GOT-OCR-2.0-hf阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00- HHowToCook程序员在家做饭方法指南。Programmer's guide about how to cook at home (Chinese only).Dockerfile013
Spark-Chemistry-X1-13B科大讯飞星火化学-X1-13B (iFLYTEK Spark Chemistry-X1-13B) 是一款专为化学领域优化的大语言模型。它由星火-X1 (Spark-X1) 基础模型微调而来,在化学知识问答、分子性质预测、化学名称转换和科学推理方面展现出强大的能力,同时保持了强大的通用语言理解与生成能力。Python00- PpathwayPathway is an open framework for high-throughput and low-latency real-time data processing.Python00