Azure.AI.Agents.Persistent项目1.1.0-beta.1版本发布:增强AI代理能力
Azure.AI.Agents.Persistent是微软Azure SDK for .NET中的一个重要组件,专注于为开发者提供持久化AI代理功能。这个库使得开发者能够构建具有记忆和状态保持能力的AI代理应用,为构建复杂的对话系统和智能助手提供了强大支持。
本次发布的1.1.0-beta.1版本带来了多项重要更新,主要集中在工具集的扩展和API版本的升级。作为预览版本,它展示了微软在AI代理领域的最新探索方向。
API版本升级
新版本将API版本提升至2025-05-15-preview,这意味着开发者现在可以访问最新的预览功能。API版本控制是Azure服务的重要特性,它确保了向后兼容性,同时允许开发者选择使用特定版本的功能集。
新增工具支持
1.1.0-beta.1版本最显著的变化是增加了三个重要的工具集成:
Bing自定义搜索工具
这个工具允许AI代理访问经过定制的Bing搜索结果。与普通搜索不同,自定义搜索可以限定在特定网站或内容源,确保返回的信息更加精准和相关。这对于构建专业领域的AI应用特别有价值。
SharePoint连接工具
新增的SharePoint连接能力使得AI代理可以直接访问企业SharePoint中的文档和数据。这极大地扩展了AI代理在企业环境中的应用场景,使其能够基于企业内部知识库提供更准确的回答和建议。
Microsoft Fabric集成
Microsoft Fabric是微软的统一数据分析平台,这次集成意味着AI代理现在可以直接与Fabric中的数据交互。开发者可以构建能够查询、分析和解释企业数据的智能代理,为商业智能和数据分析场景提供AI增强功能。
技术意义与应用前景
这些新增功能展示了微软在AI代理领域的战略方向——将AI能力深度集成到企业工作流和知识管理中。通过连接Bing、SharePoint和Fabric等服务,AI代理不再局限于通用知识,而是能够利用企业特定的数据和信息源。
对于开发者而言,这意味着可以构建更加专业化、场景化的AI应用。例如:
- 企业内部知识助手:结合SharePoint中的文档提供精准回答
- 数据分析助手:通过Fabric连接直接解释商业数据
- 垂直领域专家:利用Bing自定义搜索获取特定领域的最新信息
版本状态说明
作为beta版本,1.1.0-beta.1主要面向早期采用者和技术评估。开发者可以在非生产环境中测试这些新功能,为未来的稳定版本做准备。微软通常会根据beta版本的反馈进行优化和调整,最终推出正式版本。
总结
Azure.AI.Agents.Persistent 1.1.0-beta.1版本的发布,标志着微软在AI代理与企业服务集成方面又迈出了重要一步。通过扩展工具集和提升API版本,它为开发者提供了更强大的能力来构建下一代智能应用。对于关注AI代理技术发展的开发者来说,这个版本值得密切关注和评估。
AutoGLM-Phone-9BAutoGLM-Phone-9B是基于AutoGLM构建的移动智能助手框架,依托多模态感知理解手机屏幕并执行自动化操作。Jinja00
Kimi-K2-ThinkingKimi K2 Thinking 是最新、性能最强的开源思维模型。从 Kimi K2 开始,我们将其打造为能够逐步推理并动态调用工具的思维智能体。通过显著提升多步推理深度,并在 200–300 次连续调用中保持稳定的工具使用能力,它在 Humanity's Last Exam (HLE)、BrowseComp 等基准测试中树立了新的技术标杆。同时,K2 Thinking 是原生 INT4 量化模型,具备 256k 上下文窗口,实现了推理延迟和 GPU 内存占用的无损降低。Python00
GLM-4.6V-FP8GLM-4.6V-FP8是GLM-V系列开源模型,支持128K上下文窗口,融合原生多模态函数调用能力,实现从视觉感知到执行的闭环。具备文档理解、图文生成、前端重构等功能,适用于云集群与本地部署,在同类参数规模中视觉理解性能领先。Jinja00
HunyuanOCRHunyuanOCR 是基于混元原生多模态架构打造的领先端到端 OCR 专家级视觉语言模型。它采用仅 10 亿参数的轻量化设计,在业界多项基准测试中取得了当前最佳性能。该模型不仅精通复杂多语言文档解析,还在文本检测与识别、开放域信息抽取、视频字幕提取及图片翻译等实际应用场景中表现卓越。00
GLM-ASR-Nano-2512GLM-ASR-Nano-2512 是一款稳健的开源语音识别模型,参数规模为 15 亿。该模型专为应对真实场景的复杂性而设计,在保持紧凑体量的同时,多项基准测试表现优于 OpenAI Whisper V3。Python00
GLM-TTSGLM-TTS 是一款基于大语言模型的高质量文本转语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合了用于语音 token 生成的大语言模型(LLM)和用于波形合成的流匹配(Flow Matching)模型。 通过引入多奖励强化学习框架,GLM-TTS 显著提升了合成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。Python00
Spark-Formalizer-X1-7BSpark-Formalizer 是由科大讯飞团队开发的专用大型语言模型,专注于数学自动形式化任务。该模型擅长将自然语言数学问题转化为精确的 Lean4 形式化语句,在形式化语句生成方面达到了业界领先水平。Python00