Google Cloud Discovery Engine v1 2.1.0版本发布:增强搜索与内容管理能力
Google Cloud Discovery Engine是谷歌云平台提供的一套企业级搜索和推荐服务解决方案,它基于谷歌先进的搜索技术,帮助企业构建定制化的搜索体验。该服务能够处理结构化数据和非结构化内容,提供智能化的搜索结果排序和推荐功能。
最新发布的2.1.0版本为Discovery Engine v1带来了多项重要功能增强,主要集中在搜索体验优化、内容管理能力提升以及会话交互改进等方面。这些更新使得开发者能够构建更加智能、个性化的搜索解决方案。
核心功能更新
增强的搜索与问答能力
新版本对搜索和问答功能进行了显著增强。search和search_liteRPC现在支持更多参数配置,开发者可以设置相关性阈值来控制结果质量,还可以获取每个结果的相关性评分,这对于结果排序和过滤非常有帮助。问答功能方面,answer_queryRPC新增了基础规范(grounding specification)和终端用户规范(end user specification)参数,使得回答可以更好地基于特定上下文和用户特征进行定制。
特别值得注意的是新增的stream_answer_queryRPC,它提供了流式问答能力,可以实现渐进式的答案返回,大大改善了用户体验,特别是对于复杂问题的回答场景。
改进的会话管理
会话管理功能得到了加强,get_sessionRPC现在可以返回完整的会话信息,包括所有答案的详细信息。这一改进使得开发者能够更好地跟踪和分析用户与系统的交互历史,为构建更智能的对话系统提供了基础。
内容管理增强
在内容管理方面,新版本增加了对站点地图(sitemap)管理的支持,使得内容组织和发现更加高效。import_documentsRPC新增了强制刷新非结构化内容的能力,确保内容索引能够及时更新。此外,新增的ServingConfigService提供了更灵活的搜索服务配置管理能力。
技术实现考量
从技术架构角度看,这些更新反映了Discovery Engine向更精细化控制和更丰富交互体验的发展方向。流式问答接口的引入特别值得关注,它需要服务端和客户端之间建立稳定的长连接,并处理可能的分块数据传输和重组。
相关性评分和阈值的引入为搜索质量调优提供了量化指标,开发者可以根据业务需求精确控制结果集的质量。基础规范参数则为知识图谱和事实基础的问答提供了支持,有助于减少幻觉回答。
应用场景建议
这些新功能特别适合以下应用场景:
- 需要渐进式展示复杂答案的知识库系统
- 对搜索结果质量有严格要求的电商平台
- 基于多轮对话的智能客服系统
- 内容频繁更新的媒体网站或文档系统
开发者可以利用相关性评分实现动态结果过滤,使用流式问答改善用户体验,通过增强的会话管理构建更连贯的对话流程。
总结
Google Cloud Discovery Engine v1 2.1.0版本的发布标志着该服务在搜索质量、交互体验和内容管理方面的显著进步。新功能不仅提供了更多技术控制点,也为构建更智能的搜索和推荐系统开辟了新的可能性。对于正在使用或考虑采用Discovery Engine的企业来说,这个版本值得特别关注和评估。
AutoGLM-Phone-9BAutoGLM-Phone-9B是基于AutoGLM构建的移动智能助手框架,依托多模态感知理解手机屏幕并执行自动化操作。Jinja00
Kimi-K2-ThinkingKimi K2 Thinking 是最新、性能最强的开源思维模型。从 Kimi K2 开始,我们将其打造为能够逐步推理并动态调用工具的思维智能体。通过显著提升多步推理深度,并在 200–300 次连续调用中保持稳定的工具使用能力,它在 Humanity's Last Exam (HLE)、BrowseComp 等基准测试中树立了新的技术标杆。同时,K2 Thinking 是原生 INT4 量化模型,具备 256k 上下文窗口,实现了推理延迟和 GPU 内存占用的无损降低。Python00
GLM-4.6V-FP8GLM-4.6V-FP8是GLM-V系列开源模型,支持128K上下文窗口,融合原生多模态函数调用能力,实现从视觉感知到执行的闭环。具备文档理解、图文生成、前端重构等功能,适用于云集群与本地部署,在同类参数规模中视觉理解性能领先。Jinja00
HunyuanOCRHunyuanOCR 是基于混元原生多模态架构打造的领先端到端 OCR 专家级视觉语言模型。它采用仅 10 亿参数的轻量化设计,在业界多项基准测试中取得了当前最佳性能。该模型不仅精通复杂多语言文档解析,还在文本检测与识别、开放域信息抽取、视频字幕提取及图片翻译等实际应用场景中表现卓越。00
GLM-ASR-Nano-2512GLM-ASR-Nano-2512 是一款稳健的开源语音识别模型,参数规模为 15 亿。该模型专为应对真实场景的复杂性而设计,在保持紧凑体量的同时,多项基准测试表现优于 OpenAI Whisper V3。Python00
GLM-TTSGLM-TTS 是一款基于大语言模型的高质量文本转语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合了用于语音 token 生成的大语言模型(LLM)和用于波形合成的流匹配(Flow Matching)模型。 通过引入多奖励强化学习框架,GLM-TTS 显著提升了合成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。Python00
Spark-Formalizer-X1-7BSpark-Formalizer 是由科大讯飞团队开发的专用大型语言模型,专注于数学自动形式化任务。该模型擅长将自然语言数学问题转化为精确的 Lean4 形式化语句,在形式化语句生成方面达到了业界领先水平。Python00