推荐使用Actions on Google Java/Kotlin客户端库构建智能助手应用
谷歌的Actions on Google Java/Kotlin客户端库是一个强大而灵活的工具,它简化了为Google Assistant创建交互式动作的过程,支持Dialogflow和Actions SDK的实现。利用这个库,开发者可以专注于业务逻辑,而不必担心底层请求处理的复杂性。
:warning: 提醒: 对话式动作将于2023年6月13日被弃用。有关更多信息,请查看对话式动作退役公告。
:warning: 注意: 此库适用于Dialogflow和旧版Actions SDK。现在推荐使用Actions Builder或Actions SDK开发、测试和部署对话式动作。
项目简介
Actions on Google Java/Kotlin库提供了一套完整的Maven依赖项,方便在Java 8及以上版本和Kotlin环境中进行集成开发。借助该库,您可以轻松地在IntelliJ IDEA或其他IDE中快速上手,编写和部署Google Assistant动作的后端服务。
- GitHub仓库: https://github.com/actions-on-google/actions-on-google-java
- 参考文档: https://actions-on-google.github.io/actions-on-google-java/
- Actions on Google官方文档: https://developers.google.com/assistant
- 示例项目: https://developers.google.com/assistant/actions/samples
技术分析
该库提供了核心API类,如App接口(处理JSON请求和响应)、DefaultApp(实现了基础请求处理逻辑)、DialogflowApp和ActionsSdkApp(针对Dialogflow或直接从Google Assistant请求的特有实现)以及帮助构建回复的ActionRequest、ActionResponse和ResponseBuilder等。这些类和接口封装了JSON协议,使得组装和处理各种类型的动作响应变得简单直观。
应用场景
此库广泛应用于以下场景:
- 创建与用户自然对话的Google Assistant动作。
- 实现基于Dialogflow的意图处理器,以处理特定的用户输入。
- 利用辅助意图(如请求确认或获取位置信息)来丰富用户体验。
- 构建富媒体响应,如基本卡片、轮播图、列表和SSML语音回复。
项目特点
- 易用性:通过注解驱动的编程模型,您只需定义一个带有
@ForIntent注解的方法即可处理指定的意图。 - 灵活性:支持文本、音频、视觉元素和各种交互模式的组合,为用户提供丰富的交互体验。
- 强大的构建工具:
ResponseBuilder提供了丰富的辅助方法,用于构建包括基本卡、按钮、建议在内的多类型响应。 - 本地调试和单元测试:可配置本地服务器进行调试,并通过Postman等工具发送测试请求。
- 全面的文档和支持:详细的参考文档、社区资源和官方支持,便于问题排查和学习。
要开始您的Google Assistant项目,只需将相关依赖添加到Gradle或Maven文件中,然后按照提供的说明设置项目。别忘了从GitHub上的模板项目入手,以加快开发速度。
立即尝试Actions on Google Java/Kotlin客户端库,构建出令人惊叹的Google Assistant体验!
AutoGLM-Phone-9BAutoGLM-Phone-9B是基于AutoGLM构建的移动智能助手框架,依托多模态感知理解手机屏幕并执行自动化操作。Jinja00
Kimi-K2-ThinkingKimi K2 Thinking 是最新、性能最强的开源思维模型。从 Kimi K2 开始,我们将其打造为能够逐步推理并动态调用工具的思维智能体。通过显著提升多步推理深度,并在 200–300 次连续调用中保持稳定的工具使用能力,它在 Humanity's Last Exam (HLE)、BrowseComp 等基准测试中树立了新的技术标杆。同时,K2 Thinking 是原生 INT4 量化模型,具备 256k 上下文窗口,实现了推理延迟和 GPU 内存占用的无损降低。Python00
GLM-4.6V-FP8GLM-4.6V-FP8是GLM-V系列开源模型,支持128K上下文窗口,融合原生多模态函数调用能力,实现从视觉感知到执行的闭环。具备文档理解、图文生成、前端重构等功能,适用于云集群与本地部署,在同类参数规模中视觉理解性能领先。Jinja00
HunyuanOCRHunyuanOCR 是基于混元原生多模态架构打造的领先端到端 OCR 专家级视觉语言模型。它采用仅 10 亿参数的轻量化设计,在业界多项基准测试中取得了当前最佳性能。该模型不仅精通复杂多语言文档解析,还在文本检测与识别、开放域信息抽取、视频字幕提取及图片翻译等实际应用场景中表现卓越。00
GLM-ASR-Nano-2512GLM-ASR-Nano-2512 是一款稳健的开源语音识别模型,参数规模为 15 亿。该模型专为应对真实场景的复杂性而设计,在保持紧凑体量的同时,多项基准测试表现优于 OpenAI Whisper V3。Python00
GLM-TTSGLM-TTS 是一款基于大语言模型的高质量文本转语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合了用于语音 token 生成的大语言模型(LLM)和用于波形合成的流匹配(Flow Matching)模型。 通过引入多奖励强化学习框架,GLM-TTS 显著提升了合成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。Python00
Spark-Formalizer-X1-7BSpark-Formalizer 是由科大讯飞团队开发的专用大型语言模型,专注于数学自动形式化任务。该模型擅长将自然语言数学问题转化为精确的 Lean4 形式化语句,在形式化语句生成方面达到了业界领先水平。Python00