Dicio-android v3.0 版本发布：外部STT支持与功能增强

2025-07-08 21:49:04作者：邵娇湘

项目简介

Dicio-android 是一款开源的语音助手应用，它通过本地化的语音识别和自然语言处理技术，为用户提供隐私友好的智能交互体验。与依赖云服务的语音助手不同，Dicio-android 强调在设备端完成语音处理，保护用户隐私的同时提供实用的功能。

v3.0 版本主要更新

1. 外部语音识别(STT)支持

本次更新的核心功能是增加了对外部语音识别应用的支持。开发者通过实现 ACTION_RECOGNIZE_SPEECH 意图的接收，使得用户可以选择更准确的第三方STT引擎替代内置的Vosk识别。这一改进特别适合以下场景：

内置识别准确率不足时
需要支持更多语言识别
希望使用更先进的识别技术(如Whisper模型)

技术实现上，应用会检测系统中能处理语音识别意图的所有应用，用户可在设置中选择偏好应用。当语音输入时，系统会启动所选应用的识别界面，结果返回后继续后续处理流程。

2. 自定义唤醒词模型

针对OpenWakeWord引擎增加了自定义唤醒词模型导入功能。用户现在可以：

下载预训练的.tflite模型文件
通过应用界面导入自定义模型
使用更适合个人发音习惯的唤醒词

这项改进解决了部分用户发音与预设"Hey Dicio"不匹配的问题，同时也为技术爱好者提供了训练个性化唤醒词的可能性。

3. 媒体控制技能

新增的媒体控制功能目前支持英语、法语和意大利语，实现了基本的播放控制操作。该功能通过解析用户语音指令，转化为标准的媒体控制命令，与系统媒体会话交互。

4. 交互体验优化

版本包含多项体验改进：

无语音输入时播放提示音
识别失败后自动重试机制
天气信息响应精简和英制单位支持
计算器功能的语句匹配优化
修复语言设置不一致等稳定性问题

技术架构演进

v3.0版本将目标SDK升级至36，保持了与现代Android系统的兼容性。在语音处理流程上，应用现在支持更灵活的架构：

输入层：内置Vosk或外部STT应用
唤醒检测：OpenWakeWord(支持自定义模型)
意图识别：改进的语句匹配算法
技能执行：新增媒体控制等扩展功能

这种模块化设计使得各个组件可以独立改进和替换，为未来的功能扩展奠定了基础。

开发者视角

从实现角度看，值得注意的技术点包括：

意图处理机制的强化，特别是与外部应用的交互
模型文件导入的安全检查和兼容性处理
语音处理状态机的改进，增加重试等容错逻辑
多语言资源的结构优化，支持新功能的快速本地化

总结

Dicio-android v3.0通过引入外部STT支持和自定义唤醒词等特性，显著提升了语音识别的准确性和灵活性。同时，新增的媒体控制功能和多项交互优化使这个隐私优先的语音助手更加实用。这些改进展示了开源社区协作的力量，也为后续发展开辟了更多可能性。

dicio-android

Dicio assistant app for Android

项目地址：https://gitcode.com/gh_mirrors/di/dicio-android

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781