多模态语音情绪识别与歧义解决:轻量级模型的挑战
概览
多模态语音情绪识别是音频处理领域一个复杂且富有挑战的任务,因为情感本身的定义就充满了歧义。在这个项目中,我们构建了轻量级的多模态机器学习模型,并将其与较重且解释性较差的深度学习模型进行了比较。在构建这两种类型的模型时,我们都从给定的音频信号中提取手工特征。实验结果显示,轻量级模型在某些情况下甚至可以超越深度学习基线,达到IEMOCAP数据集上的最新最优性能。
我们训练的模型包括:
- 基于机器学习(ML)的:逻辑回归、支持向量机、随机森林、极端梯度提升和多项式朴素贝叶斯。
- 基于深度学习(DL)的:多层感知机和LSTM分类器。
该项目是在滑铁卢大学的Richard Mann教授开设的计算机音频课程(CS 698)中作为课程项目进行的。如需更详细的说明,请查阅报告。
数据集
本工作中的所有实验都基于IEMOCAP数据集。有关数据预处理的详细信息,敬请参考报告。
环境要求
所有的实验都在以下库的环境下测试:
- xgboost==0.82
- torch==1.0.1.post2
- scikit-learn==0.20.3
- numpy==1.16.2
- jupyter==1.0.0
- pandas==0.24.1
- librosa==0.7.0
建议创建一个新的Python虚拟环境来安装这些依赖项。在新环境中运行pip install -r requirements.txt
即可。
运行代码指南
- 使用命令
git clone git@github.com:Demfier/multimodal-speech-emotion-recognition
克隆此仓库。 - 执行
cd multimodal-speech-emotion-recognition/
进入项目根目录。 - 启动Jupyter Notebook,执行
jupyter notebook
。 - 运行
1_extract_emotion_labels.ipynb
以从转录文本中提取标签并准备其他所需数据到CSV文件。 - 运行
2_build_audio_vectors.ipynb
从原始wav文件构建矢量并保存为pickle文件。 - 运行
3_extract_audio_features.ipynb
从音频矢量中提取8维音频特征向量。 - 运行
4_prepare_data.ipynb
对音频和视频数据进行预处理和准备。 - 首先训练LSTMClassifier以便与其他模型进行比较:
- 根据需要修改
config.py
配置文件(例如,如果要训练语音2情感分类器,修改lstm_classifier/s2e/config.py
)。对训练文本2情感(t2e
)和文本+语音2情感(combined
)分类器的操作类似。 - 在
lstm_classifier/{exp_mode}
下运行python lstm_classifier.py
训练LSTM分类器(可能的exp_mode
值:s2e/t2e/combined
)。
- 根据需要修改
- 运行
5_audio_classification.ipynb
训练基于音频的机器学习分类器。 - 运行
5.1_sentence_classification.ipynb
训练基于文本的机器学习分类器。 - 运行
5.2_combined_classification.ipynb
训练基于音频+文本的机器学习分类器。
**注意:**确保在笔记本书中指定正确的模型路径,目前不是完全相对的,需要一些重构。
**更新:**可从此处下载预处理后的数据文件以跳过步骤4-7: https://www.dropbox.com/scl/fo/jdzz2y9nngw9rxsbz9vyj/h?rlkey=bji7zcqclusagzfwa7alm59hx&dl=0
结果
已报告不同实验的准确率、F1得分、精确率和召回率。
音频
模型 | 准确率 | F1 | 精确率 | 召回率 |
---|---|---|---|---|
RF | 56.0 | 56.0 | 57.2 | 57.3 |
XGB | 55.6 | 56.0 | 56.9 | 56.8 |
SVM | 33.7 | 15.2 | 17.4 | 21.5 |
MNB | 31.3 | 9.1 | 19.6 | 17.2 |
LR | 33.4 | 14.9 | 17.8 | 20.9 |
MLP | 41.0 | 36.5 | 42.2 | 35.9 |
LSTM | 43.6 | 43.4 | 53.2 | 40.6 |
ARE (4类) | 56.3 | - | 54.6 | - |
E1 (4类) | 56.2 | 45.9 | 67.6 | 48.9 |
E1 | 56.6 | 55.7 | 57.3 | 57.3 |
E1: 集成(RF + XGB + MLP)
文本
模型 | 准确率 | F1 | 精确率 | 召回率 |
---|---|---|---|---|
RF | 62.2 | 60.8 | 65.0 | 62.0 |
XGB | 56.9 | 55.0 | 70.3 | 51.8 |
SVM | 62.1 | 61.7 | 62.5 | 63.5 |
MNB | 61.9 | 62.1 | 71.8 | 58.6 |
LR | 64.2 | 64.3 | 69.5 | 62.3 |
MLP | 60.6 | 61.5 | 62.4 | 63.0 |
LSTM | 63.1 | 62.5 | 65.3 | 62.8 |
TRE (4类) | 65.5 | - | 63.5 | - |
E1 (4类) | 63.1 | 61.4 | 67.7 | 59.0 |
E2 | 64.9 | 66.0 | 71.4 | 63.2 |
E2: 集成(RF + XGB + MLP + MNB + LR) E1: 集成(RF + XGB + MLP)
音频 + 文本
模型 | 准确率 | F1 | 精确率 | 召回率 |
---|---|---|---|---|
RF | 65.3 | 65.8 | 69.3 | 65.5 |
XGB | 62.2 | 63.1 | 67.9 | 61.7 |
SVM | 63.4 | 63.8 | 63.1 | 65.6 |
MNB | 60.5 | 60.3 | 70.3 | 57.1 |
MLP | 66.1 | 68.1 | 68.0 | 69.6 |
LR | 63.2 | 63.7 | 66.9 | 62.3 |
LSTM | 64.2 | 64.7 | 66.1 | 65.0 |
MDRE (4类) | 75.3 | - | 71.8 | - |
E1 (4类) | 70.3 | 67.5 | 73.2 | 65.5 |
E2 | 70.1 | 71.8 | 72.9 | 71.5 |
更多详细信息,请参阅报告。
引用
如果你发现这个工作有价值,请引用:
@article{sahu2019multimodal,
title={多模态语音情绪识别与歧义解决},
author={Sahu, Gaurav},
journal={arXiv preprint arXiv:1904.06022},
year={2019}
}
推荐理由:
这款开源项目提供了一种新颖的策略,即使用轻量级机器学习模型在多模态情感识别任务中挑战深度学习。对于资源有限或对可解释性有特殊需求的开发者来说,这是一个绝佳的选择。此外,它提供了一个详尽的工作流程,方便研究者理解并复现实验结果。通过集成多个模型,系统整体性能得到了显著提升,这为未来的情感分析研究提供了宝贵的见解。
这个项目的另一个亮点在于其使用了广泛认可的IEMOCAP数据集,使得任何后续研究都可以直接与现有的标准进行对比。不论是学术研究人员还是工业界的实践者,都能从中受益,提高他们的情感识别解决方案。
总之,如果你正在寻找一种高效、灵活并且易于实施的情绪识别方法,那么这款开源项目绝对值得你的关注和使用。
- DDeepSeek-V3.1-BaseDeepSeek-V3.1 是一款支持思考模式与非思考模式的混合模型Python00
- QQwen-Image-Edit基于200亿参数Qwen-Image构建,Qwen-Image-Edit实现精准文本渲染与图像编辑,融合语义与外观控制能力Jinja00
GitCode-文心大模型-智源研究院AI应用开发大赛
GitCode&文心大模型&智源研究院强强联合,发起的AI应用开发大赛;总奖池8W,单人最高可得价值3W奖励。快来参加吧~042CommonUtilLibrary
快速开发工具类收集,史上最全的开发工具类,欢迎Follow、Fork、StarJava04GitCode百大开源项目
GitCode百大计划旨在表彰GitCode平台上积极推动项目社区化,拥有广泛影响力的G-Star项目,入选项目不仅代表了GitCode开源生态的蓬勃发展,也反映了当下开源行业的发展趋势。06GOT-OCR-2.0-hf
阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00openHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!C0295- WWan2.2-S2V-14B【Wan2.2 全新发布|更强画质,更快生成】新一代视频生成模型 Wan2.2,创新采用MoE架构,实现电影级美学与复杂运动控制,支持720P高清文本/图像生成视频,消费级显卡即可流畅运行,性能达业界领先水平Python00
- GGLM-4.5-AirGLM-4.5 系列模型是专为智能体设计的基础模型。GLM-4.5拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。GLM-4.5模型统一了推理、编码和智能体能力,以满足智能体应用的复杂需求Jinja00
Yi-Coder
Yi Coder 编程模型,小而强大的编程助手HTML013
热门内容推荐
最新内容推荐
项目优选









