MultEval 使用教程

2025-04-21 22:21:59作者：齐添朝

1. 项目介绍

MultEval 是一个开源项目，旨在为统计机器翻译提供更优的假设测试方法，控制优化器的不稳定性。它通过多次运行优化器，对BLEU、METEOR和TER等三种流行指标进行评分，并提供标准差（通过自助抽样）和p值（通过近似随机化）。这样可以降低使用不稳定优化器（如MERT、MIRA和MCMC）的风险。该项目由CMU的Jonathan Clark等人开发，并在ACL 2011上发表相关论文。

2. 项目快速启动

首先，下载并解压程序：

wget http://www.cs.cmu.edu/~jhclark/downloads/multeval-0.5.1.tgz
tar -xvzf multeval-0.5.1.tgz

然后，对单个系统进行评估，获取BLEU、METEOR和TER评分及其标准差：

./multeval.sh eval --refs example/refs.test2010.lc.tok.en.* --hyps-baseline example/hyps.lc.tok.en.baseline.opt --meteor.language en

第一次运行此命令时，METEOR及其大量的同义词表将被下载。MultEval还会打印METEOR认为的顶级未知词汇，以帮助用户确定是否存在分词不匹配的情况。

3. 应用案例和最佳实践

对于从示例数据中比较多个系统并获取评分、标准差和p值的情况，可以使用以下命令：

./multeval.sh eval --refs example/refs.test2010.lc.tok.en.* --hyps-baseline example/hyps.lc.tok.en.baseline.opt --hyps-sys1 example/hyps.lc.tok.en.sys1.opt --hyps-sys2 example/hyps.lc.tok.en.sys2.opt --meteor.language en

如果你还想得到1) 可以复制粘贴到你的论文中的LaTeX表格，2) 基准系统上的优化运行中位数排名的假设，以及3) 包括BLEU精确度和简洁度等子度量的句子级指标分数列表，那么可以像这样运行：

./multeval.sh eval --refs example/refs.test2010.lc.tok.en.* --hyps-baseline example/hyps.lc.tok.en.baseline.opt --hyps-sys1 example/hyps.lc.tok.en.sys1.opt --hyps-sys2 example/hyps.lc.tok.en.sys2.opt --meteor.language en --latex table.tex --rankDir rank --sentLevelDir sentLevel

所有文件应包含UTF-8编码的、分词的、小写的、空格分隔的句子，每行一个句子。与许多指标实现不同，MultEval不会为你执行任何分词或切分（见下文讨论）。

通常，你应该评估完整形式（即没有词切分）。对于没有单词规范概念的语言（如中文、日语），建议将所有非拉丁字符（例如，不是借用的西方单词、URL等的每个字符）评估为其自己的单词。

4. 典型生态项目

MultEval 项目是一个典型的开源生态项目，它依赖于其他开源项目，如METEOR。它的使用者可以进一步扩展其功能，例如，通过添加新的评价指标或优化算法。由于其开放性和可扩展性，MultEval 在机器翻译社区中得到了广泛的应用和认可。

登录后查看全文

MultEval 使用教程

1. 项目介绍

2. 项目快速启动

3. 应用案例和最佳实践

4. 典型生态项目

热门内容推荐

最新内容推荐

项目优选

MultEval 使用教程

1. 项目介绍

2. 项目快速启动

3. 应用案例和最佳实践

4. 典型生态项目

相关内容推荐

热门内容推荐

最新内容推荐

项目优选