首页
/ Multi30k数据集

Multi30k数据集

2026-01-31 04:37:52作者:范靓好Udolf

简介

本仓库提供Multi30k数据集,这是一组用于机器翻译和视觉描述生成任务的多模态数据集。数据集包含英德两种语言的平行语料库,以及与文本对应的图像。

数据内容

  • 数据文件:包含英德两种语言的平行语料库,以及对应的图像描述。
  • subword-nmt:作为GIT子模块提供的最新快照(2017年12月),用于减少用户之间的处理差异。
  • Moses预处理脚本:最新快照,用于数据预处理。

克隆仓库

为了正确获取所有内容,请使用以下命令克隆存储库:

git clone --recursive https://github.com/multi30k/dataset.git multi30k-dataset

图像资源

  • 视觉特征:可以预先提取的视觉功能,也可以在Flickr30k的原始图像中找到。
  • 图像下载:可以从资源中下载test_2017_flickr和test_2018_flickr图像。

文件结构

  • task1:下的原始文件和标记文件,这些文件是使用预处理脚本生成的。

测试集

  • Multi30K 2018测试集:您可以使用该测试集在2018年测试集上评估模型,并参与正在进行的竞赛。

统计数据

  • train (en):29

注意事项

  • 请确保在克隆仓库时使用--recursive标志,以获取所有子模块。
  • 使用数据集时,请遵守相应的使用条款和版权规定。
登录后查看全文
热门项目推荐
相关项目推荐