首页
/ 中英平行语料库使用说明

中英平行语料库使用说明

2026-01-31 05:22:54作者:董斯意

简介

本中英平行语料库包含了8400多对经过预处理的中英语句。语料库中的句子均采用jieba工具进行了中文分词处理,同时保证了标点符号的正确性。所有数据以制表符\t为分隔符保存于en-zh.csv文件中,而非默认的逗号分隔符。

数据特点

  • 句粒度对齐:语料库中的数据以句粒度进行对齐,虽然包含不少长句,但经过裁剪后,仍可提供5万对高质量的中英语句。
  • 预处理:原始数据集中en-zh_News.tmx文件的部分句子存在问题,这些问题句子已在en-zh.csv文件中被丢弃,确保了语料库的质量。
  • 附加资源:为了方便用户使用,本仓库还提供了预处理脚本(propressor.py)以及适用于pytorch框架的数据集实现(LangData.py)。

使用说明

  • 请直接使用提供的en-zh.csv文件进行相关研究或开发工作。
  • 若需深入研究或对原始数据进行探索,建议使用预处理后的文件而非原始的en-zh_News.tmx文件。
  • 如果您在使用过程中发现任何可以改进的地方,或者有任何建议和疑问,欢迎在评论区留言交流。

版权与许可

  • 本语料库可供个人研究或学术用途,未经允许不得用于商业目的。
  • 请尊重数据版权,合理使用资源,遵守相关法律法规。

感谢您的使用,期待您的反馈,共同推动自然语言处理技术的发展。

登录后查看全文
热门项目推荐
相关项目推荐