首页
/ 【亲测免费】 268G+训练好的word2vec模型(中文词向量)

【亲测免费】 268G+训练好的word2vec模型(中文词向量)

2026-01-28 04:01:40作者:舒璇辛Bertina

介绍

本仓库提供了一个经过268G+语料训练好的word2vec模型,适用于中文词向量的应用。该模型基于百度百科、搜狐新闻和小说等多种语料进行训练,能够有效地捕捉中文词汇之间的语义关系。

模型参数

  • window: 5
  • min_count: 10
  • size: 128
  • hs: 1
  • negative: 0
  • iter: 5

使用方法

加载模型

模型提供了两种格式:binmodel

bin格式

from gensim.models import KeyedVectors

model = KeyedVectors.load_word2vec_format('model_path', binary=True)

model格式

from gensim.models import Word2Vec

model = Word2Vec.load('model_path')

训练语料

  • 百度百科:800w+条,26G+
  • 搜狐新闻:400w+条,13G+
  • 小说:229G+

注意事项

  • 模型文件较大,建议在网络条件良好的情况下进行下载。
  • 使用时请确保已安装gensim库。

贡献

欢迎提交问题和建议,帮助改进模型。

许可证

本项目遵循CC 4.0 BY-SA版权协议。

登录后查看全文
热门项目推荐
相关项目推荐