跨平台LLM工具Easy Dataset:Windows/Mac/Linux全版本安装教程
你是否还在为不同操作系统间切换LLM微调数据集工具而烦恼?是否在寻找一款能在Windows、Mac和Linux系统上无缝运行的数据集构建工具?本文将提供Easy Dataset的全平台安装指南,帮助你在任何环境下快速搭建强大的LLM微调数据集构建系统。
读完本文,你将获得:
- Windows系统下的客户端安装与源码编译方案
- MacOS(Intel/M芯片)的应用安装与配置方法
- Linux系统的AppImage与Docker部署教程
- 常见安装问题的解决方案与性能优化建议
关于Easy Dataset
Easy Dataset是一款专为大型语言模型(LLM)微调数据集创建设计的跨平台应用程序。它提供直观的界面,支持上传领域特定文件、智能分割内容、生成问题,并为模型微调生成高质量训练数据。兼容所有遵循OpenAI格式的LLM API,使微调过程简单高效。
flowchart LR
A[文档上传] --> B[智能文本分割]
B --> C[问题生成]
C --> D[答案生成]
D --> E[数据集导出]
E --> F[LLM微调]
style A fill:#f9f,stroke:#333
style B fill:#9f9,stroke:#333
style C fill:#99f,stroke:#333
style D fill:#ff9,stroke:#333
style E fill:#f99,stroke:#333
style F fill:#9ff,stroke:#333
系统需求与环境准备
在开始安装前,请确保你的系统满足以下最低要求:
| 操作系统 | 最低配置 | 推荐配置 |
|---|---|---|
| Windows 10/11 | 4GB RAM, 64位处理器 | 8GB RAM, SSD硬盘 |
| MacOS 12+ | 4GB RAM, Intel/M1芯片 | 8GB RAM, M系列芯片 |
| Linux | 4GB RAM, 内核4.15+ | 8GB RAM, Docker环境 |
所有平台均需安装Node.js 16.x+环境以支持源码编译方式。
Windows系统安装指南
方法一:客户端安装(推荐)
- 访问项目发布页面下载最新的Windows安装包
- 双击运行
Setup.exe安装程序 - 遵循安装向导指示完成安装
- 安装完成后,从开始菜单启动Easy Dataset
- 首次启动会自动配置必要组件,等待完成后即可使用
方法二:源码编译安装
# 克隆仓库(国内用户推荐使用GitCode镜像)
git clone https://gitcode.com/gh_mirrors/ea/easy-dataset.git
cd easy-dataset
# 安装依赖(使用国内npm源加速)
npm install --registry=https://registry.npmmirror.com
# 构建应用
npm run build
# 启动应用
npm run start
注意:源码编译需要安装Windows构建工具,可通过
npm install --global --production windows-build-tools命令提前安装。
启动成功后,打开浏览器访问http://localhost:1717即可使用Easy Dataset。
MacOS系统安装指南
方法一:预编译应用安装
Mac用户根据芯片类型选择对应的安装包:
- Intel芯片:下载Intel版本的.dmg文件
- Apple Silicon (M1/M2/M3):下载M系列芯片专用版本
安装步骤:
- 打开下载的.dmg文件
- 将Easy Dataset拖入应用程序文件夹
- 首次打开时,按住Control键并点击应用图标
- 选择"打开",允许系统运行未签名的应用
- 等待应用初始化完成
方法二:使用Homebrew安装(开发版)
# 安装依赖
brew install node git
# 克隆仓库
git clone https://gitcode.com/gh_mirrors/ea/easy-dataset.git
cd easy-dataset
# 安装项目依赖
npm install
# 构建并启动
npm run build && npm run start
对于M系列芯片用户:如遇依赖安装问题,可能需要安装Rosetta 2转译环境:
softwareupdate --install-rosetta
Linux系统安装指南
方法一:AppImage便携版(推荐)
- 下载最新的AppImage文件
- 添加执行权限:
chmod +x EasyDataset-*.AppImage - 运行应用:
./EasyDataset-*.AppImage
方法二:Docker容器化部署
# 克隆仓库
git clone https://gitcode.com/gh_mirrors/ea/easy-dataset.git
cd easy-dataset
# 修改docker-compose配置
sed -i 's|ghcr.io/conardli/easy-dataset|easy-dataset|g' docker-compose.yml
# 构建镜像
docker build -t easy-dataset .
# 启动容器
docker-compose up -d
Docker部署架构:
docker-compose
easy-dataset:
image: easy-dataset
container_name: easy-dataset
ports:
- "1717:1717"
volumes:
- ./local-db:/app/local-db
restart: unless-stopped
注意:Linux系统下使用Docker部署时,需确保当前用户有Docker权限,或使用sudo执行相关命令。
跨平台通用安装方法:源码编译
无论使用哪种操作系统,都可以通过源码编译方式安装Easy Dataset:
# 克隆仓库
git clone https://gitcode.com/gh_mirrors/ea/easy-dataset.git
cd easy-dataset
# 安装依赖
npm install
# 构建项目
npm run build
# 启动应用
npm run start
提示:如果npm安装速度慢,可以使用国内镜像:
npm config set registry https://registry.npmmirror.com
启动成功后,访问http://localhost:1717即可打开Easy Dataset界面。
验证安装与基本配置
安装完成后,通过以下步骤验证系统是否正常工作:
- 启动Easy Dataset应用
- 访问
http://localhost:1717 - 点击"创建项目"按钮,输入测试项目名称
- 上传一个测试文档(支持PDF、Markdown等格式)
- 检查文本是否正确分割,功能是否正常
基础配置建议:
pie
title 推荐系统资源分配
"应用程序" : 40
"LLM模型运行" : 35
"系统保留" : 25
常见问题与解决方案
安装失败问题
-
依赖安装错误
# 清除npm缓存后重试 npm cache clean --force npm install -
端口1717被占用
# 修改配置文件中的端口号 sed -i 's/1717/1718/g' package.json -
数据库初始化失败
# 手动初始化数据库 npm run db:push
性能优化建议
-
增加内存分配:
# 创建.env文件设置NODE_OPTIONS echo "NODE_OPTIONS=--max-old-space-size=4096" > .env -
使用本地LLM模型:在设置中配置本地部署的模型,减少网络请求延迟
-
定期清理缓存:通过应用内"设置>维护"清理临时文件和缓存
总结与后续步骤
本文详细介绍了Easy Dataset在Windows、MacOS和Linux三大操作系统上的安装方法,包括预编译应用、源码编译和Docker容器化部署等多种方式。根据你的使用场景选择最合适的安装方案:
- 普通用户:推荐使用各平台的预编译应用,简单快捷
- 开发者:源码编译方式可获取最新功能
- 服务器部署:Docker方式便于维护和升级
安装完成后,你可以:
- 查阅官方文档了解高级功能
- 尝试导入文档创建第一个数据集
- 探索问题生成和答案优化功能
- 将生成的数据集导出用于LLM微调
Easy Dataset持续更新中,建议定期检查更新以获取最新功能和改进。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00