首页
/ CrunchBase 数据导出为 CSV 格式项目教程

CrunchBase 数据导出为 CSV 格式项目教程

2025-04-21 14:39:00作者:宣聪麟

1. 项目目录结构及介绍

项目的主要目录结构如下:

crunchbase-data/
├── .gitignore
├── LICENSE
├── acquisitions.csv
├── additions.csv
├── companies.csv
├── crunchbase-csv.py
├── investments.csv
├── readme.md
├── requirements.txt
├── rounds.csv
  • .gitignore:Git 忽略文件列表,指定在执行 git 命令时应该忽略的文件和目录。
  • LICENSE:项目许可证文件,本项目采用 MIT 许可。
  • acquisitions.csv:收购数据文件,以 CSV 格式存储。
  • additions.csv:新增数据文件,以 CSV 格式存储。
  • companies.csv:公司数据文件,以 CSV 格式存储。
  • crunchbase-csv.py:Python 脚本文件,用于将 CrunchBase 数据从 XLSX 格式转换为 CSV 格式。
  • investments.csv:投资数据文件,以 CSV 格式存储。
  • readme.md:项目自述文件,包含项目信息和说明。
  • requirements.txt:项目依赖文件,列出项目运行所需的 Python 库。
  • rounds.csv:融资轮次数据文件,以 CSV 格式存储。

2. 项目的启动文件介绍

项目的启动文件是 crunchbase-csv.py。该文件是一个 Python 脚本,它使用 openpyxl 库读取 XLSX 文件,并使用 unicodecsv 库将数据写入 CSV 文件。要运行此脚本,请按照以下步骤操作:

  1. 创建一个虚拟环境并激活它:

    virtualenv .venv
    source .venv/bin/activate
    
  2. 安装项目依赖:

    pip install -r requirements.txt
    
  3. 运行脚本,并将 CrunchBase 数据的 XLSX 文件作为参数传递:

    python crunchbase-csv.py crunchbase_export.xlsx
    

3. 项目的配置文件介绍

本项目中的配置主要是通过 requirements.txt 文件来管理的。该文件列出了项目运行所需的外部 Python 库:

openpyxl==3.0.7
unicodecsv==0.14.1

确保在运行 crunchbase-csv.py 脚本之前安装了这些库。如果需要修改或添加新的依赖,只需在 requirements.txt 文件中相应地修改或添加即可。

登录后查看全文
热门项目推荐