xmlutils.py 使用与技术文档

2024-12-26 01:10:59作者：范靓好Udolf

1. 安装指南

xmlutils.py 可以通过以下任一方式安装：

使用pip:
```
pip install xmlutils
```
使用easy_install:
```
easy_install xmlutils
```
从源代码安装:
```
python setup.py install
```

2. 项目的使用说明

xmlutils.py 是一组用于处理 XML 文件的 Python 实用程序，可以将它们转换为多种格式（SQL、CSV、JSON）。该脚本使用 ElementTree.iterparse() 遍历 XML 文档中的节点，从而无需将整个 DOM 加载到内存中。这些脚本可以用来处理大型 XML 文件（尽管需要很长时间），而不会出现内存问题。

该工具包含以下命令行工具：

xml2csv

将 XML 文档转换为 CSV 文件。

xml2csv --input "samples/fruits.xml" --output "samples/fruits.csv" --tag "item"

参数如下：

--input: 输入 XML 文档的文件名
--output: 输出 CSV 文件的文件名
--tag: 表示单个记录的节点标签
--delimiter: 分隔每行项目的分隔符，默认为逗号后跟一个空格
--ignore: 要忽略的 XML 文档中的元素标签列表
--noheader: 不包含 CSV 字段标题（默认为关闭）
--encoding: 文档的字符编码，默认为 utf-8
--limit: 要处理文档中记录的数量限制
--buffer: 在写入输出 CSV 文件之前内存中保持的记录数，有助于减少磁盘写入次数

xmltable2csv

将 XML 表转换为 CSV 文件。

xmltable2csv --input "samples/fruits.xml" --output "samples/fruits.csv" --tag "Data"

参数如下：

--input: 输入 XML 表的文件名
--output: 输出 CSV 文件的文件名
--tag: 表示单个记录的节点标签
--delimiter: 分隔每行项目的分隔符，默认为逗号后跟一个空格
--header: 是否打印标题（第一行记录），默认为是
--encoding: 文档的字符编码，默认为 utf-8
--limit: 要处理文档中记录的数量限制
--buffer: 在写入输出 CSV 文件之前内存中保持的记录数

xml2sql

将 XML 文档转换为 SQL 文件。

xml2sql --input "samples/fruits.xml" --output "samples/fruits.sql" --tag "item" --table "myfruits"

参数如下：

--tag: 记录标签
--table: 表名
--ignore: 要忽略的标签列表
--limit: 要处理的记录数上限
--packet: 插入查询的最大大小（以 MB 计，MySQL 的 max_allowed_packet）

xml2json

将 XML 转换为 JSON。

xml2json --input "samples/fruits.xml" --output "samples/fruits.json"

3. 项目API使用文档

以下是项目中主要模块的 API 文档。

xmlutils.xml2sql

from xmlutils.xml2sql import xml2sql

converter = xml2sql("samples/fruits.xml", "samples/fruits.sql", encoding="utf-8")
converter.convert(tag="item", table="table")

参数如下：

tag: 记录标签，例如 "item"
table: 表名
ignore: 要忽略的标签列表
limit: 要处理的记录数上限
packet: 插入查询的最大大小

返回值：

num: 转换的记录数
num_insert: 生成的 SQL 插入语句数

xmlutils.xml2csv

from xmlutils.xml2csv import xml2csv

converter = xml2csv("samples/fruits.xml", "samples/fruits.csv", encoding="utf-8")
converter.convert(tag="item")

参数如下：

tag: 记录标签，例如 "item"
delimiter: CSV 字段分隔符
ignore: 要忽略的标签列表
limit: 要处理的记录数上限
buffer: 在写入磁盘之前内存中保持的记录数

返回值：

转换的记录数

xmlutils.xml2json

from xmlutils.xml2json import xml2json

converter = xml2json("samples/fruits.xml", "samples/fruits.json", encoding="utf-8")
converter.convert()

# 获取 json 字符串
converter = xml2json("samples/fruits.xml", encoding="utf-8")
print(converter.get_json())

参数如下：