Xan 0.49.0 版本发布：数据处理工具的重大更新

2025-06-18 01:39:42作者：胡易黎Nicole

Xan 是一个强大的命令行数据处理工具，专为处理结构化数据而设计。它提供了丰富的功能，可以轻松地对 CSV、TSV 等格式的数据进行转换、分析和可视化。Xan 特别适合处理大规模数据集，其简洁的语法和高效的性能使其成为数据科学家和工程师的理想选择。

重大变更

本次 0.49.0 版本带来了一个重要的破坏性变更：移除了 xan agg 和 xan groupby 命令中的 -p/--parallel 和 -c/--chunk-size 参数。这些参数原本用于并行处理数据块，但在实际使用中发现它们的作用有限，只有在聚合表达式本身计算成本较高（如读取文件）时才有明显效果。

开发者建议，如果需要并行处理，可以使用上游的 xan map -p 命令替代。此外，新增的 xan parallel (agg | groupby) 命令可以更好地支持对多个文件的并行处理。

新增功能

输入处理增强

xan input 命令新增多项功能：
- --tabs：明确指定使用制表符作为分隔符
- -H/--skip-headers：跳过文件头
- -L/--skip-lines：跳过指定行数
- -R/--skip-rows：跳过指定行数（与 -L 类似但语义更明确）
- 新增对 VCF、GTF 和 GFF 格式的支持
搜索功能增强：
- xan search 新增 -R/--replace 和 --replacement-column 选项，支持搜索并替换功能
重命名功能增强：
- xan rename 新增 -S/--slugify 选项，可以将列名转换为更友好的 URL 安全格式
Moonblade 表达式语言增强：
- 新增 sum 函数，方便进行求和计算
文件格式支持扩展：
- 新增对 .psv（管道分隔）、.ssv（空格分隔）和 .scsv（分号分隔）文件扩展名的支持
其他实用功能：
- xan headers 新增 -s/--start 选项，可以指定起始行
- 新增 xan to txt 命令，支持将数据转换为纯文本格式
- xan behead 新增 -A/--append 选项，可以将表头追加到文件末尾
- xan hist 新增 -G/--compress-gaps 选项，可以压缩直方图中的空白区间
- xan agg 新增 --cols 选项，可以指定要聚合的列

问题修复

视图显示优化：
- xan view --no-headers 现在会自动启用 --hide-headers，使显示更加一致
文件处理改进：
- xan from 现在能正确解压某些 gzip 格式的文件
- xan fill -v 现在能正确处理文件开头的空单元格
- xan parallel -t 现在不会使用超过输入文件数量的线程
统计计算修正：
- 修复了 xan stats 遇到 NaN 值时崩溃的问题
表达式解析改进：
- Moonblade 表达式现在能正确识别制表符作为空白字符
连接操作修复：
- 修复了 xan join --cross 在连接不同列数的文件时的问题
输出格式完善：
- 为 xan to 命令添加了缺失的 -n/--no-headers 和 -d/--delimiter 选项
进度显示修正：
- 修复了 xan progress -B 在处理 gzip 压缩文件时的问题
颜色显示增强：
- 为 xan plot 添加了缺失的 -C/--force-colors 选项