Miller工具中splita函数处理非字符串输入的问题解析

2025-05-25 09:01:31作者：秋泉律Samson

在使用Miller工具处理CSV数据转换为JSON格式时，开发者可能会遇到splita或splitax函数在处理EAN码字段时出现的错误问题。本文将深入分析这一问题的成因，并提供有效的解决方案。

问题现象

当处理包含EAN码的CSV文件时，EAN字段可能呈现两种形式：

单一数值：7622210953278
拼接字符串："7622210953278#7622210953279#7622281623271"

使用如下Miller命令处理时：

mlr --icsv --ojson --from products.csv put '$EAN = splita($EAN, "#")' then cut -f SKU,TITLE,LONG_DESC,EAN

会出现部分记录中EAN字段显示为(error)的情况，特别是当EAN为单一数值时。

问题根源

这个问题源于Miller的类型推断机制：

对于7622210953278这样的纯数字，Miller会将其推断为int类型
对于包含#符号的"7622210953278#7622210953279#7622281623271"，Miller会正确识别为string类型

而splita和splitax函数设计上只接受字符串输入，当传入非字符串类型时就会返回错误。

解决方案

临时解决方案

在执行splita前显式将字段转换为字符串：

mlr --icsv --ojson --from products.csv put '$EAN = string($EAN)' then put '$EAN = splita($EAN, "#")' then cut -f SKU,TITLE,LONG_DESC,EAN | jq

更优雅的解决方案

考虑到splita函数的文档明确说明它用于"将字符串分割为数组"，从用户体验角度，函数内部自动进行类型转换更为合理。这类似于Miller中其他函数的处理方式：

点操作符(.)会自动将操作数转换为字符串
substr函数会自动将其第一个参数转换为字符串

这种隐式转换在特定场景下能显著提升用户体验，特别是当函数的核心功能明确针对字符串操作时。

最佳实践建议

数据预处理：在不确定字段类型时，先使用string()函数进行显式转换
错误处理：结合is_error()函数检查处理结果
类型检查：可使用typeof()函数验证字段类型
函数选择：根据需求选择splita(保留空字段)或splitax(跳过空字段)

未来改进方向

从设计一致性角度考虑，splita和splitax函数应当:

自动将输入参数转换为字符串
保持与Miller其他字符串处理函数的行为一致
在文档中明确说明类型转换行为

这种改进将减少用户的困惑，使工具更加易用，同时保持Miller一贯的类型严谨性设计哲学。

通过理解这些底层机制，开发者可以更有效地利用Miller处理复杂的数据转换任务，特别是在处理混合类型的数据字段时。

miller

Miller is like awk, sed, cut, join, and sort for name-indexed data such as CSV, TSV, and tabular JSON

项目地址：https://gitcode.com/gh_mirrors/mi/miller

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

457

440

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1 K

610

Miller工具中splita函数处理非字符串输入的问题解析

问题现象

问题根源

解决方案

临时解决方案

更优雅的解决方案

最佳实践建议

未来改进方向

热门内容推荐

最新内容推荐

项目优选

Miller工具中splita函数处理非字符串输入的问题解析

问题现象

问题根源

解决方案

临时解决方案

更优雅的解决方案

最佳实践建议

未来改进方向

相关内容推荐

热门内容推荐

最新内容推荐

项目优选