Miller工具中$*操作符结果不一致问题解析

2025-05-25 11:17:09作者：冯梦姬Eddie

问题现象

在使用Miller数据处理工具时，开发者可能会遇到一个有趣的现象：当使用$*操作符创建包含所有字段的数组时，连续使用put操作符与通过管道分隔使用put操作符会产生不同的结果。

示例对比

考虑以下两个命令：

# 单次执行两个put操作
mlr -c --from <( echo $'a,b\n5,6' ) put '$array = $*' then put '${array.a} *= 1000'

# 通过管道分隔执行两个put操作
mlr -c --from <( echo $'a,b\n5,6' ) put '$array = $*' | mlr -c put '${array.a} *= 1000'

这两个命令看似执行相同的操作，但输出结果却不同。第一个命令将array.a的值乘以1000后得到1000，而第二个命令得到5000。

原因分析

这种差异源于Miller内部对嵌套数据结构处理方式的差异：

内存中的数据结构：在第一个命令中，array作为一个map类型的数据结构存在于内存中，包含a和b两个键。当第二个put操作尝试访问array.a时，它正确地识别了这是一个嵌套结构。
CSV格式的扁平化：在管道操作中，第一个Miller进程的输出被转换为CSV格式。CSV不支持嵌套结构，因此Miller会自动将嵌套结构"扁平化"，将array转换为两个独立的字段array.a和array.b。第二个Miller进程接收到的就是这些扁平化的字段。
DSL解析差异：Miller的put和filter操作能够识别.符号并正确处理嵌套结构，但其他操作则不行。在第一个命令中，array保持为map类型；而在管道操作中，它被转换为扁平字段。

解决方案

要确保一致的行为，可以使用flatten操作显式地将嵌套结构转换为扁平字段：

mlr -c --from <( echo $'a,b\n5,6' ) put '$array = $*' then flatten then put '${array.a} *= 1000'

或者使用--no-auto-flatten选项来阻止自动扁平化：

mlr -c --no-auto-flatten --from <( echo $'a,b\n5,6' ) put '$array = $*' | mlr -c put '${array.a} *= 1000'

技术背景

Miller设计用于处理多种数据格式，包括支持嵌套结构的JSON和不支持嵌套结构的CSV/TSV。这种设计导致了在不同上下文中的行为差异：

内存表示：在内存中，Miller可以保持数据的完整嵌套结构
格式转换：当数据需要在不同格式间转换时，Miller需要进行适当的扁平化或结构化处理
操作符行为：不同操作符对数据结构的处理方式可能不同

理解这些差异有助于开发者更有效地使用Miller处理复杂数据结构，特别是在涉及格式转换和管道操作时。

miller

Miller is like awk, sed, cut, join, and sort for name-indexed data such as CSV, TSV, and tabular JSON

项目地址：https://gitcode.com/gh_mirrors/mi/miller

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

457

440

flutter_flutter

用户可使用该项目在 OpenHarmony 平台开发应用，支持通过 IDE 或终端用 Flutter Tools 指令编译构建，基于 Flutter 3.27.4 版本，新增 impeller-vulkan 渲染模式，兼容多种开发指令与环境配置。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1 K

610

Miller工具中$*操作符结果不一致问题解析

问题现象

示例对比

原因分析

解决方案

技术背景

热门内容推荐

最新内容推荐

项目优选

Miller工具中$*操作符结果不一致问题解析

问题现象

示例对比

原因分析

解决方案

技术背景

相关内容推荐

热门内容推荐

最新内容推荐

项目优选