Miller工具中多条件过滤与空格处理的技巧

2025-05-25 16:53:55作者：廉彬冶Miranda

Miller是一个强大的命令行工具，用于处理结构化数据（如CSV、JSON等）。本文将详细介绍如何在Miller中实现多条件数据过滤，以及处理数据中常见的前后空格问题。

多条件过滤的基本语法

在Miller中，我们可以使用filter命令配合逻辑运算符来实现多条件过滤。基本语法结构如下：

mlr --csv filter '条件表达式' input.csv > output.csv

单列多值过滤

如果需要筛选某列等于多个特定值的记录，可以使用逻辑或(||)运算符：

mlr --csv filter '$COLUMN1 == "TEST1" || $COLUMN1 == "TEST2"' input.csv

多列多条件组合

当需要组合多个列的条件时，可以使用逻辑与(&&)和逻辑或(||)运算符。但需要注意运算符优先级问题：

# 方式1：先或后与
mlr --csv filter '$COLUMN1 == "TEST1" || $COLUMN1 == "TEST2" || ($COLUMN3 == "TEST3" && $COLUMN4 == "TEST4")' input.csv

# 方式2：先与后或
mlr --csv filter '($COLUMN1 == "TEST1" || $COLUMN1 == "TEST2" || $COLUMN3 == "TEST3") && $COLUMN4 == "TEST4"' input.csv

这两种写法的过滤逻辑完全不同，第一种会返回：

COLUMN1等于TEST1的记录，或
COLUMN1等于TEST2的记录，或
COLUMN3等于TEST3且COLUMN4等于TEST4的记录

而第二种会返回：

COLUMN1等于TEST1或COLUMN2等于TEST2或COLUMN3等于TEST3的记录，且
这些记录必须同时满足COLUMN4等于TEST4

处理数据中的空格问题

在实际数据处理中，经常会遇到字段值前后有空格的情况，这会导致精确匹配失败。例如：

COLUMN1,COLUMN2
TEST1 ,NOT
 TEST2,NOT

解决方案1：使用clean-whitespace命令

Miller提供了专门的命令来清理字段值中的前后空格：

mlr --csv clean-whitespace input.csv > cleaned.csv

处理后的数据就可以正常进行精确匹配过滤了。

解决方案2：使用模式匹配

如果不想预处理数据，也可以在过滤条件中使用模式匹配：

mlr --csv filter '$COLUMN1 =~ "TEST1.*"' input.csv

这会匹配所有以"TEST1"开头的值，包括后面有空格的情况。

特殊字符处理

当字段值中包含点号(.)等特殊字符时，在模式匹配中需要进行转义：

mlr --csv filter '$COLUMN1 =~ "TEST\.1.*"' input.csv

最佳实践建议

优先使用clean-whitespace预处理数据，确保数据干净
复杂的多条件组合时，使用括号明确优先级
对于可能包含特殊字符的字段值，考虑使用模式匹配而非精确匹配
在处理前先用少量样本数据测试过滤条件，确保逻辑正确

通过合理运用这些技巧，可以高效地使用Miller处理各种复杂的数据过滤需求。

miller

Miller is like awk, sed, cut, join, and sort for name-indexed data such as CSV, TSV, and tabular JSON

项目地址：https://gitcode.com/gh_mirrors/mi/miller

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

458

445

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1 K

617

Miller工具中多条件过滤与空格处理的技巧

多条件过滤的基本语法

单列多值过滤

多列多条件组合

处理数据中的空格问题

解决方案1：使用clean-whitespace命令

解决方案2：使用模式匹配

特殊字符处理

最佳实践建议

相关内容推荐

热门内容推荐

项目优选