Fluentd中filter_parser插件与in_sample插件配合使用时的字段删除问题分析

2025-05-17 19:28:47作者：秋泉律Samson

问题背景

在使用Fluentd日志收集系统时，开发人员发现当filter_parser插件与in_sample插件配合使用时，如果尝试删除message字段，系统会在第一次运行后开始报错。具体表现为：第一次运行正常，但后续运行会持续出现"message does not exist"的错误。

问题复现

通过以下配置可以稳定复现该问题：

<source>
    @type sample
    tag log
    sample {"message": "{\"field\":\"value\"}"}
</source>
<filter log>
    @type parser
    key_name message
    reserve_data true
    remove_key_name_field true
    hash_value_field data
    <parse>
        @type json
    </parse>
</filter>
<match log>
  @type stdout
</match>

问题现象

系统运行后，第一次处理日志正常输出：

2024-07-31 16:12:44.030559702 -0400 log: {"data":{"field":"value"}}

但从第二次开始，每次处理都会报错：

2024-07-31 16:12:45 -0400 [warn]: #0 dump an error event: error_class=ArgumentError error="message does not exist" location=nil tag="log" time=2024-07-31 16:12:45.033706463 -0400 record={}
2024-07-31 16:12:45.033706463 -0400 log: {"data":{}}

问题原因分析

经过深入分析，这个问题主要由以下几个因素共同导致：

in_sample插件的工作机制：in_sample插件默认会重复使用同一个样本数据，而不是每次生成新的样本。这意味着第一次处理后，message字段被删除，后续处理时样本数据中已经不存在message字段。
filter_parser插件的处理逻辑：filter_parser插件在解析前会检查指定的key_name字段是否存在。如果不存在，就会抛出"message does not exist"的错误。
事件对象的复用：Fluentd的事件对象在插件间传递时，默认情况下是共享的。当filter_parser插件修改了事件内容（如删除字段），这种修改会持久化影响后续处理。

解决方案

针对这个问题，目前有以下几种解决方案：

使用auto_increment_key参数：在in_sample插件中添加auto_increment_key参数，使每次生成的样本数据有所不同：

<source>
    @type sample
    tag log
    sample {"message": "{\"field\":\"value\"}"}
    auto_increment_key key
</source>

修改filter_parser插件配置：如果不必须删除message字段，可以设置remove_key_name_field为false：

<filter log>
    @type parser
    key_name message
    reserve_data true
    remove_key_name_field false
    hash_value_field data
    <parse>
        @type json
    </parse>
</filter>

使用record_modifier插件：可以先保留message字段，在后续处理中再删除：

<filter log>
    @type parser
    key_name message
    reserve_data true
    remove_key_name_field false
    hash_value_field data
    <parse>
        @type json
    </parse>
</filter>
<filter log>
    @type record_modifier
    remove_keys message
</filter>

最佳实践建议

在使用in_sample插件进行测试时，建议总是设置auto_increment_key参数，以避免样本数据的重复使用问题。
对于需要删除字段的场景，考虑使用record_modifier插件专门处理字段删除操作，而不是依赖parser插件的remove_key_name_field参数。
在设计Fluentd处理流程时，要注意插件之间的数据依赖关系，特别是当某个插件会修改事件数据结构时。

技术深度解析

从技术实现角度看，这个问题反映了Fluentd插件设计中几个重要的设计考量：

事件对象的可变性：Fluentd的事件对象在插件管道中是可变的对象。这种设计提高了性能，但可能导致意外的副作用。
插件的幂等性：理想情况下，插件应该设计为幂等的，即多次处理相同输入应产生相同输出。in_sample插件在这方面需要改进。
错误处理机制：filter_parser插件在字段不存在时报错的设计是合理的，但可以考虑提供更灵活的配置选项，如允许字段缺失。

这个问题也提醒我们，在构建Fluentd处理管道时，需要充分考虑各插件的交互影响，特别是在涉及数据修改的场景下。

fluentd

Fluentd: Unified Logging Layer (project under CNCF)

项目地址：https://gitcode.com/gh_mirrors/fl/fluentd

登录后查看全文

Fluentd中filter_parser插件与in_sample插件配合使用时的字段删除问题分析

问题背景

问题复现

问题现象

问题原因分析

解决方案

最佳实践建议

技术深度解析

热门内容推荐

最新内容推荐

项目优选

Fluentd中filter_parser插件与in_sample插件配合使用时的字段删除问题分析

问题背景

问题复现

问题现象

问题原因分析

解决方案

最佳实践建议

技术深度解析

相关内容推荐

热门内容推荐

最新内容推荐

项目优选