SDV项目中ID列正则表达式生成值的随机化处理

2025-06-30 18:21:21作者：柏廷章Berta

在数据合成领域，生成逼真的合成数据是一个核心挑战。SDV(Synthetic Data Vault)作为一个流行的开源数据合成工具，近期针对ID列的正则表达式生成功能提出了一个重要改进方案。

问题背景

在SDV的当前实现中，当用户为ID类型(sdtype='id')的列指定正则表达式格式时，系统会按照字母数字顺序依次生成值。这种顺序生成的方式虽然实现简单，但会产生过于规则的合成数据，导致数据缺乏真实感。在实际业务场景中，ID值通常是随机或无序分布的，顺序生成的ID很容易被识别为合成数据。

该问题的解决方案依赖于SDV底层组件RDT(Reversible Data Transforms)的增强功能。RDT的RegexGenerator将新增一个关键参数generation_order，用于控制生成值的顺序。SDV将默认采用'scrambled'(随机打乱)模式来生成ID列的值。

具体实现要点包括：

这一改进将显著提升合成数据的真实性，特别是在以下场景：

随机化的ID生成模式使合成数据更难与真实数据区分，提高了数据在测试、开发和演示环境中的实用性。

在技术实现层面，该功能涉及SDV与RDT的协同工作：

这种分层设计体现了SDV架构的灵活性，既解决了具体问题，又保持了系统的扩展性。

SDV对ID列正则生成顺序的优化，体现了合成数据生成领域对数据真实性的持续追求。这一改进虽然看似微小，但对提升合成数据的实用价值具有重要意义，特别是在需要高度逼真数据的应用场景中。随着RDT底层支持的完善，SDV用户将能够生成更加自然、难以区分的合成ID数据。

登录后查看全文