SDV项目v1.22.0版本发布：数据合成与约束增强

2025-06-17 08:02:30作者：霍妲思

项目简介

SDV(Synthetic Data Vault)是一个用于生成高质量合成数据的Python开源库。它能够从原始数据中学习特征和关系，然后生成具有相同统计特性的合成数据，同时保护隐私。SDV广泛应用于数据科学、机器学习测试、隐私保护等领域。

核心更新内容

约束增强功能

本次v1.22.0版本最显著的改进在于约束系统的全面升级。SDV引入了全新的约束架构CAG(Constraint Application Graph)，为数据合成提供了更强大的约束控制能力。

新增多种约束模式：
- OneHotEncoding：支持独热编码约束
- FixedIncrements：固定增量约束
- Range：范围约束
- Inequality：不等式约束
- FixedCombinations：固定组合约束
约束验证机制：新增了synthesizer.validate_cag方法，允许用户在合成数据前验证约束的有效性，确保约束逻辑正确。
编程式约束：引入了ProgrammableConstraint和ProgrammableSingleTableConstraint，让用户可以通过编程方式定义自定义约束逻辑，大大提高了约束定义的灵活性。

多表约束支持

本次更新扩展了约束系统在多表场景下的应用能力：

单表约束现在可以在多表合成器中使用
改进了多表约束的获取和验证机制
解决了多表约束与单表约束的兼容性问题

数据类型处理优化

改进了日期时间格式的处理，确保Inequality约束能正确处理日期时间类型
修复了整数列包含NaN值时的转换错误
优化了格式化列在约束应用后的处理逻辑

其他重要改进

API改进：
- 新增violin选项到get_column_plot函数
- 为SingleTableSynthesizer.get_metadata添加version参数
- 允许ProgrammableConstraint的fit方法可选
错误修复：
- 修复了只读文件系统下的使用问题
- 解决了条件采样时列被约束丢弃导致的错误
- 修复了自动分配转换器在添加CAG模式后的错误
弃用通知：
- 开始弃用ScalarInequality和ScalarRange约束，建议迁移到新的CAG模式

技术影响与建议

本次更新标志着SDV约束系统的重要演进。CAG架构的引入为复杂数据关系的建模提供了更强大的工具，特别是在以下场景中价值显著：

业务规则严格的场景：如金融、医疗等领域，数据必须满足特定的业务规则和逻辑约束
多表关系建模：支持跨表的复杂约束关系，适合关系型数据库的合成
自定义需求：通过编程式约束满足特殊业务需求

对于现有用户，建议：

逐步将旧式约束迁移到新的CAG模式
利用validate_cag方法验证约束有效性
探索编程式约束满足特定业务需求

总结

SDV v1.22.0通过增强约束系统，显著提升了合成数据的质量和可控性。新的CAG架构和多种约束模式为复杂数据合成场景提供了更专业的解决方案，同时保持了良好的向后兼容性。这些改进使SDV在数据隐私保护、机器学习测试数据生成等应用场景中更具竞争力。

SDV

Synthetic data generation for tabular data

项目地址：https://gitcode.com/gh_mirrors/sd/SDV

登录后查看全文

SDV项目v1.22.0版本发布：数据合成与约束增强

项目简介

核心更新内容

约束增强功能

多表约束支持

数据类型处理优化

其他重要改进

技术影响与建议

总结

热门内容推荐

最新内容推荐

项目优选

SDV项目v1.22.0版本发布：数据合成与约束增强

项目简介

核心更新内容

约束增强功能

多表约束支持

数据类型处理优化

其他重要改进

技术影响与建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选