Apache Arrow C++ 库中Decimal类型取反运算的溢出问题解析

2025-05-18 09:58:50作者：谭伦延

问题背景

在Apache Arrow这个高性能内存分析引擎的C++实现中，Decimal32和Decimal64数据类型是用于高精度十进制计算的两种重要数值类型。近期通过OSS-Fuzz持续集成测试发现，这两种类型的取反运算(negation)存在潜在的整数溢出风险。

问题详情

Decimal32和Decimal64类型在实现取反运算时，直接使用了简单的取反操作符(-)。当遇到这两种类型所能表示的最小负数值时(即INT32_MIN和INT64_MIN)，直接取反会导致整数溢出问题。

这是因为在二进制补码表示法中，有符号整数的最小值取反后会超出该类型能表示的正数范围。例如：

INT32_MIN = -2,147,483,648
取反后应为2,147,483,648，但INT32_MAX = 2,147,483,647

技术分析

在C++中，对有符号整数直接取反可能导致未定义行为(UB)。Arrow项目内部已经提供了安全的有符号数取反工具函数arrow::internal::SafeSignedNegate，该函数能够正确处理所有边界情况。

Decimal32和Decimal64的原始实现没有使用这个安全函数，而是直接进行了取反运算，这就构成了潜在的安全隐患和未定义行为风险。

解决方案

修复方案非常直接：使用项目内部已有的安全取反函数替代原始的直接取反操作。arrow::internal::SafeSignedNegate函数内部会检查边界条件，确保不会发生整数溢出。

这种修改不仅解决了潜在的溢出问题，还保持了代码的一致性和可维护性，因为项目中的其他类似操作也都使用了相同的安全函数。

影响范围

该问题影响所有使用Decimal32和Decimal64类型取反运算的场景。虽然在实际应用中遇到最小负数的概率较低，但在数据处理系统中，边缘情况的正确处理至关重要，特别是对于金融等关键领域应用。

修复意义

这个修复体现了几个重要的软件工程原则：

防御性编程：即使是不常见的情况也要正确处理
代码复用：利用已有的安全函数而不是重复实现
自动化测试的价值：通过OSS-Fuzz这样的持续集成工具能够发现人工测试可能遗漏的边缘情况

对于Arrow这样的基础库来说，数值运算的正确性和安全性至关重要，这个修复进一步提升了库的健壮性。

arrow

Apache Arrow is a multi-language toolbox for accelerated data interchange and in-memory processing

项目地址：https://gitcode.com/gh_mirrors/arrow13/arrow

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781