Botan项目中FrodoKEM-AES性能优化分析

2025-06-27 17:36:15作者：裴麒琰

Cryptography Toolkit

项目地址：https://gitcode.com/gh_mirrors/bo/botan

在密码学库Botan中，FrodoKEM-AES实现存在一个严重的性能问题，特别是在没有AES硬件加速支持的平台上表现尤为明显。本文将深入分析该问题的根源以及解决方案。

性能问题现象

测试数据显示，在支持AES-NI指令集的现代处理器上，FrodoKEM-640-AES的加解密操作性能表现尚可：

加密：832次操作/秒，每次操作1.20毫秒
解密：825次操作/秒，每次操作1.21毫秒

然而，当禁用AES硬件加速（模拟不支持AES-NI的环境）时，性能急剧下降：

加密：57次操作/秒，每次操作17.25毫秒
解密：58次操作/秒，每次操作17.23毫秒

性能差距达到约14-15倍，这显然是不可接受的。

问题根源分析

通过代码审查发现，问题出在frodo_aes_generator.h文件中的AES加密实现方式上。当前的实现采用了一种低效的模式：每次只加密一个数据块。这种实现方式存在两个主要问题：

硬件加速利用率低：对于支持AES-NI或向量置换(vperm)指令的处理器，单块加密模式无法充分利用处理器的指令级并行性，抑制了流水线优化效果。
软件实现效率低：Botan的字节切片(byte-sliced)软件回退实现原本设计为每次处理两个数据块，但当前单块加密模式导致这种优化完全失效。

解决方案与优化效果

解决方案是修改实现方式，改为并行加密所有数据块。这种改动带来了显著的性能提升：

支持AES-NI的环境：

加密性能提升至1666次操作/秒（提升约2倍）
解密性能提升至1625次操作/秒（提升约2倍）

不支持AES-NI的环境：

加密性能提升至131次操作/秒（提升约2.3倍）
解密性能提升至130次操作/秒（提升约2.2倍）

技术启示

这个案例给我们几个重要的技术启示：

密码学实现细节对性能影响巨大：即使是算法层面的正确实现，在工程细节上的微小差异也可能导致巨大的性能差距。
硬件特性利用需要考虑实现方式：仅仅使用硬件加速指令并不保证最佳性能，还需要考虑如何组织计算以最大化硬件利用率。
回退实现同样重要：在优化硬件加速路径的同时，不能忽视软件回退路径的性能，特别是在嵌入式等可能缺乏硬件加速的环境中。
块加密模式选择很关键：对于需要多次独立加密的场景，批量处理通常比单次处理更高效，这符合现代处理器的架构特性。

这一优化已通过提交合并到Botan主分支，显著改善了FrodoKEM-AES在各种平台上的性能表现。

Cryptography Toolkit

项目地址：https://gitcode.com/gh_mirrors/bo/botan

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库