Surya项目v0.14.3版本发布：CPU/MPS及老旧GPU性能优化解析

2025-06-02 18:58:39作者：邵娇湘

OCR, layout analysis, and line detection in 90+ languages

项目地址：https://gitcode.com/GitHub_Trending/su/surya

Surya是一个基于深度学习的OCR（光学字符识别）和文档分析开源项目，专注于提供高性能的文本识别和布局分析能力。该项目特别注重对复杂文档（如包含数学公式、表格等）的处理能力，并持续优化在不同硬件环境下的运行效率。

性能优化亮点

本次发布的v0.14.3版本主要针对非高端GPU环境进行了多项性能优化：

SDPA注意力机制优化：修复了在设备不支持Flash Attention时出现的性能下降和高内存占用问题。SDPA（Scaled Dot-Product Attention）是Transformer架构中的关键组件，优化后使得在CPU、MPS（苹果芯片）和老旧GPU上运行时，内存消耗更稳定，推理速度显著提升。
输入文本长度截断：新增了对过长输入文本的智能截断功能。这一改进确保了在最坏情况下也能保持可预测的最大显存使用量，防止因处理超长文档导致的内存溢出问题。

准确性提升

除了性能优化，新版本还包含以下准确性改进：

数学内容处理增强：改进了数学标签内非数学内容的处理逻辑。现在能够更精确地识别和提取数学表达式，避免将单个数字或符号错误地包含在数学解析中。
重复文本处理：新增了可选功能来截断文档中的重复文本内容。这一特性特别适用于处理包含大量重复段落或页面的文档，能够有效减少冗余信息对后续分析的影响。

技术实现解析

在底层实现上，开发团队针对Transformer模型的核心注意力机制进行了深度优化。通过动态检测硬件能力，自动选择最优的注意力实现方式：在支持Flash Attention的设备上使用高度优化的实现，而在不支持的环境下回退到经过特别优化的标准实现。

输入文本截断算法采用基于语义的智能分割策略，而非简单的字符截断，确保即使在截断处理后，模型仍能获得有意义的上下文信息。这种设计在保持性能的同时，最大程度地减少了对识别准确率的影响。

数学内容处理方面，新版本引入了更精细的正则表达式匹配和语法分析，能够准确区分真正的数学表达式和仅包含数学符号的普通文本。

实际应用价值

这些改进使得Surya项目在以下场景中更具实用价值：

资源受限环境部署：开发者现在可以更轻松地在笔记本电脑、边缘设备或云服务的基础实例上部署Surya，而不必担心性能问题。
大规模文档处理：优化的内存管理使得批量处理大量文档成为可能，特别适合企业级文档数字化需求。
学术文档分析：增强的数学内容处理能力使其成为科研工作者处理技术论文和学术资料的理想工具。

这一版本的发布标志着Surya项目在追求高性能的同时，也致力于提升在各种硬件环境下的可用性，使其真正成为一个普适性强的文档分析解决方案。

OCR, layout analysis, and line detection in 90+ languages

项目地址：https://gitcode.com/GitHub_Trending/su/surya

登录后查看全文

热门内容推荐

最新内容推荐

项目优选

收起

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

ohos_react_native

React Native鸿蒙化仓库

deepin linux kernel

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境

一款跨平台的 Markdown AI 笔记软件，致力于使用 AI 建立记录和写作的桥梁。

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

open-eBackup是一款开源备份软件，采用集群高扩展架构，通过应用备份通用框架、并行备份等技术，为主流数据库、虚拟化、文件系统、大数据等应用提供E2E的数据备份、恢复等能力，帮助用户实现关键数据高效保护。