在crate-ci/typos项目中处理特殊缩写的拼写检查问题
2025-06-26 10:02:32作者:牧宁李
问题背景
在软件开发和技术文档编写过程中,我们经常会遇到一些特殊的缩写形式,比如"CC-BY-ND"或"ND-JSON"这样的技术术语。这些术语在使用typos这样的拼写检查工具时可能会被误判为拼写错误,因为工具会将"ND"识别为"AND"的错误拼写。
技术挑战
typos作为一款代码拼写检查工具,默认会将标识符中的单词拆分检查。对于包含连字符的复合词,如"CC-BY-ND",工具会将其拆分为"CC"、"BY"和"ND"三个部分分别检查。这就导致了"ND"被误判为拼写错误的问题。
解决方案探索
初步尝试:extend-words扩展
最初尝试使用extend-words配置将整个复合词加入白名单:
[default.extend-words]
CC-BY-ND = "CC-BY-ND"
ND-JSON = "ND-JSON"
这种方法虽然能解决问题,但副作用是全局允许"ND"作为有效单词,导致无法检测到真正的拼写错误如"chocolate ND strawberry"。
进阶方案:正则表达式忽略规则
更精确的解决方案是使用extend-ignore-re配置项,它允许通过正则表达式指定需要忽略检查的文本模式:
[default]
extend-ignore-re = [
"CC-BY-ND",
"ND-JSON"
]
与extend-ignore-identifiers-re不同,extend-ignore-re可以匹配任意文本模式,而不仅限于标识符。这使得我们能够精确地忽略特定上下文中的"ND"出现,而不影响其他地方的拼写检查。
技术原理深入
typos处理单词的机制是将文本拆分为token进行检查。对于代码中的标识符,默认只识别下划线_作为分隔符,而不识别连字符-。因此:
extend-ignore-identifiers-re只能匹配标识符形式的文本extend-ignore-re则可以匹配任意文本模式,包括包含特殊字符的复合词
最佳实践建议
- 对于包含特殊字符的技术术语,优先考虑使用
extend-ignore-re进行精确匹配 - 如果术语是纯字母组合且可能在其他上下文中出现拼写错误,可以使用大小写区分策略
- 定期审查忽略规则,确保不会遗漏真正的拼写错误
总结
通过合理配置typos的忽略规则,我们可以在保持严格拼写检查的同时,灵活处理技术文档和代码中的特殊术语。extend-ignore-re提供了强大的模式匹配能力,是解决这类问题的理想选择。开发者应当根据具体场景选择最适合的配置方式,在代码质量和开发效率之间取得平衡。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust071- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
Hy3-previewHy3 preview 是由腾讯混元团队研发的2950亿参数混合专家(Mixture-of-Experts, MoE)模型,包含210亿激活参数和38亿MTP层参数。Hy3 preview是在我们重构的基础设施上训练的首款模型,也是目前发布的性能最强的模型。该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体任务等方面均实现了显著提升。Python00
热门内容推荐
最新内容推荐
S905L3芯片设备的Armbian移植探索:从硬件适配到性能优化的实践日志QTTabBar语言本地化指南:让Windows文件管理器界面说你的语言如何用Kazumi打造专属追番系统?开源工具解决4大看番痛点OpenVINO GIMP插件:零基础玩转AI图像处理Spine Runtimes多语言支持全解析:6大主流语言实战指南与跨平台方案3种IDM激活弹窗解决方案:从家庭用户到企业部署的全场景指南2024全新AI面部动画生成工具:JoyVASA多模态生成技术零基础上手教程解决抖音视频下载难题的批量工具:高效提取无水印内容指南英雄联盟云顶之弈自动化工具:从环境配置到安全运行全指南OpCore Simplify:黑苹果EFI生成的自动配置工具,让复杂变得简单
项目优选
收起
暂无描述
Dockerfile
687
4.45 K
Ascend Extension for PyTorch
Python
540
664
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
390
69
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
953
921
本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息
647
230
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
407
322
Oohos_react_native
React Native鸿蒙化仓库
C++
336
385
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.59 K
923
昇腾LLM分布式训练框架
Python
145
172
暂无简介
Dart
935
234