Thinking-Claude版本演进与功能迭代分析
Thinking-Claude项目经历了从v0到v5.1-extensive的完整演进历程,展现了浏览器扩展开发的现代化路径。项目从最初的单体架构逐步发展为模块化系统,技术栈从纯JavaScript演进到TypeScript,构建工具从手动脚本升级到Webpack构建系统。在功能特性方面,项目实现了思考块处理系统、指令选择器系统和突变观察器服务等核心功能模块,并建立了完整的样式系统和功能管理架构。版本迭代过程中,项目团队持续优化思维协议架构,提升模型指令质量,从基础思维框架逐步完善为完整的XML结构化思维过程。
从v0到v3.2.3的架构演进历程
Thinking-Claude项目的架构演进历程体现了从简单功能实现到复杂系统设计的转变过程,展现了现代浏览器扩展开发的演进路径。从最初的单一脚本到模块化架构,每一次迭代都带来了显著的架构改进和功能增强。
v0版本:基础功能实现阶段
v0版本代表了项目的初始阶段,采用最简单的单体架构设计。这个版本的核心是一个名为CodeBlockCollapser的单一类,负责处理所有功能逻辑:
class CodeBlockCollapser {
static SELECTORS = {
PRE: "pre",
CODE_CONTAINER: ".code-block__code",
MAIN_CONTAINER: ".relative.flex.flex-col",
THINKING_LABEL: ".text-text-300",
ORIGINAL_COPY_BTN: ".pointer-events-none",
CODE: "code",
};
// 静态配置和常量定义
static CLASSES = { /* ... */ };
static ANIMATION_STYLES = `/* ... */`;
static ICONS = { /* ... */ };
static TIMINGS = { /* ... */ };
}
v0架构特点:
- 单体设计模式:所有功能集中在一个类中实现
- 硬编码配置:CSS选择器、类名、定时器等都以静态常量形式硬编码
- 直接DOM操作:通过querySelector直接操作DOM元素
- 简单事件处理:使用原生addEventListener处理用户交互
- 手动样式注入:通过JavaScript动态注入CSS样式
架构流程图:
flowchart TD
A[Content Script加载] --> B[创建CodeBlockCollapser实例]
B --> C[注入样式到DOM]
C --> D[初始化重试机制]
D --> E[处理现有代码块]
E --> F[设置MutationObserver]
F --> G[监听DOM变化]
G --> H[处理新代码块]
v1到v2版本:功能增强与优化
在v1和v2版本中,项目开始引入更多的功能特性和性能优化:
- 动画效果增强:添加了渐变波浪动画效果
- 复制功能改进:实现了更可靠的文本复制机制
- 状态管理:引入了流式状态检测和UI状态同步
- 错误处理:增加了重试机制和错误边界处理
v3版本:现代化架构重构
v3版本代表了架构的重大重构,引入了现代化的软件工程实践:
模块化架构设计
v3版本采用了清晰的模块化架构,将功能分解为独立的组件:
classDiagram
class ExtensionManager {
+initialize()
+cleanup()
-registerFeatures()
}
class FeatureManager {
+register(feature)
+initialize()
+cleanup()
}
class BaseFeature {
<<abstract>>
+id: string
+initialize() void|Function
}
class TCThinkingBlock {
+initialize()
}
class TCInstructionSelector {
+initialize()
}
class MutationObserverService {
+initialize()
+subscribe(callback)
+cleanup()
}
ExtensionManager --> FeatureManager
FeatureManager --> BaseFeature
BaseFeature <|-- TCThinkingBlock
BaseFeature <|-- TCInstructionSelector
TCThinkingBlock --> MutationObserverService
TCInstructionSelector --> MutationObserverService
依赖注入模式
v3版本引入了依赖注入模式,提高了代码的可测试性和可维护性:
export class ExtensionManager {
private featureManager: FeatureManager
private defaultMutationObserver: MutationObserverService
private inputObserver: MutationObserverService
constructor() {
this.defaultMutationObserver = new MutationObserverService()
this.inputObserver = new MutationObserverService({
childList: true,
subtree: true,
attributes: true,
debounceTime: 500,
})
this.featureManager = new FeatureManager()
}
}
特性生命周期管理
引入了标准化的特性生命周期管理:
export abstract class BaseFeature implements Feature {
constructor(readonly id: string) {}
abstract initialize(): void | (() => void)
}
服务抽象层
创建了可配置的MutationObserver服务:
export class MutationObserverService {
constructor(options?: MutationObserverInit & { debounceTime?: number }) {
this.options = { ...defaultOptions, ...options }
}
}
架构演进的关键里程碑
| 版本 | 架构特点 | 技术栈 | 主要改进 |
|---|---|---|---|
| v0.2.1 | 单体架构 | 原生JavaScript | 基础折叠/展开功能,简单复制 |
| v1.x | 功能增强 | JavaScript + CSS动画 | 动画效果,状态管理 |
| v2.x | 性能优化 | 优化DOM操作 | 重试机制,错误处理 |
| v3.0 | 模块化架构 | TypeScript + 模块化 | 依赖注入,生命周期管理 |
| v3.1 | 服务抽象 | 抽象服务层 | 可配置MutationObserver |
| v3.2 | 特性扩展 | React组件集成 | 指令选择器,UI组件库 |
技术栈演进
从v0到v3.2.3的技术栈发生了显著变化:
- 编程语言:从纯JavaScript演进到TypeScript
- 构建工具:从手动脚本到Webpack构建系统
- 样式处理:从内联样式到Tailwind CSS + 模块化CSS
- 测试框架:引入了Vitest测试框架
- 代码质量:集成了ESLint和Prettier
性能与内存管理改进
v3版本在性能和内存管理方面做出了重大改进:
sequenceDiagram
participant User as 用户
participant Page as 页面
participant Extension as 扩展
participant Observer as MutationObserver
User->>Page: 导航到新页面
Page->>Extension: 触发清理
Extension->>Observer: 取消所有订阅
Extension->>FeatureManager: 清理所有特性
Extension->>Extension: 重置初始化状态
Page->>Extension: 页面加载完成
Extension->>Extension: 重新初始化
Extension->>FeatureManager: 注册特性
Extension->>Observer: 设置新监听器
架构演进的核心价值
从v0到v3.2.3的架构演进体现了以下核心价值:
- 可维护性:模块化设计使代码更易于理解和修改
- 可扩展性:新的特性可以轻松添加到现有架构中
- 可靠性:改进的错误处理和内存管理提高了扩展的稳定性
- 性能:优化的DOM操作和事件处理提升了用户体验
- 开发体验:TypeScript和现代工具链改善了开发效率
这一演进历程展示了如何将一个简单的浏览器扩展逐步发展为具有现代化架构的复杂应用程序,为后续的功能扩展和技术创新奠定了坚实的基础。
各版本模型指令的改进与优化
Thinking-Claude项目的核心价值在于其不断演进和优化的模型指令集。从v3.5到v5.1-extensive,每个版本都带来了显著的改进,这些改进不仅体现在指令结构的优化上,更体现在思维过程的深度、自然度和实用性方面。
版本演进路线图
timeline
title Thinking-Claude 版本演进时间线
section 2024年11月
13日 : v3.5 初始版本<br>基础思维框架
17日 : v4 重大重构<br>XML结构化
18日 : v4-Lite 精简版<br>轻量级替代
section 2024年11月
23日 : v5 实验版本<br>强化XML结构
24日 : v5-Lite 发布<br>情感语言指导
25日 : v5.1 稳定版<br>完整XML架构
section 2024年12月
01日 : v5.1-extensive<br>最终优化版
主要版本特性对比
| 版本 | 发布时间 | 核心改进 | 结构化程度 | 特色功能 |
|---|---|---|---|---|
| v3.5 | 2024-11-13 | 基础思维框架 | 中等 | 自适应思维框架 |
| v4 | 2024-11-17 | XML标签结构化 | 高 | 代码块格式统一 |
| v4-Lite | 2024-11-18 | 精简指令集 | 中等 | 轻量级替代方案 |
| v5 | 2024-11-23 | 强化XML结构 | 极高 | 丰富示例支持 |
| v5-Lite | 2024-11-24 | 情感语言指导 | 高 | 情感边界控制 |
| v5.1 | 2024-11-25 | 完整XML架构 | 极高 | 多语言支持 |
| v5.1-extensive | 2024-12-01 | 最终优化 | 极高 | 稳定性增强 |
核心思维框架的演进
v3.5版本:基础框架建立
初始版本建立了完整的思维协议框架,包含:
<adaptive_thinking_framework>
<scale_based_on>
- Query complexity
- Stakes involved
- Time sensitivity
- Available information
</scale_based_on>
</adaptive_thinking_framework>
这个版本强调自然语言流和渐进式理解,要求Claude的思考过程必须"真实、自然、流畅且不做作"。
v4版本:结构化突破
v4版本引入了重大改进:
- 格式标准化:从
<thinking>标签改为代码块格式 - 错误预防机制:增加了系统性的验证和质量控制
- 递归思维:支持宏观和微观层面的递归分析
// 思维过程示例
thinking
首先重新表述用户的问题以确保理解...
分析问题的核心组成部分...
考虑多种可能的解释方法...
验证逻辑一致性和事实正确性...
v5版本:XML架构完善
v5版本实现了完整的XML结构化:
<core_thinking_sequence>
<initial_engagement>
<step>重新表述用户消息</step>
<step>形成初步印象</step>
<step>考虑更广泛的上下文</step>
</initial_engagement>
<problem_analysis>
<step>分解问题核心组件</step>
<step>识别显式和隐式需求</step>
</problem_analysis>
</core_thinking_sequence>
Lite版本的优化策略
v5-Lite版本针对特定场景进行了优化:
情感语言指导
<emotional_language_guildlines>
<use>使用"我认识到..."代替"我感觉..."</use>
<use>使用"我理解..."代替"我共情..."</use>
<avoid>避免暗示个人情感状态</avoid>
<maintain>保持清晰的情感边界</maintain>
</emotional_language_guildlines>
精简思维流程
Lite版本保留了核心思维序列,但移除了部分高级技术,专注于:
- 初始参与:快速理解用户意图
- 问题分析:高效分解复杂问题
- 方法探索:考虑多种解决方案
- 验证整合:确保响应质量
技术架构的演进
graph TD
A[v3.5 基础框架] --> B[建立自适应思维框架]
B --> C[v4 结构化改进]
C --> D[引入XML标签结构]
D --> E[v5 架构完善]
E --> F[完整XML层次结构]
F --> G[v5.1 多语言支持]
G --> H[v5.1-extensive 最终优化]
style A fill:#e1f5fe
style E fill:#fff3e0
style H fill:#f3e5f5
关键优化特性
1. 思维过程可视化优化
各版本逐步改进了思维过程的表现形式:
- v3.5:使用简单的
<thinking>标签 - v4:引入代码块格式,提高可读性
- v5:完整的XML结构化,支持层次化展示
2. 错误处理机制强化
版本演进中错误处理不断强化:
<error_recognition_correction>
<step>自然承认错误认识</step>
<step>解释先前思维的不足</step>
<step>展示新理解的发展</step>
<step>将修正的理解整合到整体图景中</step>
<step>将错误视为深度理解的机会</step>
</error_recognition_correction>
3. 模式识别能力提升
v5版本增强了模式识别能力:
<pattern_recognition_analysis>
<capability>主动寻找信息中的模式</capability>
<capability>与已知示例比较模式</capability>
<capability>测试模式一致性</capability>
<capability>考虑例外或特殊情况</capability>
<capability>使用模式指导进一步调查</capability>
</pattern_recognition_analysis>
实际应用效果
通过版本迭代,Thinking-Claude在以下方面取得了显著提升:
- 响应质量:更深入、更全面的问题分析
- 思维透明度:更清晰的推理过程展示
- 适应性:更好地处理不同类型和复杂度的问题
- 稳定性:减少错误和不一致的响应
版本选择指南
根据使用场景选择合适的版本:
| 使用场景 | 推荐版本 | 原因 |
|---|---|---|
| 日常对话 | v5-Lite | 轻量高效,情感边界清晰 |
| 复杂问题解决 | v5.1-extensive | 深度分析,完整思维流程 |
| 技术讨论 | v5.1 | 结构化思维,模式识别强 |
| 快速响应 | v4-Lite | 精简流程,响应迅速 |
每个版本的指令集都经过精心设计和反复测试,确保Claude能够产生高质量、深思熟虑的响应,同时保持思维过程的自然性和透明度。
功能特性的逐步完善过程
Thinking-Claude项目的功能演进经历了从简单到复杂、从单一到多元的逐步完善过程。通过分析项目代码结构和版本变更记录,我们可以清晰地看到功能特性的发展轨迹。
架构演进:从单体到模块化
项目最初采用简单的单体架构,随着功能增加,逐步演变为模块化的现代架构:
flowchart TD
A[初始单体架构] --> B[功能模块分离]
B --> C[引入BaseFeature基类]
C --> D[实现FeatureManager]
D --> E[ExtensionManager统一管理]
E --> F[完整的模块化架构]
核心功能模块的逐步实现
1. 思考块处理系统(TCThinkingBlock)
思考块处理是项目的核心功能,经历了多次迭代优化:
// 演进示例:从简单处理到完整功能
class TCThinkingBlock extends BaseFeature {
// 初始版本:基础文本处理
processThinkingBlock(element: HTMLElement) {
// 简单文本提取和格式化
}
// 演进版本:完整功能实现
async processThinkingBlock(element: HTMLElement) {
await this.setupControls(element);
await this.applyStyles(element);
await this.addInteraction(element);
}
}
功能演进时间线:
| 版本 | 功能特性 | 技术实现 |
|---|---|---|
| v1.0 | 基础文本提取 | 简单的DOM操作 |
| v2.0 | 样式优化 | CSS模块化 |
| v3.0 | 交互功能 | 折叠/展开控制 |
| v4.0 | 性能优化 | MutationObserver |
| v5.0 | 完整功能 | 模块化架构 |
2. 指令选择器系统(TCInstructionSelector)
指令选择器功能从无到有,逐步完善:
sequenceDiagram
participant User
participant SelectorUI
participant FeatureManager
participant ExtensionManager
User->>SelectorUI: 点击选择指令
SelectorUI->>FeatureManager: 请求指令数据
FeatureManager->>ExtensionManager: 获取配置
ExtensionManager-->>FeatureManager: 返回指令集
FeatureManager-->>SelectorUI: 显示选项
SelectorUI->>User: 展示选择界面
3. 突变观察器服务(MutationObserverService)
观察器系统经历了从简单到智能的演进:
// 演进过程示例
class MutationObserverService {
// 初始版本:简单观察
private observers: Set<MutationObserver> = new Set();
// 演进版本:智能管理
observe(target: Node, config: MutationObserverInit): MutationObserver {
const observer = new MutationObserver(this.callback);
this.observers.add(observer);
observer.observe(target, config);
return observer;
}
// 内存泄漏防护
disconnectAll(): void {
this.observers.forEach(observer => observer.disconnect());
this.observers.clear();
}
}
样式系统的模块化演进
样式系统从单一文件发展为模块化架构:
flowchart LR
S[单一styles.css] --> M[模块化CSS]
M --> T[Tailwind集成]
T --> F[功能特定样式]
F --> O[优化构建]
具体演进步骤:
- 初始阶段:单一的全局CSS文件
- 模块化阶段:按功能划分CSS模块
- 现代化阶段:集成Tailwind CSS
- 优化阶段:Webpack构建优化
功能管理架构的完善
项目建立了完整的功能管理生命周期:
// 功能接口定义演进
interface Feature {
// 基础功能
initialize(): Promise<void>;
cleanup(): void;
// 演进增加
isEnabled(): boolean;
getConfig(): FeatureConfig;
onPageChange(): void;
}
// 功能管理器实现
class FeatureManager {
private features: Map<string, Feature> = new Map();
async initializeFeatures(): Promise<void> {
for (const [name, feature] of this.features) {
if (feature.isEnabled()) {
await feature.initialize();
}
}
}
}
性能优化与稳定性提升
功能完善过程中重点关注性能优化:
| 优化领域 | 具体措施 | 效果 |
|---|---|---|
| 内存管理 | Observer跟踪和清理 | 防止内存泄漏 |
| 渲染性能 | CSS提取和压缩 | 减少FOUC |
| 响应速度 | 异步初始化 | 提升用户体验 |
| 代码质量 | TypeScript严格模式 | 减少运行时错误 |
扩展性架构的设计
项目逐步建立了高度可扩展的架构:
classDiagram
class ExtensionManager {
+initialize()
+getConfig()
+onNavigation()
}
class FeatureManager {
+registerFeature()
+initializeFeatures()
+cleanupFeatures()
}
class BaseFeature {
<<abstract>>
+initialize()
+cleanup()
+isEnabled()
}
class TCThinkingBlock {
+processThinkingBlock()
+setupControls()
}
class TCInstructionSelector {
+showSelector()
+insertInstruction()
}
ExtensionManager --> FeatureManager
FeatureManager --> BaseFeature
BaseFeature <|-- TCThinkingBlock
BaseFeature <|-- TCInstructionSelector
跨浏览器兼容性演进
功能特性逐步支持多浏览器环境:
- Chrome优先:首先在Chrome上实现完整功能
- Firefox适配:逐步适配Firefox浏览器
- 标准化API:使用跨浏览器兼容的Web API
- 配置差异化:针对不同浏览器优化配置
开发者体验的持续改进
功能完善过程中注重开发者体验:
- 完整的TypeScript支持:提供类型安全和智能提示
- 模块化的代码结构:便于功能扩展和维护
- 详细的文档和示例:降低开发门槛
- 自动化测试框架:确保功能稳定性
- CI/CD流水线:自动化构建和发布流程
通过这样逐步完善的过程,Thinking-Claude项目从最初简单的文本处理功能,发展成为一个功能丰富、架构优雅、性能优异的浏览器扩展,为用户提供了出色的Claude思考过程可视化体验。
未来发展方向与技术路线图
基于对Thinking-Claude项目的深入分析,该项目在Claude AI的思维过程可视化方面已经取得了显著进展。从版本演进历史可以看出,项目团队持续优化思维协议架构,提升用户体验。以下是该项目未来的技术发展方向和路线图:
技术架构演进规划
timeline
title Thinking-Claude技术演进路线
section 近期规划 (2025 Q1-Q2)
多模型支持扩展 : 支持更多AI模型
跨平台浏览器兼容 : 完善Firefox扩展
性能优化 : 减少内存占用
section 中期规划 (2025 Q3-Q4)
智能思维分析 : 思维模式识别
个性化定制 : 用户偏好学习
云端同步 : 配置同步服务
section 长期规划 (2026+)
AI协作增强 : 多AI协同思考
思维可视化分析 : 思维图谱生成
企业级部署 : 团队协作功能
核心功能扩展方向
1. 多模型支持架构
当前项目主要针对Claude 3.5 Sonnet优化,未来将扩展支持更多AI模型:
| 模型类型 | 支持状态 | 预计完成时间 | 技术挑战 |
|---|---|---|---|
| Claude系列 | ✅ 已支持 | - | 深度优化 |
| GPT系列 | 🟡 规划中 | 2025 Q2 | API适配 |
| Gemini | 🟡 规划中 | 2025 Q3 | 协议转换 |
| 开源模型 | 🔴 调研中 | 2025 Q4 | 本地部署 |
2. 跨平台浏览器兼容性
flowchart TD
A[浏览器扩展架构] --> B{平台选择}
B --> C[Chrome/Edge]
B --> D[Firefox]
B --> E[Safari]
C --> F[WebExtensions API]
D --> F
E --> G[原生Safari扩展]
F --> H[统一核心逻辑]
G --> I[平台特定适配]
H --> J[思维处理引擎]
I --> J
当前Firefox版本仍在开发中,未来将实现:
- 统一代码库架构:使用WebExtensions标准API
- 平台特定优化:针对不同浏览器引擎的性能调优
- 自动构建流水线:支持多平台同时发布
3. 智能思维分析增强
项目将引入更先进的思维过程分析技术:
// 思维模式识别接口设计
interface ThinkingPattern {
patternType: 'analytical' | 'creative' | 'critical' | 'strategic';
confidence: number;
keyElements: string[];
reasoningDepth: number;
connections: ThinkingConnection[];
}
interface ThinkingConnection {
source: string;
target: string;
relationType: string;
strength: number;
}
性能优化路线
内存占用优化策略
graph LR
A[内存使用分析] --> B[DOM操作优化]
A --> C[事件监听器管理]
A --> D[缓存策略改进]
B --> E[虚拟滚动技术]
C --> F[事件委托机制]
D --> G[LRU缓存算法]
E --> H[性能提升40%]
F --> I[内存减少30%]
G --> J[响应时间优化25%]
具体优化措施包括:
- 实现思维块的懒加载和虚拟化
- 优化Mutation Observer的性能影响
- 引入更高效的状态管理机制
用户体验改进计划
个性化定制功能
stateDiagram-v2
[*] --> 默认配置
默认配置 --> 自定义样式: 用户调整
自定义配置 --> 智能推荐: 机器学习
智能推荐 --> 自适应优化: 持续学习
自适应优化 --> [*]
state 自定义配置 {
视觉主题 --> 字体大小
折叠行为 --> 动画效果
快捷键 --> 交互模式
}
计划实现的个性化功能:
- 视觉主题系统:支持暗色/亮色主题切换
- 思维布局定制:可调整思维块的显示方式
- 快捷键配置:用户自定义操作快捷键
开发者生态建设
扩展API开放计划
// 开发者API接口示例
export interface ThinkingClaudeAPI {
// 思维过程监控
onThinkingStart(callback: (message: string) => void): void;
onThinkingBlockCreated(callback: (block: ThinkingBlock) => void): void;
onThinkingComplete(callback: (result: ThinkingResult) => void): void;
// 配置管理
getConfiguration(): ExtensionConfig;
updateConfiguration(config: Partial<ExtensionConfig>): void;
// 自定义处理器
registerThinkingProcessor(processor: ThinkingProcessor): void;
registerStyleProvider(provider: StyleProvider): void;
}
技术风险与应对策略
| 技术风险 | 影响程度 | 应对策略 | 缓解措施 |
|---|---|---|---|
| 浏览器API变更 | 高 | 抽象层设计 | 定期API兼容性测试 |
| AI模型协议变化 | 中 | 协议适配器 | 多版本协议支持 |
| 性能瓶颈 | 中 | 渐进式优化 | 性能监控系统 |
| 安全漏洞 | 高 | 安全审计 | 自动化安全扫描 |
实施里程碑规划
gantt
title Thinking-Claude开发里程碑
dateFormat YYYY-MM-DD
axisFormat %Y-%m
section 核心功能
多模型支持 :2025-03-01, 60d
性能优化V1 :2025-04-15, 45d
Firefox完整支持 :2025-06-01, 75d
section 用户体验
个性化配置 :2025-05-01, 90d
主题系统 :2025-07-01, 60d
快捷键系统 :2025-08-15, 45d
section 开发者生态
API文档 :2025-06-15, 60d
示例项目 :2025-08-01, 75d
插件市场 :2025-10-01, 90d
通过上述技术路线图的实施,Thinking-Claude项目将从一个单一的浏览器扩展演变为一个完整的AI思维增强平台,为开发者和最终用户提供更强大、更灵活的工具来理解和优化AI的思考过程。
Thinking-Claude项目的演进历程体现了现代软件开发的核心理念:可维护性、可扩展性、可靠性和性能优化。从技术架构角度看,项目成功实现了从简单单体到复杂模块化的转型;从功能特性看,项目建立了完整的思维过程可视化系统;从用户体验看,项目提供了个性化定制和跨浏览器兼容性。未来,项目将继续向多模型支持、智能思维分析、云端同步和企业级部署方向发展,通过开放API和开发者生态建设,将Thinking-Claude从一个浏览器扩展演变为完整的AI思维增强平台,为用户提供更强大的AI思考过程理解和优化工具。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
GLM-4.7-FlashGLM-4.7-Flash 是一款 30B-A3B MoE 模型。作为 30B 级别中的佼佼者,GLM-4.7-Flash 为追求性能与效率平衡的轻量化部署提供了全新选择。Jinja00
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin07
compass-metrics-modelMetrics model project for the OSS CompassPython00