CVAT v2.36.0版本发布:3D标注增强与性能优化
CVAT(Computer Vision Annotation Tool)是一个开源的计算机视觉标注工具,广泛应用于图像和视频数据的标注工作。作为计算机视觉领域的重要基础设施,CVAT持续迭代更新以满足用户不断增长的需求。最新发布的v2.36.0版本带来了多项功能增强和性能优化,特别是在3D标注和系统性能方面有显著提升。
3D标注功能增强
本次版本在3D工作空间中新增了立方体尺寸控制功能,这是对3D标注能力的重要扩展。在计算机视觉应用中,3D立方体标注对于自动驾驶、机器人导航等场景尤为重要。新功能允许用户直接在界面上调整立方体的尺寸参数,大大提高了3D标注的效率和精确度。
数据分析与导出改进
在数据分析方面,v2.36.0增加了分析页面原始资源事件的导出按钮。这一改进使得用户可以更方便地获取系统事件数据,便于后续分析和报告生成。同时,对事件导出的API端点进行了优化,现在当不指定时间范围时,默认会导出目标资源的所有事件,这简化了数据获取流程。
值得注意的是,表格导出为CSV的功能现在会考虑应用在表格上的筛选条件,这意味着用户导出的数据将与其当前视图保持一致,避免了额外的手动筛选工作。
性能优化
v2.36.0版本在系统性能方面做了多项优化:
-
优化了多个API端点的响应速度,包括任务列表、质量冲突和云存储相关的请求处理。这些优化显著减少了大数据量情况下的响应时间。
-
改进了数据库查询效率,特别是针对服务器权限检查的数据库请求。这降低了系统在高并发情况下的负载。
-
对作业API端点进行了专门优化,提升了批量处理作业时的系统性能。
CLI工具改进
命令行工具(CLI)在这个版本中也得到了增强。最显著的变化是默认服务器主机值现在明确设置为"http://localhost",避免了之前可能出现的连接问题。同时,CLI工具现在对无效参数或帮助请求的处理更加友好,不再不必要地提示输入服务器密码。
其他重要修复
除了上述主要改进外,v2.36.0还修复了多个问题:
- 修复了API方法不允许时返回500状态码的问题,现在会返回更合适的HTTP状态码
- 解决了AI模型跟踪在重新启用后无法自动启动的问题
- 修正了Helm chart中的标签选择器模板使用问题
向后兼容性说明
需要注意的是,v2.36.0版本开始弃用了SDK和CLI中的自动服务器URL方案检测功能。开发者应该明确在主机地址前添加"https://"或"http://", 以避免未来版本中的兼容性问题。
总体而言,CVAT v2.36.0版本在功能完善和性能提升方面都取得了显著进展,特别是对3D标注工作流的支持更加完善。这些改进将进一步提升用户体验,特别是在处理大规模数据集和复杂标注任务时。
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00- DDeepSeek-OCR暂无简介Python00
openPangu-Ultra-MoE-718B-V1.1昇腾原生的开源盘古 Ultra-MoE-718B-V1.1 语言模型Python00
HunyuanWorld-Mirror混元3D世界重建模型,支持多模态先验注入和多任务统一输出Python00
AI内容魔方AI内容专区,汇集全球AI开源项目,集结模块、可组合的内容,致力于分享、交流。03
Spark-Scilit-X1-13BFLYTEK Spark Scilit-X1-13B is based on the latest generation of iFLYTEK Foundation Model, and has been trained on multiple core tasks derived from scientific literature. As a large language model tailored for academic research scenarios, it has shown excellent performance in Paper Assisted Reading, Academic Translation, English Polishing, and Review Generation, aiming to provide efficient and accurate intelligent assistance for researchers, faculty members, and students.Python00
GOT-OCR-2.0-hf阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00- HHowToCook程序员在家做饭方法指南。Programmer's guide about how to cook at home (Chinese only).Dockerfile013
Spark-Chemistry-X1-13B科大讯飞星火化学-X1-13B (iFLYTEK Spark Chemistry-X1-13B) 是一款专为化学领域优化的大语言模型。它由星火-X1 (Spark-X1) 基础模型微调而来,在化学知识问答、分子性质预测、化学名称转换和科学推理方面展现出强大的能力,同时保持了强大的通用语言理解与生成能力。Python00- PpathwayPathway is an open framework for high-throughput and low-latency real-time data processing.Python00