Yolov13论文数据公开:实验原始数据与代码复现指南
项目概述
Yolov13是一款基于超图增强自适应视觉感知的实时目标检测模型,通过HyperACE机制和FullPAD范式实现了更高的检测精度和效率。本指南将详细介绍如何获取实验原始数据并复现论文中的关键实验结果。项目提供了四个模型变体:Nano(yolov13n.pt)、Small(yolov13s.pt)、Large(yolov13l.pt)和X-Large(yolov13x.pt),满足不同场景的需求。
技术背景
HyperACE机制
Hypergraph-based Adaptive Correlation Enhancement(超图自适应关联增强)机制将多尺度特征图中的像素视为超图顶点,通过可学习的超边构建模块自适应探索顶点间的高阶关联。该机制采用线性复杂度的消息传递模块,在高阶关联的引导下有效聚合多尺度特征,实现复杂场景的有效视觉感知。
FullPAD范式
Full-Pipeline Aggregation-and-Distribution(全流程聚合与分发)范式利用HyperACE聚合骨干网络的多尺度特征,并在超图空间中提取高阶关联。通过三个独立通道将关联增强特征分别传递到骨干与颈部连接、颈部内部层以及颈部与头部连接,实现全流程的细粒度信息流和表示协同。
实验数据获取
模型权重下载
项目提供的预训练模型权重文件位于当前目录下,包括:
- yolov13n.pt:Nano版本,2.5M参数,6.4G FLOPs
- yolov13s.pt:Small版本,9.0M参数,20.8G FLOPs
- yolov13l.pt:Large版本,27.6M参数,88.4G FLOPs
- yolov13x.pt:X-Large版本,64.0M参数,199.2G FLOPs
MS COCO数据集
实验使用的MS COCO数据集需用户自行准备,数据集配置文件可参考官方文档中的说明。
环境搭建
依赖安装
# 创建虚拟环境
conda create -n yolov13 python=3.11
conda activate yolov13
# 安装依赖
pip install -r requirements.txt
pip install -e .
# 安装Flash Attention加速库
wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.3/flash_attn-2.7.3+cu11torch2.2cxx11abiFALSE-cp311-cp311-linux_x86_64.whl
pip install flash_attn-2.7.3+cu11torch2.2cxx11abiFALSE-cp311-cp311-linux_x86_64.whl
实验复现步骤
模型验证
使用以下代码在COCO数据集上验证模型性能:
from ultralytics import YOLO
# 加载模型,替换{n/s/l/x}选择不同版本
model = YOLO('yolov13n.pt')
# 在验证集上评估模型
metrics = model.val()
print(metrics.box.map) # 打印mAP50-95
print(metrics.box.map50) # 打印mAP50
print(metrics.box.map75) # 打印mAP75
训练复现
以下是复现论文中训练结果的代码示例:
from ultralytics import YOLO
# 加载模型配置文件
model = YOLO('yolov13n.yaml')
# 训练模型,参数与论文保持一致
results = model.train(
data='coco.yaml',
epochs=600,
batch=256,
imgsz=640,
scale=0.5, # S:0.9; L:0.9; X:0.9
mosaic=1.0,
mixup=0.0, # S:0.05; L:0.15; X:0.2
copy_paste=0.1, # S:0.15; L:0.5; X:0.6
device="0,1,2,3",
)
推理测试
使用训练好的模型进行目标检测:
from ultralytics import YOLO
# 加载模型
model = YOLO('yolov13n.pt')
# 对图像进行推理
results = model("path/to/your/image.jpg")
results[0].show() # 显示检测结果
实验结果对比
MS COCO数据集性能
论文中报告的YOLOv13与其他实时目标检测器在MS COCO数据集上的性能对比:
| 方法 | FLOPs (G) | 参数 (M) | AP50:95val | AP50val | AP75val | 延迟 (ms) |
|---|---|---|---|---|---|---|
| YOLO11-N | 6.5 | 2.6 | 38.6 | 54.2 | 41.6 | 1.53 |
| YOLOv12-N | 6.5 | 2.6 | 40.1 | 56.0 | 43.4 | 1.83 |
| YOLOv13-N | 6.4 | 2.5 | 41.6 | 57.8 | 45.1 | 1.97 |
| YOLO11-S | 21.5 | 9.4 | 45.8 | 62.6 | 49.8 | 2.56 |
| YOLOv12-S | 21.4 | 9.3 | 47.1 | 64.2 | 51.0 | 2.82 |
| YOLOv13-S | 20.8 | 9.0 | 48.0 | 65.2 | 52.0 | 2.98 |
模型导出
将模型导出为ONNX或TensorRT格式,以便在不同平台部署:
from ultralytics import YOLO
model = YOLO('yolov13n.pt')
model.export(format="onnx") # 导出为ONNX格式
# model.export(format="engine", half=True) # 导出为TensorRT格式
总结
本指南介绍了Yolov13论文实验数据的获取方法和代码复现步骤。通过使用提供的预训练模型权重和遵循训练配置,可以复现论文中报告的性能结果。项目的技术文档可参考README.md,其中详细描述了模型架构和实验设置。如有问题,欢迎通过项目渠道反馈。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin07
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00