InternVideo项目数据集构建策略解析：DIV与FLT技术详解

2025-07-07 10:35:57作者：咎岭娴Homer

InternVideo: General Video Foundation Models via Generative and Discriminative Learning (https://arxiv.org/abs/2212.03191)

项目地址：https://gitcode.com/gh_mirrors/in/InternVideo

数据集构建背景

InternVideo作为视频理解领域的重要开源项目，其数据集构建策略直接影响模型训练效果。项目团队采用了DIV（Diverse Sampling）和FLT（Filtering）两种关键技术对原始视频数据进行处理，最终形成了高质量的训练数据集。这两种方法在保证数据多样性的同时，有效提升了数据质量。

DIV多样性采样技术

DIV技术的核心目标是解决长视频数据中片段分布不均衡的问题。在原始视频数据中，较长的视频会被分割成更多片段，如果简单随机采样，会导致模型训练时过度关注那些被分割次数多的长视频内容。

项目团队采用逆向频率采样策略：首先统计每个长视频在片段池中出现的频率，然后按照频率的倒数作为采样概率。这种方法的数学本质是赋予低频视频片段更高的采样权重，从而确保来自不同源视频的片段都能获得相对均衡的表示机会。

FLT数据过滤策略

FLT技术是一套系统的数据清洗流程，包含三个关键步骤：

时长过滤：剔除过短（<1秒）和过长（>120秒）的视频片段，这类片段通常包含信息量不足或内容过于复杂。据统计，这一步骤过滤掉了约23.15%的过短片段和0.84%的过长片段。
CLIPScore筛选：使用OpenAI的CLIP-ViT-L/14模型计算每个视频片段的CLIPScore（随机选取一帧计算），保留得分在前30%的高质量片段。这一步骤确保了文本-视频对齐性。
多样性采样：在通过前两步筛选后的数据基础上，再次应用DIV采样策略，最终得到约1000万条高质量视频片段。

美学数据集构建

除了基础数据集外，项目还构建了专门的美学数据集。与基础数据集不同，美学数据集不依赖CLIPScore筛选，而是基于美学评分进行选择。项目团队设定了一个严格的阈值标准：仅保留美学评分在前10%的视频片段。这种策略特别适合需要高质量视觉输入的下游任务。

技术选型考量

在相似度计算方面，项目团队选择了广泛认可的CLIPScore而非自研的UMT_Score，主要基于以下考虑：

CLIP模型在学术界和工业界都有广泛认知度和应用基础
使用公认指标可以避免论文评审过程中产生不必要的解释成本
CLIPScore的计算结果具有更好的可解释性和可比性

数据集获取

项目团队已经公开了包含2.34亿视频片段的完整数据集，时长范围从2秒到30秒以上不等。这个大规模、高质量的数据集为视频理解领域的模型训练提供了坚实基础。

通过DIV和FLT这两项核心技术，InternVideo项目实现了数据多样性和质量的平衡，为其出色的视频理解性能提供了可靠的数据支撑。这种系统化的数据处理方法值得其他视觉项目借鉴。

InternVideo: General Video Foundation Models via Generative and Discriminative Learning (https://arxiv.org/abs/2212.03191)

项目地址：https://gitcode.com/gh_mirrors/in/InternVideo

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统