探索视频识别的未来：I3D模型在Kinetics上的训练

2026-01-15 17:45:13作者：蔡怀权

概览

这款开源项目是Joao Carreira 和 Andrew Zisserman在2017年CVPR会议上发表的论文《Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset》的实践应用。它包含了使用Inception-v1架构的I3D模型，这些模型经过Kinetics数据集的训练。

在论文中，作者展示了如何通过微调这些预训练模型在UCF101和HMDB51这两个标准视频分类数据集上达到最先进的性能。此外，基于I3D的预训练模型还在2017年的Charades挑战赛中拔得头筹。

现在，该项目还包括了一个从零开始训练的rgb输入模型，以及更大的Kinetics-600数据集。

最新更新：Google已开放了他们用于视频预处理的代码，详细信息可在Google的MediaPipe仓库找到相关设置指南。

请注意：这不是一个官方的Google产品。

开始使用

安装与配置

首先，按照Sonnet库的安装说明进行操作。

然后克隆这个项目仓库：

$ git clone https://github.com/deepmind/kinetics-i3d

示例代码运行

使用以下命令运行示例代码：

$ python evaluate_sample.py

默认情况下，该脚本会构建I3D双流模型，加载预训练的I3D检查点，并将一个样例视频通过模型进行处理。样例视频已经过预处理，提供了RGB和Flow的NumPy数组。

脚本将输出logits张量的范数，以及模型预测的前20个Kinetics类及其概率和logit值。如果使用默认参数，输出应该类似于以下内容（数字精度可能会有所不同）：

Norm of logits: 138.468643

Top classes and probabilities
...

运行测试

你可以使用以下命令运行测试：

$ python i3d_test.py

这将检查模型是否能正确构建并产生正确的形状。

致谢

感谢Brian Zhang, Joao Carreira, Viorica Patraucean, Diego de Las Casas, Chloe Hillier和Andrew Zisserman对初版发布的帮助。同样也要感谢Kinetics数据集的团队和原始Inception论文的作者，我们的架构和代码都是基于他们的工作。

问题和贡献

要向此存储库作出贡献，你需要首先签署Google的贡献者许可协议（CLA），在CONTRIBUTING.md文件中提供。然后我们将能够接受任何拉取请求，尽管目前并不打算扩展到其他训练模型。

如有任何问题，可以联系“Quo Vadis”论文的作者，他们的电子邮件在论文中列出。

让我们一起探索视频识别的新边界，这个强大的工具正等待你的发现！

kinetics-i3d

Convolutional neural network model for video classification trained on the Kinetics dataset.

项目地址：https://gitcode.com/gh_mirrors/ki/kinetics-i3d

登录后查看全文

探索视频识别的未来：I3D模型在Kinetics上的训练

概览

开始使用

安装与配置

示例代码运行

运行测试

更多细节

提供的检查点

训练过程

样本数据和预处理

致谢

问题和贡献

热门内容推荐

最新内容推荐

项目优选

探索视频识别的未来：I3D模型在Kinetics上的训练

概览

开始使用

安装与配置

示例代码运行

运行测试

更多细节

提供的检查点

训练过程

样本数据和预处理

致谢

问题和贡献

相关内容推荐

热门内容推荐

最新内容推荐

项目优选