TensorRT C++ API 使用教程

2024-08-18 19:56:10作者：管翌锬

项目介绍

TensorRT C++ API 是一个开源项目，旨在为开发者提供使用 NVIDIA TensorRT 进行高性能深度学习推理的 C++ 接口。TensorRT 是 NVIDIA 推出的一个库，用于优化和运行深度学习模型，以实现快速推理。该项目支持多种模型输入输出格式，并提供了丰富的功能和选项，以满足不同开发需求。

项目快速启动

环境准备

在开始之前，请确保已经安装了以下依赖：

OpenCV cuda
TensorRT

安装步骤

克隆项目仓库：

git clone https://github.com/cyrusbehr/tensorrt-cpp-api.git

进入项目目录：
```
cd tensorrt-cpp-api
```
编译项目：
```
mkdir build && cd build
cmake ..
make
```

示例代码

以下是一个简单的示例代码，展示如何使用 TensorRT C++ API 进行推理：

#include "NvInfer.h"
#include "NvUtils.h"
#include <iostream>

int main() {
    // 创建 TensorRT 运行时
    nvinfer1::IRuntime* runtime = nvinfer1::createInferRuntime(gLogger);

    // 加载模型
    std::string modelStream;
    // 从文件中读取模型流
    // ...

    // 反序列化模型
    nvinfer1::ICudaEngine* engine = runtime->deserializeCudaEngine(modelStream.data(), modelStream.size(), nullptr);

    // 创建执行上下文
    nvinfer1::IExecutionContext* context = engine->createExecutionContext();

    // 准备输入数据
    float input[INPUT_SIZE];
    // 填充输入数据
    // ...

    // 准备输出数据
    float output[OUTPUT_SIZE];

    // 创建 CUDA 流
    cudaStream_t stream;
    cudaStreamCreate(&stream);

    // 分配设备内存
    void* buffers[2];
    cudaMalloc(&buffers[0], INPUT_SIZE * sizeof(float));
    cudaMalloc(&buffers[1], OUTPUT_SIZE * sizeof(float));

    // 将输入数据复制到设备
    cudaMemcpyAsync(buffers[0], input, INPUT_SIZE * sizeof(float), cudaMemcpyHostToDevice, stream);

    // 执行推理
    context->enqueue(1, buffers, stream, nullptr);

    // 将输出数据复制回主机
    cudaMemcpyAsync(output, buffers[1], OUTPUT_SIZE * sizeof(float), cudaMemcpyDeviceToHost, stream);

    // 同步流
    cudaStreamSynchronize(stream);

    // 释放资源
    cudaStreamDestroy(stream);
    cudaFree(buffers[0]);
    cudaFree(buffers[1]);
    context->destroy();
    engine->destroy();
    runtime->destroy();

    return 0;
}