Zhonghui

每个不曾起舞的日子,都是对生命的辜负

User Tools

Site Tools


程序:cuda:cuda_graph

Table of Contents

CUDA Graph


介绍

AI:CUDA Graph API 是 CUDA 10 引入的一种高级机制,用于将多个 GPU 操作(kernel 启动、拷贝、memset 等)预先“组织成图”(DAG),然后作为一个整体进行启动

  1. 减少 CPU 端启动开销:传统逐个 kernel launch 会产生大量 CPU-API 调用延迟,尤其是在短小 kernel 串联时尤为明显。CUDA Graph 可以将多个操作组合并只进行一次 GPU 提交
  2. 统一并行调度:图中的执行顺序由依赖关系自动管理,GPU 可优化整个 graph 的执行节奏、资源使用
  3. 重复使用:图结构可以多次执行(launch_graph),适合在迭代场景多次调用同一序列的GPU任务
  4. 使用 cudaGraphCreate()、cudaGraphAddNode()、cudaGraphInstantiate() 等构造图
  5. 通过一次 cudaGraphLaunch() 启动整个图,可以避免多次 kernel 启动的 CPU 开销,尤其对大量小型 kernel 特别有效

Example

TODO

/var/www/DokuWikiStick/dokuwiki/data/pages/程序/cuda/cuda_graph.txt · Last modified: 2025/07/14 07:39 by zhonghui