程序:cuda:cuda_graph
CUDA Graph
介绍
AI:CUDA Graph API 是 CUDA 10 引入的一种高级机制,用于将多个 GPU 操作(kernel 启动、拷贝、memset 等)预先“组织成图”(DAG),然后作为一个整体进行启动
减少 CPU 端启动开销:传统逐个 kernel launch 会产生大量 CPU-
API 调用延迟,尤其是在短小 kernel 串联时尤为明显。CUDA Graph 可以将多个操作组合并只进行一次 GPU 提交
统一并行调度:图中的执行顺序由依赖关系自动管理,GPU 可优化整个 graph 的执行节奏、资源使用
重复使用:图结构可以多次执行(launch_graph),适合在迭代场景多次调用同一序列的GPU任务
使用 cudaGraphCreate()、cudaGraphAddNode()、cudaGraphInstantiate() 等构造图
通过一次 cudaGraphLaunch() 启动整个图,可以避免多次 kernel 启动的 CPU 开销,尤其对大量小型 kernel 特别有效
Example
/var/www/DokuWikiStick/dokuwiki/data/pages/程序/cuda/cuda_graph.txt · Last modified: 2025/07/14 07:39 by zhonghui