Multi‑GPU work sharing in a task‑based dataflow programming model
一些记录
AI:PaRSEC(Parallel Runtime Scheduling and Execution Controller)是来自田纳西大学创新计算实验室(ICL)的一个任务型数据流运行时框架,设计用于在分布式、多核异构系统上高效调度微任务并管理数据依赖关系。https://icl.utk.edu/parsec/
AI总结
研究背景与问题
当下高性能计算节点通常包含多个GPU,但使用传统的共享内存或消息传递范式编写高效的多GPU程序仍然十分复杂 。
任务驱动的数据流编程模型(如 PaRSEC)提供了一种替代方案,但多数运行时只在初始阶段进行任务映射,一旦映射完成,即便负载出现不平衡也不会动态调整。
创新与贡献
动态 GPU 任务共享机制:提出一种自动动态的工作共享方法,在节点内多个 GPU 之间实时分配任务,以响应负载变化。
与现有模型无关:尽管实验基于 PaRSEC,但所提出方法可迁移到其他任何任务型数据流运行时。
实证验证:使用块稀疏矩阵乘法(BSpGEMM)测试,展示动态工作共享相比静态映射能显著提升性能。
实验与结果
基准测试:BSpGEMM(block-sparse GEMM)
结果亮点:通过动态负载再平衡,多个 GPU 的利用率更高,整体执行性能提升明显。
影响领域:该研究方法对于高性能计算、AI 训练、大数据分析等多 GPU 应用场景具有重要意义。
总结
这篇文章通过在任务驱动的数据流框架中引入动态任务共享,解决了多 GPU 环境下负载分配不均的问题。其核心价值在于:
弹性调整、实时反映运行时负载变化;
显著提升异构节点的 GPU 利用率;
方法通用,易与其他框架集成。