Table of Contents

GPU上のアウトオブコア・ステンシル計算を高速化するための実行パラメータの選定


总结

三个参数

  1. 时空分块步数 b(Temporal Blocking Step / 段数)
    1. b越大,需同时存储更多步的中间结果和更宽的“袖带”,显存占用随之大增
    2. 做b步(b>1)时,每多做一步,数据依赖向外扩展一层,所以要多准备b层袖带
  2. 数据块(chunk)大小 c(Chunk Size)
  3. 是否使用数据压缩 d(Use Compression or Not)

AI总结

研究背景

研究问题

论文贡献

  1. 提出了一套基于解析性能预测模型的参数选定方法,可以在不需要完整实现Out-of-Core程序的情况下,预先推算出高性能的参数组合(b, c, d)。
  2. 分别针对是否启用数据压缩,推导出两组参数(b0, c0, 0)与(b1, c1, 1),并对其预估运行时间T0、T1进行比较,最终选择更优的方案应用于实际计算。
  3. 主要思路

    • 通过分析和实验,发现短执行时间的参数组合一般具备“分块步数b尽可能大,chunk大小c也尽量大”的特性,但需满足GPU显存约束及数据重用的边界限制。
    • 设计了自动搜索算法,先最大化b,再在允许范围内最大化c。
    • 利用性能模型,结合in-core测试数据、硬件性能等,估算不同参数下的实际执行时间。

实验与结果

关键词

GPU、Out-of-Core Stencil计算、性能预测模型、数据压缩

一句话总结: 本论文提出了一种无需反复试错、基于理论性能预测模型的GPU Out-of-Core Stencil计算加速参数自动选定方法,并通过实验验证了其准确性和实用价值,对大规模科学计算等实际应用具有重要意义。