正在进行中的研究:并行计算
Giga Floating Point Operations Per Second,意思是每秒能够进行多少 十亿次浮点运算
高性能计算集群中常用的网络连接技术
好像用的不是IP协议?
大致速度:即使是最早期的 SDR (10 Gb/s) 端口,使用 IPoIB 也能到 1 GB/s 左右;常见的 FDR (56 Gb/s) 甚至应在 6 GB/s 以上【AI】
| 特点 | InfiniBand | 普通以太网(TCP/IP) |
| 路由 | Fabric 内硬件路径,无网关 | 三层网关(Router),有 NAT |
| 寻址 | LID,本地 ID,SM 下管理 | IP,需手动配置或 DHCP |
| 延迟 | 亚微秒 | 微秒以上 |
| 吞吐 | 最高达 400 Gb/s+ | 通常 10–400 Gb/s |
| 架构 | 专用 HPC 网络,扁平、冗余 | 企业级、互联网广域结构 |
AI:在并行计算(Parallel Computing)中,overhead(开销)指的是为了实现并行而额外增加的时间或资源消耗,这些消耗本身并不直接用于实际的计算任务。可以简单理解为:让多个任务“协作”时,不得不花的“沟通、协调、安排、管理”的额外时间。
指那些在执行过程中,其数据总量超出了 GPU 显存(memory)容量,但仍然能通过特殊策略在 GPU 上运行的应用程序。
每个输出元素的值是其“邻域”元素的输入值的函数
一般是公益性质?