Cuda代码的优化方法（1）

本文整理自网络视频。

Analysis

分析代码，找到hotspot函数，使用profiler测试，计算预期。

选择并行化方法，并实现。cuda并行库，自己实现，或Directives（OpenMP，OpenACC）

profile驱动的优化，使用的工具有：

实际运行中去挖掘。

这里是一个矩阵转置的优化代码，由于一个thread block内不能超过1024个thread，所以需要分到几个block上进行。

WechatIMG299

WechatIMG304

每个内存事务的平均延迟与带宽的乘积就是传送的字节数。类似于排队。
因此，增加传送的字节数，或者减少事务间的延迟，可以改善代码内存带宽。

根据具体的SM硬件资源来决定具体参数。

WechatIMG305