2月 19, 2023 / 最終更新日時 : 2月 19, 2023 Shuji Suzuki (shu) プログラミング CUDAの高速化の復習2023年版 Histogram(主にatomicAdd)編 Reduction、vectrized memory accessに続き、今回はhistogramを題材にして主にatomicAddのパフォーマンスが最近どうなっているのかを見ていきたいと思います。 Histogramは […]
2月 14, 2023 / 最終更新日時 : 2月 18, 2023 Shuji Suzuki (shu) プログラミング CUDAの高速化の復習2023年版 Vectorized Memory Access編 前回Reductionを例に今時のCUDAの高速化で何が効いているのか?を確認したまとめの記事を書きました。今回はその中には登場しなかったCUDAの高速化テクニックの「Vectorized Memory Access」が […]
1月 29, 2023 / 最終更新日時 : 1月 29, 2023 Shuji Suzuki (shu) プログラミング CUDAの高速化の復習2023年版 Reduction編 今回は最近のCUDA Samplesのコードを参考にCUDAでreductionを速くするテクニックのまとめになります。 私はCUDAを2009年のころから研究で使っていました。当時は頑張って勉強していたので自分の研究分 […]
12月 20, 2022 / 最終更新日時 : 12月 20, 2022 Shuji Suzuki (shu) プログラミング Visual Studio Codeを使ってCUDAのコードを書く はじめに 最近、久しぶりにCUDAでコードを書きそうな状況になってきました。このため、ここ数日CUDAの開発環境の準備をしているところです。その際、周りの人が結構Visual Studio Code (VSCode) を […]
10月 23, 2021 / 最終更新日時 : 10月 23, 2021 Shuji Suzuki (shu) プログラミング PyTorch 1.10の新機能「CUDA Graphs」のパフォーマンスを測定してみる はじめに 10/21にPyTorch 1.10がリリースされ、今回も面白そうな機能が追加されました。個人的には楽しみにしていた「CUDA Graphs」のAPIのベータ版が追加されたということで早速試してみました。今回は […]
3月 21, 2021 / 最終更新日時 : 3月 21, 2021 Shuji Suzuki (shu) プログラミング PyTorchでGPUの計算時間を正しく計測する 今回の記事ではPyTorchでGPUで実行した関数の計算時間を正しく測定する方法とその後に詳しい説明をしていきます。 はじめに 仕事がらPyTorchで高速な学習方法をいろいろ調べることがよくあります。その際、blog記 […]