DGL
https://delphigl.com/forum/

CUDA / (Compute-) Shader Performance bei vielen Faltungen
https://delphigl.com/forum/viewtopic.php?f=20&t=11724
Seite 1 von 1

Autor:  Frase [ So Mär 20, 2022 09:24 ]
Betreff des Beitrags:  CUDA / (Compute-) Shader Performance bei vielen Faltungen

Hi!

Ich schreibe gerade meine Masterarbeit. Darin untersuche ich u.A., wie ich 2D Faltungen möglichst performant mit CUDA implementieren kann. Ich würde gerne wissen ob die Performance, die mein Code aktuell erreicht, OK ist oder ob da noch mehr gehen sollte.
Aktuell laufen ca. 15360 Faltungen eines 1024x1024 Bildes mit 3x3 Gewichten in ca. 80ms. Ich möchte, dass das 16ms werden.
Das Problem ist ziemlich sicher die Speicherlatenz. Ich benutze bereits Shared Memory und lade in Blöcken von 8x8x32 (weil 32 Channels) und falte dann damit. Außerdem benutze ich fp16 Gewichte, der Bandbreite wegen.

Also, falls hier jemand ist, der sich mit CUDA oder Compute Shadern oder OpenCL auskennt, Hände hoch! Ich kann auch gern mehr dazu erzählen. Hinweise auf aktuelle Literatur zu dem Thema werden auch dankend entgegengenommen :)

Cheers!

Seite 1 von 1 Alle Zeiten sind UTC + 1 Stunde
Powered by phpBB® Forum Software © phpBB Group
https://www.phpbb.com/