Ich schreibe gerade meine Masterarbeit. Darin untersuche ich u.A., wie ich 2D Faltungen möglichst performant mit CUDA implementieren kann. Ich würde gerne wissen ob die Performance, die mein Code aktuell erreicht, OK ist oder ob da noch mehr gehen sollte. Aktuell laufen ca. 15360 Faltungen eines 1024x1024 Bildes mit 3x3 Gewichten in ca. 80ms. Ich möchte, dass das 16ms werden. Das Problem ist ziemlich sicher die Speicherlatenz. Ich benutze bereits Shared Memory und lade in Blöcken von 8x8x32 (weil 32 Channels) und falte dann damit. Außerdem benutze ich fp16 Gewichte, der Bandbreite wegen.
Also, falls hier jemand ist, der sich mit CUDA oder Compute Shadern oder OpenCL auskennt, Hände hoch! Ich kann auch gern mehr dazu erzählen. Hinweise auf aktuelle Literatur zu dem Thema werden auch dankend entgegengenommen
Cheers!
_________________ "Für kein Tier wird so viel gearbeitet wie für die Katz'."
Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste
Du darfst keine neuen Themen in diesem Forum erstellen. Du darfst keine Antworten zu Themen in diesem Forum erstellen. Du darfst deine Beiträge in diesem Forum nicht ändern. Du darfst deine Beiträge in diesem Forum nicht löschen. Du darfst keine Dateianhänge in diesem Forum erstellen.