DGL • Thema anzeigen - Realtime S3TC kompressor

Realtime S3TC kompressor

Moderator: DGL-Team

Seite 1 von 1

[ 5 Beiträge ]

Druckansicht

Vorheriges Thema | Nächstes Thema

Autor

Nachricht

oc2k1

Betreff des Beitrags: Realtime S3TC kompressor

Verfasst: Mo Jul 31, 2006 17:56

DGL Member

Registriert: So Jun 04, 2006 12:54
Beiträge: 263

Man hat immer zu wenig Vram. Selbst wenn man ein GB hätte wäre es zu wenig. Irgend wie kam in einem IRC channel die Frage auf, ob es nicht möglich wäre Framebufferobjekte zu komprimieren. Nach einigem überlegen war mir klar, das es zumindest über umwege möglich wäre eine Textur im S3TC format per shader zu komprimieren. Beim Suchen fand ich dann diese Seite:
http://graphics.cs.lth.se/research/papers/gputc2006/
Nach dem ich das Paper gelesn hatte, sind mir noch ein paar Verbesserungen eingefallen, mit denen die kompression noch effektiver ablaufen kann (die 4x float16 ausgabe lässt sich nuten, wenn die float werte aus Texturen gelesen werden) Dazu könnte man die Qualität von S3TC noch deutlich verbessern, wenn die helligkeit gegen über den Farben beforzugt werden. Halt so ähnlich wie bei Jpeg, wo die Farbe nur die halbe Auflösung der Helligkeit hat. Mit einem angepasstem algoritmuss würden die Blockartefakte von S3TC wesendlich geringer werden...

Das größte problem dabei wäre der Texture cast. Deren lösung besteht darin die Textur herunter und wieder hochzuladen....

Was haltet ihr davon? Sinn macht ein solcher shader vorallem bei RGB Framebufferobjekten, der rest kann ja schon voher komprimiert werden...

Nach oben

TAK2004

Betreff des Beitrags:

Verfasst: Di Aug 01, 2006 10:43

DGL Member

Registriert: Di Mai 18, 2004 16:45
Beiträge: 2623
Wohnort: Berlin
Programmiersprache: Go, C/C++

Ob es was bringt, würde ich erst sagen wenn es mal getestet wurde.
Es kommt ja auf die Zeitverluste an die durch das extra verarbeiten anfallen.
Wenn diese relativ gering sind und eventuell das verschieben von Texturen zwischen VRam und Ram schlagen könnte, dann wäre es eine sehr praktische sache.

Eventuell sollte man auch mal probieren die Texturdaten in Wavelet form zu übergeben und per shader dann zurück zuwandeln.
Einer der Vorteil von Wavelet ist ja das ohne mehr platzverbrauch Mipmaps möglich sind. Wavelet ist auch sehr freundlich gegenüber verlustbehaftetem kompremieren. So kann man einfach alle Werte die z.B. 0.25 unterschreiten auf 0 setzen.

Aber sowas muss man alles ausprobieren um zu sehen ob es sich lohnt.

_________________
"Wer die Freiheit aufgibt um Sicherheit zu gewinnen, der wird am Ende beides verlieren"
Benjamin Franklin

Projekte: https://github.com/tak2004

Nach oben

oc2k1

Betreff des Beitrags:

Verfasst: Do Aug 03, 2006 15:21

DGL Member

Registriert: So Jun 04, 2006 12:54
Beiträge: 263

Hier ist das erste konzept. es könnten noch diverse Fehler drin sein:

Code:

uniform sampler2D Texture0;
uniform sampler2D Lookup2D; //256x256 lookuptable for indizies
uniform sampler3D Lookup3D; //32x64x32 lookuptable for colors
 
#define sz = 1.0 / 4096
 
 
const vec2 texofset[16] = {vec2 (-1.5 * sz,-1.5 * sz), vec2 (-0.5 * sz,-1.5 * sz), vec2 (0.5 * sz,-1.5 * sz), vec2 (1.5 * sz,-1.5 * sz),
                               vec2 (-1.5 * sz,-0.5 * sz), vec2 (-0.5 * sz,-0.5 * sz), vec2 (0.5 * sz,-0.5 * sz), vec2 (1.5 * sz,-0.5 * sz),
                                   vec2 (-1.5 * sz, 0.5 * sz), vec2 (-0.5 * sz, 0.5 * sz), vec2 (0.5 * sz, 0.5 * sz), vec2 (1.5 * sz, 0.5 * sz),
                                           vec2 (-1.5 * sz, 1.5 * sz), vec2 (-0.5 * sz, 1.5 * sz), vec2 (0.5 * sz, 1.5 * sz), vec2 (1.5 * sz, 1.5 * sz)};
const float fac[4] = {1.0,4.0,16.0,64.0};
 
vec4 inputs[16];
 
main(){
 
        vec4 middle=vec3(0.0,0.0,0.0,0.0);
    int i;
        for (i=0;i<16;i++){
        inputs[i].rgb=texture2D(Texture0, vec(gl_TexCoord[0])+texofset[i]);
        inputs[i].a = dot(inputs[i].rgb,vec3(0.299, 0.587, 0.114));
        middle += inputs[i];
        }
    middle /= 16.0;
 
    vec4 delta = vec3(0.0,0.0,0.0,0.0);
    float deltac = 0.0;
        for (i=0;i<16;i++){
        if (inputs[i].a > middle.a){
            delta += inputs[i];
            deltac += 1.0;
            }
        }
    delta = (delta / deltac - middle) * 2.0;
    gl_FragColor.r = texture3D(Lookup3D, middle.rgb + delta.rgb ); //First color
        gl_FragColor.g = texture3D(Lookup3D, middle.rgb - delta.rgb ); //Secondary Color
    
    float B[3]; 
    B[0]=middle.a + delta.a * 0.6667;
    B[1]=middle.a;
    B[2]=middle.a - delta.a * 0.6667;
    float index[4];
    for (i=0;i<4;i++){
        index[i]=0.0;
        for (int j=0; j<4 ;j++){
                        if (inputs[i*4+j].a > B[0]){   
                // It's color 0 (ligth) do nothing
                break;
                }
            if (inputs[i*4+j].a > B[1]){   
                index[i] += fac[j] * 2.0; // It's color 2 (lighter)
                break;
                }
            if (inputs[i*4+j].a > B[2]){   
                index[i] += fac[j] * 3.0; // It's color 3 (darker)
                break;
                }
            index[i] += fac[j] * 1.0; // It's color 1 (dark)
            }      
        }
    gl_FragColor.b = texture2D(Lookup2D, vec2(index[0],index[1])); //Samples 0 to 7
    gl_FragColor.a = texture2D(Lookup2D, vec2(index[2],index[3])); //Samples 8 to 15
    }

Das Rendertarget mit 16 bit Pro Kanal zur Verfügung stellen, damit die 64 bit für die S3TC kompressionsblöcke ereicht werden. Die 4 zusätzlichen Texturlookups sind nötig um auch float16 als rendertarget zu verwenden, da dies neben 2x float der einziege 64bit Rendermode ist der auf Nvidiakarten läuft. Eventuell ist die interne Organisation von Nvidiakarten anders, so das eine andere Anordnung schneller ist

Weiterhin fehlt erst einmal der Code, der die 4x Float16 Textur in eine S3TC mit der 4x Auflösung casted (16x so viele Pixel)

Nach oben

oc2k1

Betreff des Beitrags:

Verfasst: Fr Aug 04, 2006 14:21

DGL Member

Registriert: So Jun 04, 2006 12:54
Beiträge: 263

Inzwischen habe ich einen shader, der sich sogar laden lässt. Mit dem cgc compeliert bringt er es auf ganze 419 Instruktionen. Somit werden zum komprimieren eines Pixels etwa 26 Instrukionen gebraucht. Immerhin kann man sehen, dass sämpliche Forschleifen entrollt wurden und das selbst die 16 vec2 konstanten zu einem einfachem floatvektor umgebaut werden.
Prinzipell sollte GLSL im algeminen keinen nachteil gegenüber einem assembler program haebn, aber man vergisst schnell, das einiges an code 16 x ausgeführt wird...

Code:

 
uniform sampler2D Texture0;
uniform sampler2D Lookup2D; //256x256 float16 lookuptable for indizies
uniform sampler3D Lookup3D; //32x64x32 float16 lookuptable for colors, both are filled with shorts from 0 to 2^16
 
#define SZ1  0.5 / 4096.0
#define SZ2  1.5 / 4096.0
 
 
const vec2 texofset[16] = {vec2 (-SZ2,-SZ2), vec2 (-SZ1,-SZ2), vec2 (SZ1,-SZ2), vec2 (SZ2,-SZ2),
               vec2 (-SZ2,-SZ1), vec2 (-SZ1,-SZ1), vec2 (SZ1,-SZ1), vec2 (SZ2,-SZ1),
               vec2 (-SZ2, SZ1), vec2 (-SZ1, SZ1), vec2 (SZ1, SZ1), vec2 (SZ2, SZ1),
                           vec2 (-SZ2, SZ2), vec2 (-SZ1, SZ2), vec2 (SZ1, SZ2), vec2 (SZ2, SZ2)};
const float fac[4] = {1.0,4.0,16.0,64.0};
 
vec4 inputs[16];
 
void main(){
 
        vec4 middle=vec4(0.0,0.0,0.0,0.0);
    int i =0;
        for (i=0;i<16;i++){
        inputs[i].rgb=texture2D(Texture0, vec2(gl_TexCoord[0])+texofset[i]).rgb;
        inputs[i].a = dot(inputs[i].rgb,vec3(0.299, 0.587, 0.114)); // caluculate Hue
        middle += inputs[i];
        }
    middle /= 16.0;
 
    vec4 delta = vec4(0.0,0.0,0.0,0.0);
    float deltac = 0.0;
        for (i=0;i<16;i++){
        if (inputs[i].a > middle.a){
            delta += inputs[i];
            deltac += 1.0;
            }
        }
    delta = (delta / deltac - middle) * 2.0;
    gl_FragColor.r = texture3D(Lookup3D, middle.rgb + delta.rgb ).r; //First color
        gl_FragColor.g = texture3D(Lookup3D, middle.rgb - delta.rgb ).r; //Secondary Color
    
    float B[3]; 
    B[0]=middle.a + delta.a * 0.6667;
    B[1]=middle.a;
    B[2]=middle.a - delta.a * 0.6667;
    float index[4]={0.0,0.0,0.0,0.0};
    
    for ( i=0; i<4 ;i++)
    for (int j=0; j<4 ;j++){
        if (inputs[j+4*i].a > B[1]){   
            if (inputs[j+4*i].a < B[0]){
                index[i] += fac[j] * 3.0;
                }
            else{
                index[i] += fac[j] /** 1.0*/;
                }
            }
        else{
            if (inputs[j+4*i].a > B[2]){
                index[i] += fac[j] * 2.0; 
                }
            /*else{
                index[i] += fac[j] * 0.0;
                }*/
            }
        }      
    
    gl_FragColor.b = texture2D(Lookup2D, vec2(index[0],index[1])).r; //Samples 0 to 7
    gl_FragColor.a = texture2D(Lookup2D, vec2(index[2],index[3])).r; //Samples 8 to 15
    }

Nach oben

oc2k1

Betreff des Beitrags:

Verfasst: Mo Aug 07, 2006 02:52

DGL Member

Registriert: So Jun 04, 2006 12:54
Beiträge: 263

SO der erste Code läuft http://cpux.de/s3tc.tar.bz2 Es gibt kleine einschränkungen und der Algoritmus ist noch nicht der beste.

Nach oben

Seite 1 von 1

[ 5 Beiträge ]

Foren-Übersicht » Programmierung » Shader

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

Du darfst keine neuen Themen in diesem Forum erstellen.
Du darfst keine Antworten zu Themen in diesem Forum erstellen.
Du darfst deine Beiträge in diesem Forum nicht ändern.
Du darfst deine Beiträge in diesem Forum nicht löschen.
Du darfst keine Dateianhänge in diesem Forum erstellen.