DGL :: Thema anzeigen - @Radon Framework

Mal eine Frage: Wieso hast du im aktuellen Codebeispiel "unused" drin und außerdem 3 Byte Verlust durch automatisches Alignment bei "m_MemoryManagment"? Ich dachte du wolltest effizienter mit Cache umgehen und da werden glatt 7 Byte direkt in den Papierkorb verschoben, pro String, 2 mal pro Cacheline und direkt darüber schreit "FixString<16>" nach mehr Platz für SSO. Das kann ich gerade nicht ganz verstehen.

class ALIGN(32) String{
protected:
union{
FixString<27> m_Fix;
AutoPointerArray<Char> m_Dyn;//RAII Pattern: besteht aus T* m_Data und Size m_Size(16Byte bei 64bit und 8Byte bei 32Bit)
}
DataManagment::Type m_MemoryManagment;
UInt32 Length;
//UInt64 unused;
};

Ich weiß nicht wie du allokierst oder wie das "ALIGN"-Makro bei dir aussieht. Aber ich vermute es verwendet intern wohl "__declspec(align(...))" und es hat sich bei mir herausgestellt, dass das bei Allokationen auf den Heap scheinbar versagt, das heißt , es bringt dann genau gar nichts.

Der standard allocator reicht dafür aus, man muss einfach nur Bytegröße+15Byte alloziieren und dann kann man den pointer um bis zu 15 Byte verschieben, um alignment hin zu bekommen.

In VS2013 sind übrigens Profiler und Codeanalyse (zum ersten mal?) auch in der "normalen" Professional-Version integriert. An der UI wüsste ich persönlich ehrlich gesagt keine entscheidenden Änderungen, außer billiger aussehende Symbole im Vergleich zu VS10.

Autor:	Lord Horazont [ Mi Aug 28, 2013 10:03 ]
Betreff des Beitrags:	Re: @Radon Framework
Abgefahren . Ich sollte libRocket wirklich im Auge behalten . Ich hoffe du sendest denen dann einen Pull Request? grüße

Autor:	TAK2004 [ Mi Aug 28, 2013 18:47 ]
Betreff des Beitrags:	Re: @Radon Framework
Ja, ich habe vor das zurück in den Master fließen zu lassen. Ich will das auch in unserem MMORTS haben, welches wir Ende des Jahres, auf Arbeit, anfangen werden zu produzieren. Eine weitere praktische Erweiterung wäre noch ein Framebuffer Target, damit man post Effekte machen kann aber das brauch ich nicht privat, von daher mal gucken ob ich das auf Arbeit einbaue. Wenn man ein Element erst in ein Framebuffer rendert und diesen dann in die Szene rendert, dann kann man z.B. Motion-Blur, Gaussian-Blur und Bloom machen.

Autor:	OpenglerF [ Sa Apr 19, 2014 23:23 ]
Betreff des Beitrags:	Re: @Radon Framework
Mal eine Frage: Wieso hast du im aktuellen Codebeispiel "unused" drin und außerdem 3 Byte Verlust durch automatisches Alignment bei "m_MemoryManagment"? Ich dachte du wolltest effizienter mit Cache umgehen und da werden glatt 7 Byte direkt in den Papierkorb verschoben, pro String, 2 mal pro Cacheline und direkt darüber schreit "FixString<16>" nach mehr Platz für SSO. Das kann ich gerade nicht ganz verstehen. Ich weiß nicht wie du allokierst oder wie das "ALIGN"-Makro bei dir aussieht. Aber ich vermute es verwendet intern wohl "__declspec(align(...))" und es hat sich bei mir herausgestellt, dass das bei Allokationen auf den Heap scheinbar versagt, das heißt , es bringt dann genau gar nichts. In VS2013 sind übrigens Profiler und Codeanalyse (zum ersten mal?) auch in der "normalen" Professional-Version integriert. An der UI wüsste ich persönlich ehrlich gesagt keine entscheidenden Änderungen, außer billiger aussehende Symbole im Vergleich zu VS10.

Autor:	TAK2004 [ So Apr 20, 2014 01:02 ]
Betreff des Beitrags:	Re: @Radon Framework
Code: Mal eine Frage: Wieso hast du im aktuellen Codebeispiel "unused" drin und außerdem 3 Byte Verlust durch automatisches Alignment bei "m_MemoryManagment"? Ich dachte du wolltest effizienter mit Cache umgehen und da werden glatt 7 Byte direkt in den Papierkorb verschoben, pro String, 2 mal pro Cacheline und direkt darüber schreit "FixString<16>" nach mehr Platz für SSO. Das kann ich gerade nicht ganz verstehen. Ich schätze du denkst an folgende Variante, wo ich nicht unused und 1byte enum für den String verwende. Code: class ALIGN(32) String{ protected: union{ FixString<27> m_Fix; AutoPointerArray<Char> m_Dyn;//RAII Pattern: besteht aus T* m_Data und Size m_Size(16Byte bei 64bit und 8Byte bei 32Bit) } DataManagment::Type m_MemoryManagment; UInt32 Length; //UInt64 unused; }; Das unused sollte zeigen, dass ich noch 8Byte Platz für weitere Dinge in der Klasse hab, sollte ich diesen brauchen und ich auch noch nicht einschätzen kann, wie ich mit den 27byte umgehen würde. Entweder mach ich 2x 16Byte SIMD/1x 32Byte SIMD Operation und kümmer mich dann noch um die 5Bytes von MemoryManagment und Length oder hab halt nur 16Byte länge, mach 1x 16Byte SIMD operation und brauch mich um nix weiter kümmern und verbrenne halt für ein mir unbekannten % an Strings in einem Programm, weil die dann über m_Dyn laufen. Dafür muss ich mich erst mit Beispielcode hin setzen und messen. Optimierung kann man ja leider nur schwer vorraus planen, wenn man auf so niederen Hardware level arbeitet, da ist es besser vorher zu messen. Damit ich sinnvoll messen kann muss ich allerdings sicher sein, dass mein Code auf allen 3 Systemen funktioniert und dafür baue ich ja noch an mein BuildGrid. Zitat: Ich weiß nicht wie du allokierst oder wie das "ALIGN"-Makro bei dir aussieht. Aber ich vermute es verwendet intern wohl "__declspec(align(...))" und es hat sich bei mir herausgestellt, dass das bei Allokationen auf den Heap scheinbar versagt, das heißt , es bringt dann genau gar nichts. Da verweise ich auf folgendes. Zitat: Der standard allocator reicht dafür aus, man muss einfach nur Bytegröße+15Byte alloziieren und dann kann man den pointer um bis zu 15 Byte verschieben, um alignment hin zu bekommen. Alternative auch _aligned_malloc oder posix_memalign, damit man nicht jedes mal 15Byte verbrennt. Alignment regelt VC++ im Release bisher ziemlich zuverlässig, in meinen memory funktionen werden die Duff device übersprungen. Im Debug kann es schief gehen, weil dann die speicherfunktionen gehooked werden und dann die Debugger Memory verwaltung zu ignoranten Speicherreservierungen führt. http://blogs.msdn.com/b/reiley/archive/2011/08/28/side-effects-of-debugger.aspx _NO_DEBUG_HEAP=1 könnte das lösen. Zitat: In VS2013 sind übrigens Profiler und Codeanalyse (zum ersten mal?) auch in der "normalen" Professional-Version integriert. An der UI wüsste ich persönlich ehrlich gesagt keine entscheidenden Änderungen, außer billiger aussehende Symbole im Vergleich zu VS10. VS2010 hatte eine Profile guided optimization aber ein richtigen Profiler und Codeanalyse ist erst mit 2013 rein gekommen. Bisher konnte ich nur auf AMD CPU's mit Code Analyst gescheit profilen, bzw. mit gprof unter linux und OSX auf Intel und AMD. Einzig Intel auf Windows ist pain in the ass, weil Intel einfach mal 900$ für VTune haben will, was AMD OpenSource anbietet. Der VS2013 Profiler ist besser als CodeAnalyst für Intel CPU's von daher sehe ich das als + Punkt für die neue Version. In VS2013 wurden viele neuerungen aus Extensions übernommen. Tab well z.B. ist ziemlich gut implementiert wurden. Syntax formatierung, highlight, jit und intellisense arbeiten nun viel besser und das man nun alle Projekte in der Solution mit einmal neu laden kann ist praktisch(wenn man mit cmake arbeitet). Man kann nun auch Symbole und Datein in der Solution suchen, Funktions Documentation wird korrekter dargestellt, ne menger toller extension von MS zum erweitern, wie z.B. für Profiler und Build Overview. Da fehlt eigentlich nicht mehr viel, bis man kein Visual Assist X mehr bräuchte.

Autor:	OpenglerF [ So Apr 20, 2014 12:28 ]
Betreff des Beitrags:	Re: @Radon Framework
Also wird es bei dir nicht vorgesehen sein, die "String"-Klasse direkt zu verwenden? "ALIGN(32)" kannst du dir dann eigentlich auch sparen, bringt ja dann eh nix, bei "_aligned_malloc" oder einem eigenen Allokator. Meinst du nicht das es von Vorteil sein könnte, wenn kleine Strings direkt auf dem Stack erzeugt werden können, ohne eigenen Allokator, der in möglicherweise nicht verfügbare Pages verweist?

DGL https://delphigl.com/forum/

@Radon Framework https://delphigl.com/forum/viewtopic.php?f=14&t=9549	Seite 3 von 4

Autor:	TAK2004 [ So Apr 20, 2014 13:12 ]
Betreff des Beitrags:	Re: @Radon Framework
Da komme ich nicht hinter her. Code: RadonFramework::Core::Types::Bool Compare() { String str("aaa"); String str1("abc"); String str2("cb"); Int32 a,b,c; a=str.Compare(str); b=str.Compare(str1); c=str.Compare(str2); return a==0 && b==2 && c==-1; } Das funktioniert wunderbar, die sind aligned in meinen unit test. Code: String* a = new(String);// funktionierte im unit test auch bisher problemlos void* p; posix_memalign(&p, 32, 32); String* b = new(p)String();// der Standard legt schon fest das dies gehen muss, daher nicht getestet struct Bla{String myString;}; Bla test;// ist aligned muss es aber nicht struct ALIGN(8) Bla{String myString}; Bla test// kann in 75% der fälle nicht aligned sein Das eigentlich Problem ist, dass nur displacement new es garantieren kann, der rest ist dem Compiler überlassen. new kann man ja für String überladen und damit Heap Objekte immer garantieren, dass sie aligned sind(das machen wir z.B. im Framework auf arbeit so, da sind diplacement new und new für bestimmte Klassen überladen und nutzen aligned memory allocation). Stack allocation ist dem Compiler seine Sache und ich wüsste auch nicht, wie ich ihm ausser mit Globalen 32Byte alignment als Compiler Flag es garantieren könnte. Ich hoffe darauf, dass alle Compiler mit align Attribute schon das machen, was ich beabsichtige. Wenn er es nicht macht, kann ich immer noch von MemoryManagment::Copy mode in MemoryManagment::AllocateAndCopy mode springen und dann ist es ja wieder garantiert aber halt ein indirekter zugriff(weil er nicht mehr den lokalen buffer sondern den pointer verwendet). Wenn der Speicher nicht aligned ist, dann geht ja die Welt nicht unter, die aktuell schon besser optimierten Funktionen haben immer nen Duff Device, was solange arbeitet bis die nächste Aligned Memory Adresse erreicht ist und dann setzt der SIMD code ein. Das hab ich von der VC++ Funktion memcpy abgeguckt und im nachhinein hab ich das auch bei Agner gefunden. Als wir die Diskussion im Moderne Sprachen über Latenzen und co hatten, hab ich auch mal in die aktuellen Cycle Tabellen geguckt und da waren nun auch standard Typen wie 8Bit, 16Bit, 32Bit und 64Bit integer streamline fähig, also 2 oder 3 aufrufe aber nur den Preis einer Operation. Da hab ich dann auch bemerkt, das ne menge Operationen nun Latenzen eingetragen haben.

Autor:	OpenglerF [ So Apr 20, 2014 13:38 ]
Betreff des Beitrags:	Re: @Radon Framework
Also die "New/Delete"-Operatoren dafür zu überladen klingt nach einer sehr interessanten Idee. Das werde ich vielleicht auch mal so machen.

Autor:	i0n0s [ Mo Mai 19, 2014 21:32 ]
Betreff des Beitrags:	Re: @Radon Framework
Wieso nutzt du Sleep() und nicht std::this_thread::yield()? In der Implementation ist es vermutlich dasselbe, aber das eine ist STL, dass andere Compilerspezifisch.

Autor:	TAK2004 [ Di Mai 20, 2014 08:03 ]
Betreff des Beitrags:	Re: @Radon Framework
Danke für den Tipp, ich hab das System yield bisher gemieden, weil jeder es anders implementiert und ich hab mal das verhalten nach gelesen und es mit sleep verglichen. Yield hat nur garantiert, dass der Thread suspended aber mehr nicht. Der Standard hingegen ist da recht genau und sagt, dass es die System Sheduler Mechanik benutzt. yield unter linux macht genau das gleiche wie sleep(0) unter windows, von daher werde ich mal Yield noch einbauen und entsprechend mappen. Ich werde dann auch SleepEx verwenden, damit ich später für Completion Ports besser performen kann. Yield() ->Windows SleepEx(0, true) ->Linux std::this_thread::yield()

Autor:	Lord Horazont [ Di Mai 20, 2014 14:03 ]
Betreff des Beitrags:	Re: @Radon Framework
Gibts nen Grund, warum du den () Operator für das Indexing deines Arrays verwendest anstatt dem dafür vorgesehenen [] Operator? grüße

Autor:	TAK2004 [ Di Mai 20, 2014 17:44 ]
Betreff des Beitrags:	Re: @Radon Framework
Der Array kann mehrere Dimensionen haben z.B. bla(x,y,z)=value; edit: Allerdings überlege ich schon das ein zu dampfen, da ich es eigentlich nie verwende. Die Array Klasse ist größten Teils von .Net/Java übernommen.

Autor:	Lord Horazont [ Mi Mai 21, 2014 08:47 ]
Betreff des Beitrags:	Re: @Radon Framework
Mhm, das ergibt sinn. Eigentlich ne schicke Lösung, das sollte ich vielleicht in meinen Linalg Klassen mal so implementieren, bisher gebe ich da aus operator[] ein static_cast auf einen Vektor mit geringerer Dimension zurück, was dann über matrix[i][j] funktioniert (sogar recht effizient), außerdem habe ich eine component-Methode, die im prinzip das gleiche macht wie dein operator() (gibt der ne schreibbare referenz zurück?). grüße,

Autor:	TAK2004 [ Mi Mai 21, 2014 15:50 ]
Betreff des Beitrags:	Re: @Radon Framework
Da sind die operator überladungen. Ich hab das nie benutzt, deswegen überlege ich das entweder aus zu lagern oder einfach zu entfernen. edit: Das Synchronize gibt es in der Klasse schon lokal nicht mehr, weil das kein Sinn macht. .Net macht das so aber ich find das Blöd, ich mach nie was so granular thread safe. Die Klasse ist ein 1D Array welcher auf mehrere Dimensionen erweiterbar ist, weil beim erstellen schon die größe jeder Dimension fest steht, das ist ein Equivalent zu C mehrdimensionale Arrays. Für sowas Algorithmen zu schreiben ist total ätzend, weil will man Sort für eine Dimension machen oder über alle Daten oder nur über Teile von einer Dimension.

Autor:	Lord Horazont [ Mi Mai 21, 2014 16:18 ]
Betreff des Beitrags:	Re: @Radon Framework
Hm, die Operatoren müssten mit C++11 und variadic templates doch hübscher gehen … Wenn man das was du in deinem Edit schreibst noch weiter denkt, endet man irgendwann bei numpy, wo man views auf unterschiedliche Arrayteile bekommen kann. Dann erlaubt man Sort nur auf einer eindimensionalen View… Aber letztenendes ist das wohl die falsche Richtung für eine Spielengine. grüße

Seite 3 von 4	Alle Zeiten sind UTC + 1 Stunde
Powered by phpBB® Forum Software © phpBB Group https://www.phpbb.com/

Autor:	TAK2004 [ Mi Mai 21, 2014 17:28 ]
Betreff des Beitrags:	Re: @Radon Framework
Ich schreibe keine Spiele Engine sondern ein Framework für engines, was es eigentlich dein Argument noch mehr bekräftigt ^^ Allerdings hab ich ja zum Glück geschrieben, dass ich entweder es aus lager oder entferne. Aktuell versuche ich eigentlich kein Code raus zu werfen sondern alles auf einem Stand zu bringen, mit Unit Tests und Ressourcen Tests. Irgendwie schaffe ich es aber immer wieder mich zwischen durch mal ablenken zu lassen. So wollte ich z.B. endlich mal mein DXT Kompressor fertig machen und dabei hab ich dann ForEach gebaut und weil das so lahm war hab ich dann halt mal den ThreadPool teilweise auf den geplanten Stand gebracht(aktuell fehlen noch Completion Ports für IO). Da ich das ja alleine als Hobby betreibe dauert das halt alles länger und solche Ablenkungen kommen häufiger vor ^^