DGL • Thema anzeigen

[Tool] BTCC

Moderator: DGL-Team

Seite 1 von 1

[ 11 Beiträge ]

Druckansicht

Vorheriges Thema | Nächstes Thema

Autor

Nachricht

yunharla

Betreff des Beitrags: [Tool] BTCC

Verfasst: Fr Jun 19, 2015 11:10

DGL Member

Registriert: Mo Nov 08, 2010 18:41
Beiträge: 769
Programmiersprache: Gestern

Projekt: BTCC

Hallo allerseits,

es wird einmal wieder Zeit fuer einen Projekt-Thread. Dieses mal moechte ich euch
ein kleines Tool von mir vorstellen an dem ich gerade arbeite. Das Ganze ist eine
Art Compiler fuer eine neue Programmiersprache welche ich parallel dazu entwickle.

Das Tool selbst kann keine ausfuehrbaren Dateien erstellen. Stattdessen generiert
es Objekte die dann vom Compiler in die jeweilige Zielsprache uebersetzt werden. Es
verhaelt sich also im Prinzip wie aeltere C++ Compiler die den Code nach C
uebersetzten und dann den C-Compiler aufrufen. Nur das man halt mit ein paar Anpassungen
auch Java, CIL oder aber einen Interpreter unterstuetzen kann.

Das Ganze ist eine F# Bibliothek und kann daher problemlos ueber Mono auf anderen
verwendet werden. Da aber der Code sehr einfach ist sollte es keine Problem sein hier
auch direkt in eine andere Sprache zu Portieren.

Der Tokenizer

Das Tool benutzt eine einzige Funktion “tokenize” um eine Sequenz von Char in eine
Sequenz von Strings umzuwandeln. Man bekommt in diesen Schritt also keine Objekte, wie
etwa bei Yacc, sondern halt nur den zerlegten String. Hierbei kommt ausschliesslich das
Patternmatching von F# zum Einsatz. Fuer diejenigen die sich darunter nichts vorstellen
koennen. Patternmatching in F# ist eine bessere Form vom “Switch”-Statement. Hier
kann man seinen “Case” fuer Sequenzen, Typen, Member usw. machen. Beim Tokenizer
sieht das in etwa wie folgt aus:

Code:

 
    let rec  tokid acc = function
            | c :: t when Char.IsLetter(c) -> tokid(acc + (c.ToString())) t
            | '_' :: t -> tokid(acc + "_") t
            | c :: t when Char.IsDigit(c) -> tokid(acc + (c.ToString())) t
            | t -> acc, t
    let rec tokenize (acc : string list) = function 
            | c :: t when Char.IsWhiteSpace(c) -> tokenize acc t  //ignore whitespace
            | c :: t when Char.IsLetter(c) ->  //starts with a letter so it’s keyword or name
                let s,t' = tokid "" t  //read the full string
                match (c.ToString() + s) with 
                    | "sizeof" -> tokenize ("sizeof" :: acc) t' //is sizeof keyword
                    | t -> tokenize (t :: "$id" :: acc) t' //is
            | '.' :: '.' :: '.' :: t -> tokenize ("..." :: acc) t 
            | '<' :: '<' :: '=' :: t -> tokenize ("<<=" :: acc) t
            | '>' :: '>' :: '=' :: t -> tokenize (">>=" :: acc) t
            | [] -> List.rev acc
            | t -> failwith ("Invalid token near " + (seqstr t)  )
 

Die gesamte Funktion ist in etwa 150 Zeilen um alle Tokens in der Sprache zu erkennen.

Der Lexer

Der Lexer ist eine Funktion welche eine Sequenz von Strings nimmt und uns eine Sequenz
von AST (Abstract Syntax Tree) Deklarationen liefert. Allerdings werden die Sachen da schon
etwas komplexer. Schaut euch einfach mal am besten den Baum an der Dort abgearbeitet wird
und ihr bekommt eine gute Vorstellung davon was wir hier fuer eine Monsterfunktion haben

Code:

 
 
type Identifier = string
type Constant = string
type StringLiteral = string
type PrimaryExpression = 
    | Constant          of Constant
    | StringLiteral     of StringLiteral
    | Identifier        of Name
    | Expression        of Expression
and Name = Identifier
and PostfixExpression = 
    | None
    | ArrayExpression   of PrimaryExpression * Expression list
    | CallExpression    of PrimaryExpression * Expression list
    | MemberExpression  of PrimaryExpression * Name list
    | PostIncrement     of PrimaryExpression
    | PostDecrement     of PrimaryExpression
and UnaryExpression = 
    | None
    | Increment         of PrimaryExpression
    | Decrement         of PrimaryExpression
    | Dereference       of PrimaryExpression
    | ReferTo           of PrimaryExpression
    | SizeOf            of PrimaryExpression
    | SizeOfB           of TypeName
    | TypeOf            of PrimaryExpression
    | TypeOfB           of TypeName
    | Minus             of PrimaryExpression
    | Not               of PrimaryExpression
    | Invert            of PrimaryExpression
and BinaryExpression =
    | None
    | Multiply          of Expression * Expression
    | Divide            of Expression * Expression
    | Modulo            of Expression * Expression
    | Add               of Expression * Expression
    | Sub               of Expression * Expression
    | Left              of Expression * Expression
    | Right             of Expression * Expression
    | Less              of Expression * Expression
    | Greater           of Expression * Expression
    | LEqual            of Expression * Expression
    | GEqual            of Expression * Expression
    | Equal             of Expression * Expression
    | NEqual            of Expression * Expression
    | And               of Expression * Expression
    | Xor               of Expression * Expression
    | Or                of Expression * Expression
    | LogicalAnd        of Expression * Expression
    | LogicalOr         of Expression * Expression
    | Cast              of Expression * TypeName
and Expression = 
    | Noop
    | PrimaryExpression of PrimaryExpression
    | UnaryExpression   of UnaryExpression
    | PostfixExpression of PostfixExpression
    | BinaryExpression  of BinaryExpression
and PrimaryType = 
    | Void
    | Char
    | UChar
    | Short
    | UShort
    | Int
    | UInt
    | Long
    | ULong
    | LongLong
    | ULongLong
    | Float
    | Double
    | LongDouble
    | Bool
    | Struct            of Parameter list
    | Union             of Parameter list
    | Name              of Name
    | Typename          of TypeName
and UnaryType =
    | None
    | Const             of TypeName 
    | Volatile          of TypeName
    | Reference         of TypeName
    | Array             of Expression list * TypeName
    | Functor           of Parameter list * TypeName
and Parameter =
    | NamedParameter    of Name * TypeName
    | UnnamedParameter  of TypeName
    | Ellipsis
and TypeName =
    | PrimaryType       of PrimaryType
    | UnaryType         of UnaryType
and DeclarationSpecifier = 
    | Type                  
    | Static            
    | Shared            
    | None              
and Declaration = 
    | Import            of DeclarationSpecifier * Name * TypeName * Initializer
    | Using             of Name
    | Declaration       of DeclarationSpecifier * Name * TypeName * Initializer
    | Inferred          of DeclarationSpecifier * Name * Initializer
    | None
and Initializer =
    | None
    | Assignment        of Expression
    | Complex           of Compound list
and Statement =
    | Noop
    | Compound          of Compound list
    | Jump              of Jump
    | Selection         of Selection
    | Iteration         of Iteration
    | Assignment        of Assignment 
and Assignment =
    | Unary             of Expression
    | Normal            of Expression * AssignmentOp * Expression     
and AssignmentOp =
    | None
    | Normal         
    | MulAssign
    | DivAssign
    | ModAssign
    | AddAssign
    | SubAssign
    | LeftAssign
    | RightAssign
    | AndAssign
    | OrAssign
    | XorAssign
and Compound =          
    | Statement         of Statement
    | Declaration       of Declaration
and Jump = 
    | Continue          
    | Break
    | Return            
    | ReturnExpression  of Expression
and Selection =
    | If                of Expression * Statement
    | IfElse            of Expression * Statement * Statement
    | Switch            of Expression * Cases list
and Cases =
    | Case              of Expression * Statement
    | Default           of Statement
    | BreakCase         of Expression * Statement
    | BreakDefault      of Statement
and Iteration =
    | While             of Expression * Statement
    | DoWhile           of Expression * Statement
    | For               of ForParams * ForParams * ForParams * Statement
and ForParams =
    | Declaration       of Declaration
    | Assignment        of Assignment
    | None
    | Expression        of Expression
 

Semantische Analyse
Die Semantische Analyse ist jetzt noch der einzige offene Punkt. Hier wird dann die Bedeutung des
Codes ermittelt und wir erhalten die eigentlichen Objekte die dann nachher vom Programm in den Zielcode
umgewandelt werden. Ein Beispiel:
Eine Variante fuer Deklarationen ist “Inferred”. Hier ist kein Typ angegeben, also muss dieser aus dem
Initializer hergeleitet werden.

Diesen beiden Teile (Code Generation und Semantik) moechte ich dann hier genauer Beleuchten da diese
einfach interessanter sind

Testprogramm
Und hier einmal mein kleines Testbeispiel:

Code:

 
 import printf: (str: ptr const char,...) -> void; //import von C Funktionen
 using Test.Textb; //Laden von weiteren Quellcode Dateien, funktioniert aehnlich wie bei D
 
testb : const int { //komplexe Initializer
    printf("hallo world");
    return 12;
}
 
test : (int x,int y) -> void { //eine einfache Funktion
    printf("\"x\" is %i \"y\" is %i",x,y );
}
 
type myStruct : struct {
   x: int;
   y: int;
} { //dies koennte ein konstruktor sein ... sieht aber haesslich aus oder?
 //den Typ an sich finde ich aber schon cool :)
} 
 
//die gute alte "main" aus C
static main : (argc : int, argv : ptr ptr char) -> int {
    static makefive : (i: int) -> int = i + argc + 5; //eine Lambda 
    for(x := makefive(12); x < 10; x++) { //For Schleifen (waren ein echter Alptraum) ausserdem ist X eine Inferred-Deklaration
    }
    do { //do while Schleifen 
        test : ptr const char = "hallo world";
        testb := test;
        if(testb) {
            switch(test) {
                case retain(testb): //Ein fall-through case
                    printf("retain works");
                case testb:
                    printf("%s equals %s",test,testb);
                    return 1;
                default:
                    printf("%s does not equal %s",test,testb);
                    break;
            }
            break;
        } else {
            continue;
        }
    } while(false);
    return 0;
}          
 

_________________
Meine Homepage

Nach oben

yunharla

Betreff des Beitrags: Re: [Tool] BTCC

Verfasst: Mo Jun 29, 2015 09:19

DGL Member

Registriert: Mo Nov 08, 2010 18:41
Beiträge: 769
Programmiersprache: Gestern

Ok Zeit fuer ein kurzes Update.

Wie bereits im Meinungsthread erwaehnt benoetige ich fuer den naechsten Meilenstein noch die Analyse der Initializer. Am Wochenende bin ich
in diesem Punkt einen grossen Schritt weitergekommen. Und zwar habe ich mir eine Funktion gebastelt welche mir aus einer Expression eine
Liste fuer die intermediate representation und den aktuellen Typen liefert. Man kann jetzt also schon einmal den Typen aller Deklarationen
ermitteln. Am besten sieht man das aber an einen konkreten Beispiel:

Code:

 
x := (fun(12))[3]; //wir wissen das x ein integer ist
 
fun : (x : int) -> [4] int { //denn fun wird aufgerufen und wir greifen auf ein Element des Array zu
    .... //ich weiss allerdings noch nicht ob der Body auch ein Integer-Array liefert
}

_________________
Meine Homepage

Nach oben

yunharla

Betreff des Beitrags: Re: [Tool] BTCC

Verfasst: Mo Jun 29, 2015 20:45

DGL Member

Registriert: Mo Nov 08, 2010 18:41
Beiträge: 769
Programmiersprache: Gestern

Zeit für etwas Syntax Sugar!!

Code:

 
fun : (x : int) -> {
    return x,x+1,x+2,[1,2,3]
}
 

Diese kleine Funktion ist ein wahres Magic-Monster, denn sie zeigt einige Neuerungen im Syntax. Denn
das Tool kann jetzt erkennen das es sich hierbei um eine Funktion handelt welche eine Struct zurückgibt!
Das Komma ist jetzt nämlich ein binärer Operator der zwei Expressions in einen Struct umwandelt. Über
eine einfache Funktion kann man dieses gute Stück dann zu einer Liste von Expressions expandieren. Das
wird dann zum Beispiel zum Aufrufen von Funktionen und für den Array-Constructor genommen.

Das Ganze funktioniert super gut da ich jetzt den Shunting-Yard Algorithmus im Parser eingebaut habe. Für
diejenigen die das gute Stück noch nicht kennen: Shunting-Yard erlaubt es sehr schnell Operator-Reihenfolge
zu erkennen. Man bekommt jetzt also auch gleich die richtige Reihenfolge geliefert.

Des Weiteren habe ich noch zwei kleine Neuerungen eingebaut. Zum einen gibt es jetzt Zeilennummern für
Fehlermeldungen und zum anderen gibt es jetzt die Wildcard-Expression "_".

Erinnert ihr euch jetzt noch an die Case-Statements und das Komma? Hier eine kleine Hilfe:

Code:

 
switch(test) {
  case _,12: 
      printf("second struct member is 12!");
      return;
   case 12:
      printf("it's just 12!");
      return;
}
 

_________________
Meine Homepage

Nach oben

yunharla

Betreff des Beitrags: Re: [Tool] BTCC

Verfasst: Do Jul 02, 2015 13:48

DGL Member

Registriert: Mo Nov 08, 2010 18:41
Beiträge: 769
Programmiersprache: Gestern

So lieber Leute ich habe jetzt auch den Typenparser aufgeraeumt. Dort gibt es nun Unterstützung fuer ein einfacheres Typename System, welches dann
besser in Switches usw. genutzt werden kann. Schaut euch einfach mal folgendes Beispiel an:

Code:

 
type fun : struct {sfun1: int->int,member1: int,int->int,sfun2: (arg1:int,arg2:int->int)->int} -> union{ int->int,int->void } -> int;
//oder
type funp : struct {int->int,int,int->int,(int,int->int)->int} -> union{ int->int,int->void };
type funpp : funp -> int;
 

Die Regeln sind eigentlich ganz einfach. :
Ein Typename ist eine Liste von Typennamen die nur einen Eintrag enthält.
Struct bzw. Union ist ein Typename der eine Liste von Typenamen speichern kann
Funktionen nehmen einen Typenamen oder, falls Klammern verwendet wurden, eine Typenamen-Liste als Parameter.
Funktionen haben max. einen Rueckgabewert.
Bei mehreren Typenamen können Elemente einen Namen erhalten
Der Typename fuer Funktionen ist rechtsassoziativ.

Das bedeutet zum Beispiel:

Code:

 
int,int -> int  //Fehler (Type und Funktion)
(int,int) -> int //Funktion
(a:int,b:int) -> int //Funktion(a,b)
struct { a: int->int} //struct{a = Funktion}
a: b: int -> int //Fehler
int -> int,int //Fehler (Funktion und Type)
 
 

[edit]

Achja bei Union gibt es uebrigens einen Sonderfall:

Code:

 
union {
   A,B,C
}
 

sind nur Namen und damit im Prinzip das gleiche wie ein Enum...

_________________
Meine Homepage

Nach oben

yunharla

Betreff des Beitrags: Re: [Tool] BTCC

Verfasst: Mi Jul 08, 2015 08:34

DGL Member

Registriert: Mo Nov 08, 2010 18:41
Beiträge: 769
Programmiersprache: Gestern

kurzes Update,

ich habe jetzt eine ganze Reihe von "Fehler" behoben und die Module-Klasse fast fertig. Bei den Fehlern ging es hauptsaechlich um solche Probleme die durch meine kurzen
Typenamen entstanden sind. Grob gesagt gibt es jetzt zwei verschiedene Arten Structs und Unions zu definieren. Die erste Variante sollte eigentlich jeder aus C, Java und co.
kennen. Halt normal mit geschweiften Klammern und Name + Type + Semikolon. Die zweite Variante ist die kurze Schreibweise mit normalen Klammern:

Code:

 
struct { //normal
  a : int;
  b : float;
};
struct (int,float); //kurz
struct (a:int;float);
 

Wobei Unions sich hier etwas anders verhalten, denn hier wird der Name und nicht der Typ bevorzugt:

Code:

 
union(a,b); //a und b sind Namen fuer member ... also ein enum
struct(a,b); //a und b sind Typenamen
union {
   a : int;
   b;
   c;
};
 

Daraus ergibt sich auch eine Aenderung bei Typlisten und Funktion. Funktionen benoetigen jetzt immer die Typeliste in Klammern und wenn eine Typenliste nur einen Member enthaelt kann Sie implizit zu einen normalen Typenamen.

Code:

 
int->int; //falsch
(int)->int; //richtig
a : (int); //a ist int
 

So gesehen gibt es jetzt also 3 verschiedene Listenversionen fuer Member und Parameter.

Bei den Modulen, also den eigentlichen Output gibt es auch grosse Fortschritte. Hier gibt es nun die Klassenfamilie Scope (Scope, Exectuable, Module, Loop, Conditional, etc.) welche unter anderen die Dictionaries fuer Variablen, Parameter, Funktionen und Typen liefern. Zum auslesen und verarbeiten gibt es hier die beiden Methoden "ReadNext" und
"BuildNext" welche sich im Prinzip wie das "MoveNext" von IEnumerable verhalten. Sprich man kann Parser und Build wie wild untereinander mixen. Der Idee hierfür kam mir als
ich die Using-Direktiven eingebaut habe. Man will ja schliesslich nicht fuer jede einzelne Datei das Ganze Projekt durchgehen, sondern nur das was man auch wirklich braucht.

"Funktionskoerper" (es ist also ein Ende in sicht

).

Der Aufruf in C# sieht dann in etwa wie folgt aus:

Code:

 
//Module nimmt Name und Quellcode als Parameter 
Scope.Module m = new Scope.Module("main",@"
 
import printf(** const char,...) -> void;
 
main : (argc: int, argv: ** char) -> {
   printf("" hallo world \n"");
   return EXIT_SUCCESS;
}");
while(m.ReadNext()) { //Deklarationen parsen
   
}
if(m.Usings.IsChanged) { //wir koennten jetzt Parallel weitere Datein laden...
} 
 
while(m.BuildNext()) { //Deklarationen bauen
}
 
m.GetLastError(); //letzten Fehler
 
foreach(var t in m.Types) {
   if (t.IsFunctor) {
       foreach(var p in t.Parameters) { //gilt fuer Functor und Funktion
       }
       var r = t.Returns;
   } else if (t.IsStructOrUnion) {
       foreach(var m in t.Member) {
       }
   } 
} 
 
foreach(var if in m.ImportFunctions) {
 
}
 
foreach(var iv in m.ImportVariables) {
}
 
//hier fehlt das ASM fuer Initializer
foreach(var sv in m.StaticVariables) {
}
 
foreach(var v in m.Variables) { 
}
 
//hier fehlt das ASM fuer den Body
foreach(var sf in m.StaticFunctions) {
}
 
foreach(var f in m.Functions) {
}
 

_________________
Meine Homepage

Nach oben

yunharla

Betreff des Beitrags: Re: [Tool] BTCC

Verfasst: Fr Aug 14, 2015 17:01

DGL Member

Registriert: Mo Nov 08, 2010 18:41
Beiträge: 769
Programmiersprache: Gestern

Hallo liebe Leute,

es hat nach dem Urlaub etwas länger gedauert wieder einen Start zu finden. Aber jetzt bin ich wieder voll drinne und ich habe auch gleich ein paar
tolle neue Features mitgebracht. Als erstes habe ich das System für Typenamen umgebaut so das es jetzt im Großen und Ganzen dem von Java gleicht:

Code:

 
TypeSpecifier = 
   | Scalar of BaseType //int,void,name usw.
   | Array of TypeSpecifier //int[]
   | Func of TypeSpecifier * Typespecifier list //int[](int,int)[][] :-)
 

Außerdem habe ich jetzt auch angefangen Klassen zu definieren. Dabei handelt es sich um eine Mischung aus Caml, Java und Smalltalk:

Code:

 
 
struct foo_t : foobar_t {
    {Member und Klassenvariablen}
    {Member und Klassenmethoden}
}
struct bar_t : foobar_t {
     int x;
     int[] ys;
}
 
interface foobar_t { //Reihenfolge spielt keine Rolle :)
    static self alloc();  //siehe "self" weiter unten.
    self init();
}
 
union uberfoobar_t { 
    foo_t foo; 
    bar_t bar;
    nothing = 0; 
    {Member und Klassenmethoden}
    void print() { 
       switch(self) { //unions erlauben einen switch über typen
          case foo_t: 
          case bar_t:
                 printf("something");
                 break;
          default:
                  printf("nothing");
                  break;
       }
    }
}
 

Self ist hierbei übrigens eine Art besseres "this" das zusätzlich in statischen Methoden die Klasse und in Declaration
den aktuellen Namen der Klasse liefert. Es ist also Vererbung wie bei Objective-C nur halt stark typisiert weil man
kein "id" oder "object" Typen braucht. Kontruktoren sind daher also komplett überflüssig, da Factories in diesen Fall
einfacher und mächtiger sind.

Unions entsprechen zum Großteil der Caml Union und sind eher eine Art Enum auf Steroide. Neu ist allerdings das
Sie auch noch die Eigenschaften eines Interface besitzen, also Methoden definieren. Keine Ahnung ob das
sinnvoll ist, aber ich fand es eine coole Idee um die starre Klassenhierarchie zu umgehen

Natürlich gibt es auch weiterhin komplett externe Methoden und Variablen. Man muss also nicht alles wie bei
Java in Klassen packen. Und man kann die Implementierung einer Klasse auf mehrere Source Files auslagern.

Das Ganze hat natürlich den Nachteil das ich dadurch erst einmal Typenableitung auf Eis gelegt habe. Aber ich
sowieso festgestellt das es eine dumme Idee war damit zu beginnen. Stellt euch einfach mal folgendes Beispiel
vor:

Code:

 
static val:=foo();
 
foo: () -> bar();
bar: () -> switch(val) ....  //val benötigt val um aufgelöst zu werden

So etwas macht dann natürlichen keinen Spaß :-)

Kurz: die Sprache ist jetzt stark und statisch Typisiert.

Möglich wird das alles durch eine einzige kleine Klasse im Compiler welche die Architektur grundlegend ändert:

Code:

 
Deferred<'a> = {
     Value : 'a
     Tokens : Token list
}
 

Auf diese Weise kann zum Beispiel ein Block von geschweiften Klammern zu einen späteren Zeitpunkt Compeliert werden und man spart sich die
Probleme durch forward Declaration. Außerdem werden dann auch größere Projekte noch schnell Verarbeitet da alles dann sozusagen Compile-By-Need ist

_________________
Meine Homepage

Nach oben

yunharla

Betreff des Beitrags: Re: [Tool] BTCC

Verfasst: Mo Aug 24, 2015 17:44

DGL Member

Registriert: Mo Nov 08, 2010 18:41
Beiträge: 769
Programmiersprache: Gestern

So liebe Leute, das erste Projekt ist hierfür letzte Woche angelaufen. Das Ganze ist eine Webanwendung welche die Bibliothek als eine Art Template-Engine
zur Generierung von Server und Clientseitigen Code benutzt. Mal schauen wie gut das läuft

_________________
Meine Homepage

Nach oben

yunharla

Betreff des Beitrags: Re: [Tool] BTCC

Verfasst: Mo Nov 30, 2015 18:42

DGL Member

Registriert: Mo Nov 08, 2010 18:41
Beiträge: 769
Programmiersprache: Gestern

Hallo liebe Leute,

die oben genannte Webanwendung ist nun fertig und es wird Zeit einmal darüber zu diskutieren
wie gut sich der BTCC geschlagen hat. Die gute Nachricht ist das er funktioniert und man tatsächlich
brauchbare Sachen damit bauen kann die auch Geld bringen (jedenfalls mir

). Die schlechte ist
allerdings das der Code zur Zeit etwas chaotisch ist. Daher ist es natürlich auch sehr aufwendig
Fehler in der erzeugten Sprache zu korrigieren.

Passend zur Adventszeit muss man aber nur 4 Dinge tun um das zu beheben. Diese will ich euch
nun einmal in Art kleinen Tutorial näher bringen. Weihnachten seid ihr dann hoffentlich in der Lage
eure eigenen Compiler zu bauen :mrgreen:

Also hier nun, mit etwas Verspätung, der erste Teil:

Um etwas Ordnung in chaotischen Code zu bekommen bieten einige funktionale Sprache die
Möglichkeit ein Verhalten von mehreren Funktionen in *Trommelwirbel* eine andere Funktion
auszulagern. Diese abstrakten Helfer-Funktionen können dann allerhand lustiger Dinge
vollbringen wenn man Funktionen der gleichen Kategorie kombiniert.

Bei einigen von euch klingeln da natürlich gleich wieder die Alarmglocken, denn Kategorie ist ja
mal wieder so ein böses Wort in unseren Bereich. Zumindest dann wenn man an der Uni zu viel
Haskell gelernt hat und nicht weiß das andere Sprachen sich die Sache etwas einfacher machen

Nehmen wir einfach mal folgendes Problem: Ihr habt einen Webservice der euch ein JSON Array mit
den Urls von Bilder liefert. Ihr sollt nun einfach die alle Urls der Bilder ausgeben. In einer
perfekten Welt würde man nun einfach den Webservice aufrufen, den String parsen und für jeden
Eintrag einfach den Wert in die Konsole schreiben.

Da die Welt aber nicht perfekt ist, wisst ihr natürlich das man erst prüfen muss ob der Webservice
eine Antwort gegeben hat, ob die Anwort überhaupt JSON ist und ob das JSON überhaupt die Urls
enthält. Das sind dann wieder eine ganze Reihe von If und Else, oder aber eine Exception die ihr
vermutlich erst abfangt wenn es zu spät ist. Was also tun? Nun ganz einfach, man baut einen Typen
der dieses Fehlverhalten kapselt und eine Factory für diesen Typen:

Code:

 
type Maybe<'a> =
    | Something of 'a //alle in Ordnung
    | Nothing //ein Fehler ist passiert     
type MaybeBuilder() =
    member self.Return(x) = Something(x) //diese Funktion wird aufgerufen wenn wir ein Ergebniss haben
    member self.Zero() = Nothing
    member self.Bind(m,f) =  //diese Funktion kombiniert m mit der Funktion f
        match m with //F# kann jetzt implizit herleiten das m vom Typ Maybe ist
        | Something(x) -> f x 
        | Nothing -> Nothing //F# kann jetzt implizit herleiten das f einen Maybe zurückliefern muss
        //also: m ist Maybe<a> und f nimmt ein (a) und liefert Maybe<b>
 

Soweit so gut, nur was bringt das jetzt? Ganz einfach wie F# verfügt über eine besondere Art von
Syntax-Sugar. Und zwar kann man Typen die ein bestimmtes Interface benutzen in sog. Compute-Expression
benutzen (daher auch die seltsamen Namen). :

Code:

 
let random = System.Random()
let maybe50() = MaybeBuilder() {
    if(random.Next(100) = 50) then return "hallo " //.Return
    //Zero()
}
let withMaybe50() = maybe {
    let! x = maybe50
    return x + "world" //.Bind auf x -> .Return()
}
 

Natürlich gibt es nicht nur diese 3 Funktionen im Interface. Man kann auf diese Weise so ziemlich jeden
Sprachelement ein neues Verhalten erteilen.

Für einen Compiler kann man genau das gleichen machen. Das ist dann zwar etwas komplexer aber der Sprung
ist nicht so gigantisch wie man nun glauben könnte. Fragt euch einfach mal warum ich von 4 offenen Punkten
geredet habe

Mein Compiler ist im Prinzip eine Funktion die einen Text nimmt und einen umgewandelten Text ausgibt. Dazu
zerlege ich erst den Text in kleine Stücke die zusammengehören. Aus diesen Stücken baue ich dann ein Objekt
welches meinen Quellcode darstellt. Diese Objekt prüfe ich dann auf Fehler und wenn alles korrekt ist gebe
ich den fertigen C-Code zurück. Macht also 4 verschiedene Arten von Funktion die man zu einer 5. Funktion,
den Compiler selbst, zusammenschustert.

Beginnen wir also damit den Text in kleinere Stücke zu zerlegen. Hier sollen die ganzen Operatoren, Keywords
und Literals ausgelesen werden. Viele nehmen hierfür einfach Reguläre Ausdrücke und gut ist. Das bringt aber
auch eine ganze Reihe von Mehraufwand mit sich:
- Eine Regex generiert euch keine Information die Ihr für die Fehlerausgabe braucht. Ihr müsst also wieder
zusätzliche Arbeit investieren um zum Beispiel die Zeilennummer rauszubekommen.
- Bestimmte Tokens sind sehr schwer mit Regex zu bauen. Versucht einfach mal einen String-Literal mit einer
Regex zu parsen. Wenn ihr nicht gerade eine Monster-Regex bauen wollt, dann müsst ihr hier wieder drübergehen
um zum Beispiel die ganzen Escape-Sequenzen zu checken.
- Regex lassen sich sehr schwer kombinieren und man muss daher vieles doppelt machen.
- Ihr könntet auch gleich Yacc und Co benutzen wenn ihr vorgefertigte Tools benutzen wollt

Also bau ich mir hier meine eigenen Builder der Funktionen zum Textzerlegen generiert. Dazu gehe
ich immer erst von einer einfachen Funktion aus und arbeite mich dann hoch zu einer etwas komplexe

Code:

 
Text -> Token list //meine Funktion nimmt Text und liefert Tokens.
Text -> Token list * Text //Für Fehler brauche ich noch den Text der keine Tokens enthält.
Text -> Token * Text //Mein Builder kann ganz leicht komplexere Geschichten bauen also fliegt die Liste raus.
Text -> Token option * Text //Damit mein Builder Schleifen bauen kann, muss ich gleich hier schon Fehler erkennen.
int * Text -> Token option * int * Text //Mein Token nicht nur den Textwert enthalten sondern auch die Zeilennummer.
string * int * Text -> Token option * string * int * Text //Außerdem wäre ein Name nicht schlecht.
 

Nun habe ich also den Kopf für eine sehr flexible Funktion. Ich kann damit natürlich nicht nur Listen bauen
sondern das Ganze auch in von den anderen Funktionen aus Aufrufen. Stichwort Call-By-Need. Jetzt sieht das
natürlich noch etwas dreckig aus. Also baue ich mir erst einmal ein paar Helfer-Typen, die ich dann auch
noch einmal später erweitern kann:

Code:

 
type TextStream = { 
    Line : int //Zeilen
    Chars : char list  //Listen machen sich besser in F# als string für "dynamische" Daten
} with
    member self.IsEmpty = self.Chars.IsEmpty //ich bin etwas faul :-)
    static member FromString s = {Line = 1; Chars = [for c in s -> c]}
//mein Token ist natürlich
type Token = {
    Name : string //dieser Wert kommt ja bereits aus der Funktion und ist "statisch"
    Line : int
    Value : char list 
} with 
    //und ein kleiner Helper um temporäre Tokens zu erstellen
    static member JustValue s = {Name = ""; Line = 0; Value = s}
 
type TokenizerFunc = (TextStream -> Token option * TextStream)
type Tokenizer = { //den Namen hole ich mir aus einen Extra Typen
    Name : Token -> string //ihr werdet mir später noch Dankbar sein ;)
    Eval : TokenizerFunc
}
 

Soweit so gut. Jetzt brauchen wir natürlich noch einen Builder der uns das Ganze hübsch
verpacken lässt. Neben unseren Standard "bind","return" und "zero" Funktionen gibt es ja
wie gesagt noch viel mehr Möglichkeiten. Also schauen wir uns erst einmal an wie wir das
Ganze denn nun verwenden wollen:
Für die Keywords möchte ich ganz gerne einfach nur den Text eintragen und gut ist. Also
wäre es nicht schlecht wenn der Builder mit IEnumerable<char> arbeiten könnte. Dieses
Interface wird gleich von einer ganzen Reihe Standard-Geschichten (auch string) unterstützt
und sollte uns daher eine Flexibilität geben.

Bei komplexeren Geschichten wie etwa einen Namen oder Literals reicht das aber natürlich
nicht aus. Da nehme ich einfach eine Funktion die mir für einen Char einen Boolean gibt.
Dadurch kann ich dann ganz leicht solche Sachen wie das TakeWhile von Linq bauen und diese
Sachen wie wild kombinieren. Außerdem gibt es ja schon im .NET diese tollen Funktion wie
Char.IsDigit :-)

Außerdem möchte ich gerne in unseren Expressions die Token-Werte als String haben. Dann wird
die Arbeit noch ein wenig leichter. Alles in allen soll es dann in etwa wie folgt ausschauen:

Code:

 
let keyword str = token(str) { return! str }
let tNull = keyword "null" 
 
let tUnicodeChar = 
    let hd = ['A'..'F'] @ ['a'..'f'] @ ['0'..'9'] |> Set.ofList
    token("unichar") {
        let! _ = "\\u"
        let! d1 = hd.Contains
        let! d2 = hd.Contains
        let! d3 = hd.Contains
        let! d4 = hd.Contains
        let r = 
            Byte.Parse(d1+d2+d3+d4, Globalization.NumberStyles.HexNumber)
            |> char
        return [r]
    }
let tNullOrUniChar = tNull <|> tUnicodeChar
 

Ziemlich cool oder? Dann auf ans Werk:

Code:

 
//wir wollen ja dem Tokenizer Objekt einen Namen geben. Damit wir
//da so wenig Arbeit wie möglich haben bietet sich ein Parameter im
//Builder an. 
type TokenBuilder(name) = 
    //ReturnFrom ist die implementierung für das "return!" und gibt
    //überlicherweise an das man den Wert als Builder-Ergebniss haben 
    //will. Da mein Builder immer wieder neue ToknizerFunc erzeugt kann
    //kann ich das auch gleich für diese Funktionen implementieren und
    //in meinen Builder immer wieder verwenden.
    member self.ReturnFrom(x : TokenizerFunc) = { 
        //wir ignorieren den Wert des Token und geben immer
        //den aktuellen Namen des Builder.
        Name = fun _ -> name; 
        //Eval ist natürlich unsere TokenizerFunc 
        Eval = fun cs -> 
            match x cs with
            | Some(r),rs -> Some({r with Name = name}),rs //nur ändern wir den Namen vom Token
            | _ -> None,cs
    }
    //Am Zweihäufigsten braucht man natürlich den Standard-Bind. Dieser
    //sorgt genau wie beim Maybe dafür das wir unseren Tokenizer in 
    //Expressions verwenden können.
    member self.Bind(m: Tokenizer, f) = self.ReturnFrom(fun cs -> //den Namen übergeben
        match m.Eval cs with //wir führen den aktuellen Tokenizer aus
        | Some(r),rs ->  //Genau wie bei Maybe prüfen ob ein Ergebniss vorliegt
            //danach wandeln wir das Ergebniss in einen String um damit wir in
            //in unseren Expressions halt den String verwenden können
            let s = new string[|for c in r.Value -> c|] 
            let t2 = f(s) //den nächsten Teil der Expression ausführen
            //welcher uns auch einen Tokenizer liefert :-)
            match t2.Eval rs with //Den errechneten Tokenizer ausführen
            | Some(r2),r2s -> //Nur wenn alles gut gegangen ist liefern wir einen Token
                Some(Token.JustValue(r2.Value)),r2s //Temporären Token zurückliefern
            | _ -> None,cs
        | _ -> None,cs
    )
    //Als nächstes gibt dann noch das "return!" für unsere char->bool 
    //Funktionen. Diesen verwenden wir zum Beispiel auch für unsere Strings.
    member self.ReturnFrom(p : char -> bool) = self.ReturnFrom(fun cs -> 
        match cs.Chars with //den aktuellen Stream matchen
        //wenn der Stream Inhalt hat, dann prüfe mit der Funktion p
        //ob man den ersten char nehmen will.
        | r::rs when p r -> 
            //wenn ja dann geben wir nicht nur den Token zurück, sondern
            //prüfen auch gleich auf '\n' und erhöhen die Zeilennummer.
            if(r = '\n') then  
                Some(Token.JustValue([r])),{cs with Line = cs.Line + 1; Chars = rs}
            else Some(Token.JustValue([r])),{cs with Chars = rs}
        | _ -> None,cs
    )
    //Jetzt arbeiten wir erst einmal unsere normalen "return" Expression ab
    //Zuerst nehmen wir eine Char-Liste damit wir leichter mit den Wert eines
    //Token arbeiten können.
    member self.Return(c : char list) = self.ReturnFrom(fun cs -> Some(Token.JustValue(c)),cs)
    //Dann gibt es natürlich noch ein "return" für IEnumerable<char>, also 
    //z.B. strings die wir in unserer Expression bauen
    member self.Return(s : char seq) = self.Return([for c in s -> c])
    //Dann erlauben wir Expressions die mit unserer char->bool Funktion beginnen
    member self.Bind(m : char->bool, f) = 
        let t1 = self.ReturnFrom(m)
        self.Bind(t1,f)
    //Und zum Schluss bauen wir noch eine kleine "Bibliothek" mit Expressions für
    //normale Strings. Als erstes natürlich dann wieder das "return!"-string
    member self.ReturnFrom(txt: char seq) = 
        let rec text = function  //rekursive Helfer-Funktion zum bauen unserer Expression
            | [] -> self.Return([]) //wenn wir am string-ende sind dann mach nichts
            | x::xs -> TokenBuilder(name) { //ansonsten baue einen neuen Tokenizer
                let! _ = (=) x //char->bool Funktion die auf gleichheit mit dem ersten char prüft
                let! _ = text xs //Wiederhole text mit den restlichen Char-Werten
                return x::xs //Zurückgeben tun wir dann unseren "string"
            }
        //String in Char-Liste umwandeln und text aufrufen um den
        //Tokenizer für den String zu erstellen.
        text [for c in txt -> c] 
    //Jetzt erlauben wir noch den Expressions mit einen string anzufangen.
    member self.Bind(m : char seq,f) = 
        let t1 = self.ReturnFrom(m)
        self.Bind(t1,f)
//Dann geben wir dem Builder einen hübschen Alias
let token(name) = TokenBuilder(name)        
 

Uff, geschafft! Jetzt können wir schon ziemlich viel mit unseren Tokenizern machen.
Allerdings brauchen wir noch ein paar kleine Helferlein um komplexere Sachen mit
dem Tokenizer selbst zu bauen. Dafür brauchen wir nur einen Or-Operator:

Code:

 
let (<|>) p q = { //Bauen einen neuen Record 
    Eval = fun cs -> //Im Eval 
        match p.Eval cs with //lassen wir erst einmal p durchlaufen
        | None,_ -> q.Eval cs //gibt es kein Ergebniss lassen wir Q laufen
        | r,rs -> r,rs //ansonsten nehmen wir das Ergebniss
    Name = fun (t) -> t.Name; //Wer Aufgepast hat weiß das wir jetzt den Namen von p oder q erhalten :-)
} //Record mit Name und Eval ergibt einen Tokenizer :-)
 

Sieht nicht nach besonders viel aus oder? Nun ja so ein "oder" kann ganz tolle Helferlein
bauen die wir jetzt im Nachhinein noch an den Tokenizer hängen können:

Code:

 
type Tokenizer with
    member self.Maybe =  //Für kleine Helferlein die optional sein sollen z.B. der Suffix bei Zahlen
        let t2 = token("") { return [] }
        self <|> {t2 with Name = self.Name}
    member self.Repeat = //Für kleine Helferlein die Wiederholt werden z.B. Ziffern von Zahlen
        let rec many1 (p:Tokenizer) : Tokenizer = (token("") {
            let! r = p
            let! rs = many p
            return r+rs
        } )
        and many p : Tokenizer = (many1 p) <|> token("") {return []}
        {(many1 self) with Name = self.Name}
 

Also dann viel Spaß beim Text zerlegen und bis nächste Woche :-)

[edit]
Hier noch kleines Beispiel.
Die Test-Datei:

Code:

 
wherenullnullnull
 
hallo world

Test Programm

Code:

 
open System
open System.IO
open Tokenizer
 
let isSpace = ['\n';'\r';'\t';' '] |> Set.ofList 
let space = token("space") {
    let! s = isSpace.Contains
    return s
}
let keyword str = token(str) { 
    return! str 
}
let Null = keyword "null" <|> keyword "where"
 
[<EntryPoint>]
let main argv = 
    let tmp = File.ReadAllText "TestSource.txt"
    let _,r = space.Repeat.Maybe.RunWithText(tmp)
    printfn "%A" (Null.RunWithStream(r))
    0 // return an integer exit code
 
 
 

Ausgabe:

Code:

 
(Some {Name = "where";
       Line = 3;
       Value = ['w'; 'h'; 'e'; 'r'; 'e'];},
 {Line = 3;
  Chars =
   ['n'; 'u'; 'l'; 'l'; 'n'; 'u'; 'l'; 'l'; 'n'; 'u'; 'l'; 'l'; '\013'; '\010';
    '\013'; '\010'; 'h'; 'a'; 'l'; 'l'; 'o'; ' '; 'w'; 'o'; 'r'; 'l'; 'd';
    '\013'; '\010'];})
 

_________________
Meine Homepage

Nach oben

yunharla

Betreff des Beitrags: Re: [Tool] BTCC

Verfasst: Di Dez 08, 2015 19:15

DGL Member

Registriert: Mo Nov 08, 2010 18:41
Beiträge: 769
Programmiersprache: Gestern

Argh, sorry für die Verspätung. Weihnachtsstress usw..

Im ersten Teil habe ich euch ein bisschen in das Builder-Pattern von F# eingeführt und euch gezeigt
wie man damit ganz leicht seinen Text in sinnvolle Teile zerlegen kann. Für einen richtigen Parser
müssen jetzt diese Teile nehmen und daraus richtige Objekte bauen. Daraus entsteht dann logischer
Weise eine Funktion die Text nimmt und uns vielleicht irgendetwas liefert...

Da stellt sich doch gleich erst einmal die Frage aller Fragen. Ist ein Token nicht auch irgendetwas?
Ja, natürlich, unser Tokenizer ist bereits ein Parser. Der Unterschied ist halt nur das man den
Tokenizer spezialisieren um besser mit Texten zu arbeiten. Wer also ganz viel lange Weile hat kann
gerne Überlegen wie man die generische Variante und Tokenizer vereinen kann

Nun ja nicht lang gesabbelt hier nun unsere Basistypen:

Code:

 
//Das Parser Ergebniss ist etwas anders als ein Token
type ParserResult<'t> =
 //Wenn es etwas gibt geben wir einfach nur den Wert ohne Metadaten
    | Result of 't
//Wenn es nichts gibt holen wir uns die Metadaten um später Fehler auszugeben
    | Error of int * string list 
//der Rest ist im Prinzip genau wie beim Tokenizer
type ParserFunc<'t> = Text -> ParserResult<'t> * Text
type Parser<'t> = { Names : string list ; Eval : ParserFunc<'t> }
 

Unser Builder selbst ist dieses auch etwas leichter:

Code:

 
type ParserBuilder(name) =
    //der Rückgabewert wird dieses mal einfach durchgereicht
    member self.Return(x) = {Names = [name]; Eval = fun cs -> Result(x),cs}
    //Parser können mit "return!" einfach weitergereicht werden
    member self.ReturnFrom(x) = {Names = [name]; Eval = x.Eval}
    //unser Parser kann aus mehreren Tokenizer bestehen. Jeder Tokenizer
    //wird mit Zeile und String-Wert verarbeitet. Dann kann der Benutzer noch
    //die Zeile in sein Objekt einbauen. 
    member self.Bind(m : Tokenizer,f : (int*string) -> Parser<'a>) = {
        Names = [name]
        Eval = fun cs ->
            match m.RunWithText cs with //Tokenizer ausführen
            | Some(r),rs -> 
//Wenn es etwas gibt dann erstelle den nächsten Parser
//Und führe diesen auch gleich aus.
                match (f (r.Line,new string[|for c in r.Value -> c|])).Eval rs with 
                | Result(x),xs -> Result(x),xs //wenn es etwas gibt, dann reichen wir das durch
//das gleiche beim Fehler. Nur müssen wir einmal neubauen damit der Rückgabewert generisch 
//bleibt. Ggf. kann man hier auch noch weitere Details hinzufügen. Ich packe hier noch den Namen
//des aktuellen Parser dazu, damit man so eine Stacktrace bekommt.
                | Error(el,es),_ -> Error(el,name::es),cs 
//Wenn der Tokenizer nicht funktioniert dann geben wir den Namen des Tokenizer
//zurück. Dann weiß der Benutzer was hier erwartet wurde.
            | _ -> Error(cs.Line,m.Names),cs 
    }
    //Bei Parsenr ist es genau das gleiche wie beim Tokenizer. Nur dieses mal
    //verarbeiten wir einfach nur den Wert ohne Zeilennummer. 
    member self.Bind(p : Parser<'a>,f : 'a -> Parser<'b>) = {
        Names = [name]
        Eval = fun cs -> 
            match p.Eval cs with //ersten Parser ausführen
            | Result(r),rs -> //wenn es etwas gibt
                match (f r).Eval rs with //dann baue den zweiten Parser und führe diesen aus.
                | Result(x),xs -> Result(x),xs //auch hier reichen wir wieder durch
                | Error(el,es),_ -> Error(el,name::es),cs //und bauen unseren "Trace"
//auch die Fehler des ersten Parser müssen neugebaut werden damit wir ParserResult<'a> nach
//ParserResult<'b> umwandeln.
            | Error(el,es),_ -> Error(el,es),cs 
    }
 

Na, geht doch locker fluffig von der Hand oder? Dann wollen wir mal noch ein paar Funktionen
zum Kombinieren von Parsern definieren:

Code:

 
let parser(name) = ParserBuilder(name)
type Parser with
    static member (<|>) (p: Parser<'t>,q : Parser<'t>) = { //Der 'Or'-Operator
        Names = (p.Names) @ (q.Names)
        Eval = fun cs -> match p.Eval cs with
                         | Result(r),rs -> Result(r),rs
                         | _,_ -> q.Eval cs
    }
    member self.Repeat = //einfache Listen von Ergebnissen
        let rec many1 (p:Parser<_>) : Parser<_> = (parser("") { 
            let! r = p //führe p aus 
            let! rs = many p //baue einen Parser mit many und führe diesen aus
            return r::rs //und pack das Ergebniss von den anderen Ergebnissen
        })
        and many p : Parser<_> = (many1 p) <|> ((parser("") { return [] })) //many ist many1 oder nichts
        {(many1 self) with Names = self.Names} //wir starten mit many1 damit es immer ein Ergebniss gibt
    //Genau das gleiche wie Repeat, nur dieses mal erwarten wir einen Token zwischen den Elementen
    member self.SeparatedBy (x:Tokenizer) =  
        let rec many1 (p:Parser<_>) : Parser<_> = (parser("") {
            let! r = p
            let! _ = x //unser Trennzeichen zwischen die Elemente legen
            let! rs = many p
            return r::rs
        })
        and many p : Parser<_> = (many1 p) <|> ((parser("") { return [] }))
        let p = {(many self) with Names = self.Names} //dieses mal starten wir mit many, damit es auch leere Listen gibt
        let p2 = parser("") {
            let! xs = p //zuerst führen wir daher die Liste mit Trennzeichen aus
            let! x = self //und abschließen tun wir mit dem normalen Parser 
            return xs @ [x] 
        }
        {p2 with Names = self.Names}
    //zum Schluss noch ein paar Helferlein zum ausführen.
    member self.RunWithText s = self.Eval s 
    member self.RunWithString s = self.RunWithText(Text.FromString s)
    
 

Zum Abschluss noch ein kleines Beispiel:

Code:

 
let isSpace = ['\n';'\r';'\t';' '] |> Set.ofList 
let space = token("space") {
    let! s = isSpace.Contains
    return s
}
let keyword str = token(str) { 
    return! str 
}
let oneBoolean = parser("boolean") {
    let! _ = space.Repeat.OrNothing
    let! l,t = keyword "true" <|> keyword "false"
    return l,bool.Parse t
}
let manyBooleans = 
    let comma = keyword ","
    oneBoolean.SeparatedBy(comma)
[<EntryPoint>]
let main argv = 
    let tmp = File.ReadAllText "TestSource.txt"
    printfn "%A" (manyBooleans.RunWithString tmp)
    0 // return an integer exit code
 

Mit folgenden Testcode:

Code:

 
true,
true,
false,true,true,
false,
true,true
 
hallo world

Liefert uns:

Code:

 
(Result
   [(3, true); (4, true); (5, false); (5, true); (5, true); (6, false);
    (7, true); (7, true)],
 {Line = 7;
  Chars =
   ['\013'; '\010'; '\013'; '\010'; 'h'; 'a'; 'l'; 'l'; 'o'; ' '; 'w'; 'o'; 'r';
    'l'; 'd'; '\013'; '\010'];})

Nehmen wir aber folgenden Code:

Code:

hallo world

Dann bekommen wir:

Code:

 
(Error (4,["boolean"; "true"; "false"]),
 {Line = 1;
  Chars =
   ['\013'; '\010'; '\013'; '\010'; '\013'; '\010'; 'h'; 'a'; 'l'; 'l'; 'o'; ' ';
    'w'; 'o'; 'r'; 'l'; 'd'; '\013'; '\010'];})

_________________
Meine Homepage

Nach oben

yunharla

Betreff des Beitrags: Re: [Tool] BTCC

Verfasst: Mi Dez 16, 2015 12:59

DGL Member

Registriert: Mo Nov 08, 2010 18:41
Beiträge: 769
Programmiersprache: Gestern

Hallo liebe Leute,

ich wollte ja eigentlich mit euch die Validierung durchgehen, als ich das am Wochenende gemacht hatte, habe ich aber festgestellt das es ja
quatsch ist diesen Teil noch einmal in einen Builder zu verpacken. Mit eigenen Funktionen geht das schneller und flexibler. Von daher lasst uns
heute einfach mal einen kleinen Beispiel Parser und dessen Validierung durchgehen. Dann habt ihr auch gleich ein Beispiel wie man die Bibliothek
dann nun eigentlich verwendet.

Damit ihr auch wirklich viel seht, zeige ich euch mal wie man Ausdrücke ausliest und überprüft. Hierfür braucht man als erstes mal zwei kleine Typen. Der eine spiegelt das Typen-System der Ausdrücke wieder und der andere den Ausdruck selbst:

Code:

 
type MyBasetype = 
    | Integer //Erst einmal die einfach Basis-Typen
    | Double 
    | String 
    | Boolean
    | Object    of Map<string,MyBasetype> //"Structs"
    | Tuple     of MyBasetype list //Ich finde jede Sprache sollte mehrere Rückgabewerte unterstützen
    | Array     of MyBasetype //Ein kleines Attribute für Arrays... Const usw. kann man genauso bauen
    | Functor   of MyBasetype * MyBasetype list //Funktionen mit Rückgabewert * Argumente
    | Typename  of string  //Für Lookups auf unsere Funktionen
    | Unkown  //Unbekannter Type
    | Void
type MyExpression = 
    | Integer       of uint64 //Literals
    | Float         of double
    | String        of string
    | Boolean       of bool
    | Identity      of string
    | Null          
    | Object        of Map<string,MyExpression> //Objekt-Aufbau wie bei JS
    | Unary         of MyUnaryOperator * MyExpression //Die ganzen Operationen
    | Postfix       of MyPostfixOperator * MyExpression
    | Binary        of MyExpression * MyBinaryOperator * MyExpression
    | Tuple         of MyExpression list //Tuple-Aufbau
    | Array         of MyExpression list //Array-Aufbau
and MyUnaryOperator =
    | Not
    | Minus
    | Parent
and MyPostfixOperator =
    | Array         of MyExpression
    | Member        of string
    | Call          of MyExpression list
and MyBinaryOperator =
    | Mul | Div | Mod
    | Add | Sub
    | Less | Greater | LEqual | GEqual
    | Equal | NEqual
    | BitAnd
    | BitXOr
    | BitOr
    | And
    | Or
 

Soweit so gut, nun brauchen wir noch eine Funktion zum Prüfen von "MyExpression". Dazu braucht man einfach nur eine Funktion die den Typen ermittelt und eine welche diese auf Kompatibilität prüft.

Code:

 
//Eine kleine Helfer-Variable die unseren Scope simuliert. Für komplexere Geschichten baut man sich
//ganz einfach ein Stack-Objekt das die Typen für den Scope liefert. Zum Testen reicht könnt ihr
//hier aber einfach eine kleine Standard-Bibliothek bauen :)
let scope : Map<string,MyBasetype> = 
    ["a",MyBasetype.Integer; //der Identifier a ist ein integer
     "b",MyBasetype.Double;] |> Map.ofList //und b ist ein double
 
let rec testType = function
    | MyBasetype.Unkown,_ -> false //Unbekannt ist immer Inkompatibel
    | _,MyBasetype.Unkown -> false
    | MyBasetype.Void,_ -> false //Void darf nicht kombiniert werden
    | _,MyBasetype.Void -> false
    | MyBasetype.Integer,MyBasetype.Double -> true //Zahlen können wir ohne Probleme hin und her casten
    | MyBasetype.Double,MyBasetype.Integer -> true
    | MyBasetype.Tuple(x),MyBasetype.Tuple(y) -> //Tuple müssen wir Speziell behandeln, da ja auch die einzelnen Member gecastet werden
        testTuple(x,y)
    | x,y -> x = y //Den Rest können wir einfach mit dem Struct-Vergleich prüfen
and testTuple = function //Beim Tuple gehen wir einfach die Liste durch
    | x::xs,y::ys -> 
        let t = MyBasetype.Tuple([for x in xs -> testExpression x])
        if testType(t,t) then t //Prüfen ob ein Element "Unknown" ist
        else MyBasetype.Unkown
    | _ -> true 
let rec testExpression = function
    | MyExpression.Binary(a,o,b) -> //Für Binäre Ausdrücke
        let ax = testExpression a  //bauen wir erst den Typen vom ersten Operanden
        let bx = testExpression b //dann den Typen des zweiten Operanden
        if(testType(ax,bx)) then //Wenn beide Kompatibel sind
            match o with //Prüfen wir den Operator
            | Less | Greater | LEqual | GEqual //Bei Vergleichen gibt es immer einen Boolean
            | And | Or -> MyBasetype.Boolean
            | _ -> bx //Ansonsten den Typen des zweiten Operanden
        else MyBasetype.Unkown //Falls unsere Typen nicht kompatibel sind geben wir Unbekannt
    | MyExpression.Integer(_) -> MyBasetype.Integer //Jetzt mal kurz die einfachen Literals...
    | MyExpression.Float(_) -> MyBasetype.Double 
    | MyExpression.Boolean(_) -> MyBasetype.Boolean
    | MyExpression.String(_) -> MyBasetype.String
    | MyExpression.Null(_) -> MyBasetype.Object(Map.empty) //Eigentlich müssten wir hier einen speziellen Typen bauen
    | MyExpression.Unary(o,x) ->
        match o,(testExpression x) with //Bei Vorzeichen-Operatoren matche ich den Operator zusammen mit den Typen
        | MyUnaryOperator.Minus,MyBasetype.Integer -> MyBasetype.Integer //Minus kann nur mit Zahlen
        | MyUnaryOperator.Minus,MyBasetype.Double -> MyBasetype.Double
        | MyUnaryOperator.Not,_ -> MyBasetype.Boolean //Not nur mit Boolean
        | MyUnaryOperator.Parent,tx -> tx //Klammern lösen wir einfach auf
        | _ -> MyBasetype.Unkown //Der Rest ist nicht definiert
    | MyExpression.Tuple(xs) -> MyBasetype.Tuple([for x in xs -> testExpression x]) //Tuple ergibt einen Tuple :)
    | MyExpression.Array(xs) -> //Beim Array-Constructor holen wir uns den Typen des ersten Elements
        if xs.Length = 0 then MyBasetype.Array(MyBasetype.Unkown)
        else 
            let x = testExpression xs.Head
            let mutable bx = true
            for x' in xs do //und prüfen ob dieser Kompatibel mit den anderen Typen im Array ist
                bx <- bx && (testType (x,testExpression x'))
            if bx then MyBasetype.Array(x)
            else MyBasetype.Array(MyBasetype.Unkown)
    | MyExpression.Postfix(o,x) ->
        let tx = testExpression x
        match o,tx with
        | MyPostfixOperator.Array(i),MyBasetype.Array(y) -> //beim Indexer holen wir uns den Element-Typen des Array
            let it = testExpression i
            if testType(MyBasetype.Integer,it) then y
            else MyBasetype.Unkown
        | MyPostfixOperator.Member(s),MyBasetype.Object(y) -> //bei Member-Ausdrücken holen wir uns den Typen aus der Map des Objekt
            if y.ContainsKey s then y.Item s
            else MyBasetype.Unkown
        | MyPostfixOperator.Call(args),MyBasetype.Functor(f,fargs)  -> //Funktionsaufrüfe
            let targs = [for a in args -> testExpression a] //Erst wandeln wir die Argument in Typen um
            if testTuple(targs,fargs) then f //Danach prüfen wir beide Listen 
            else MyBasetype.Unkown 
        | _ -> MyBasetype.Unkown
    | MyExpression.Object(xs) -> //Objekt müssen wir einfach Stupide in ein Objekt umwandeln :-)
        let txs = [for x in xs -> x.Key, testExpression x.Value]
        MyBasetype.Object (Map.ofList txs)
    | MyExpression.Identity(m) -> //Bei einen Namen holen wir uns die Sache aus dem Scope
        if scope.ContainsKey m then scope.Item m
        else MyBasetype.Unkown
 

Jetzt braucht man nur einen Parser der uns ein Objekt zum Prüfen liefert. Dafür baue ich mir erst einmal ein paar kleine Helferlein:

Code:

 
open Parser
open AST
open Tokenizer
open System
open System.Globalization
 
let isSpace = (['\n';'\r';'\t';' '] |> Set.ofList).Contains
let isDigit = (['0'..'9'] |> Set.ofList).Contains
let isHexDigit = ((['a'..'f'] @ ['A'..'F'] @ ['0'..'9']) |> Set.ofList).Contains
let isStrChar c = (c <> '\"') && (c <> '\\')
let isEscChar = (['\"';'\\';'/';'b';'f';'n';'r';'t'] |> Set.ofList).Contains
let space = (token("space") { return! isSpace }).Repeat
let letters = (token("letter") { return! Char.IsLetter }).Repeat
let digits = (token("digit") { return! isDigit }).Repeat
let underscores = (token("_") {return! (=) '='}).Repeat
let hexDigits = (token("hexdigit") { return! isHexDigit }).Repeat
let opCode x = token(x) {
    let! _ = space.OrNothing
    let! _ = x
    let! _ = space.OrNothing
    return x
}
let opEnd x = token(x) {
    let! _ = space.OrNothing
    let! _ = x
    return x
}
 
let keyword str = token(str) { return! str }
let expparser = parser("expression")
 
let pIdentifier = 
    let pa = parser("identifier") {
        let! l,s1 = underscores
        let! _,s2 = (letters <|> digits).Repeat
        let! _,s3 = (letters <|> digits <|> underscores).Repeat.OrNothing
        return s1 + s2 + s3
    } 
    let pb = parser("identifier") {
        let! l,s1 = letters
        let! _,s2 = (letters <|> digits <|> underscores).Repeat.OrNothing
        return s1 + s2
    }
    pa <|> pb
 
 
//helper function to create a parser for operators
let private makeOp x y = 
    expparser {
        let! _ = opCode x
        return y
    }
//create parsers for our binary operatores
let private pBinOps = 
    makeOp "*"   MyBinaryOperator.Mul <|>
    makeOp "/"   MyBinaryOperator.Div <|>
    makeOp "%"   MyBinaryOperator.Mod <|>
    makeOp "+"   MyBinaryOperator.Add <|>
    makeOp "-"   MyBinaryOperator.Sub <|>
    makeOp "<="  MyBinaryOperator.LEqual <|>
    makeOp "<"   MyBinaryOperator.Less <|>
    makeOp ">="  MyBinaryOperator.GEqual <|>
    makeOp ">"   MyBinaryOperator.Greater <|>
    makeOp "=="  MyBinaryOperator.Equal <|>
    makeOp "!="  MyBinaryOperator.NEqual <|>
    makeOp "&&"  MyBinaryOperator.And <|>
    makeOp "||"  MyBinaryOperator.Or <|>
    makeOp "&"   MyBinaryOperator.BitAnd <|>
    makeOp "^"   MyBinaryOperator.BitXOr <|>
    makeOp "|"   MyBinaryOperator.BitOr
//get the weight of a binary operator
//lower values have a higher precedence
let private wBinOps = function
    | MyBinaryOperator.Mul      -> 1000
    | MyBinaryOperator.Div      -> 1000
    | MyBinaryOperator.Mod      -> 1000
    | MyBinaryOperator.Add      -> 2000
    | MyBinaryOperator.Sub      -> 2000
    | MyBinaryOperator.Less     -> 3000
    | MyBinaryOperator.Greater  -> 3000
    | MyBinaryOperator.LEqual   -> 3000
    | MyBinaryOperator.GEqual   -> 3000
    | MyBinaryOperator.Equal    -> 4000
    | MyBinaryOperator.NEqual   -> 4000
    | MyBinaryOperator.BitAnd   -> 5000
    | MyBinaryOperator.BitXOr   -> 6000
    | MyBinaryOperator.BitOr    -> 7000
    | MyBinaryOperator.And      -> 8000
    | MyBinaryOperator.Or       -> 9000
//shunt our binary expression into form that
//can easily be transformed to asm
let rec private sBinOps op a = function
    | MyExpression.Binary(xb,xop,xc) as b ->
        if((wBinOps op) < (wBinOps xop)) then
            let c = MyExpression.Binary(a,op,xb)
            sBinOps xop c xc
        else 
            MyExpression.Binary(a,op,b)
    | b -> MyExpression.Binary(a,op,b)
//helper parser for escape sequences in strings.
let private escChar = 
    let replaceEscChar = function 'b' -> '\b' | 'f' -> '\f' | 'n' -> '\n'
                                    | 'r' -> '\r'| 't' -> '\t' | other -> other
    let simple = token("char"){
        let! _ = (=) '\\'
        let! c = isEscChar
        return new string [|for x in c -> replaceEscChar x |]
    }
    let unicode = token("char") {
        let! _ = "\\u"
        let! d1 = isHexDigit
        let! d2 = isHexDigit
        let! d3 = isHexDigit
        let! d4 = isHexDigit
        let r = 
            let s = d1 + d2 + d3 + d4
            Byte.Parse(s, Globalization.NumberStyles.HexNumber)
            |> char
        return r.ToString()
    }
    expparser {
        let! l,c = unicode <|> simple <|> token("char") { return! isStrChar }
        return c.Chars 0
    }
 
 
let rec pExpression : Parser<MyExpression> =
    let p = //parse unary expressions, note that this will give unary expression higher precedence than post-fix
        expparser {
            let! _ = opCode "(" //parenthesis
            let! x = pExpression
            let! _ = opCode ")"
            return MyExpression.Unary(MyUnaryOperator.Parent,x)
        } <|> expparser {
            let! _ = opCode "!" //not operator
            let! x = pExpression
            return MyExpression.Unary(MyUnaryOperator.Not,x)
        } <|> expparser {
            let! _ = opCode "-" //unary minus operator for negative values
            let! x = pExpression
            return MyExpression.Unary(MyUnaryOperator.Minus,x)
        }
    //parse integer constants
    let i = 
        let x = expparser { //integers are a sequence of digits
            let! l,i = digits
            let b,x = UInt64.TryParse(i)
            if b then return MyExpression.Integer x
        } 
        let y = expparser { //or a sequence of hex-digits after "0x" or "0X"
            let! _ = keyword "0x" <|> keyword "0X"
            let! l,h = hexDigits
            let b,x = UInt64.TryParse(h,NumberStyles.HexNumber,CultureInfo.InvariantCulture)
            if b then return MyExpression.Integer x
        }
        x <|> y
    //parse float constants
    let f =
        let frac = token("frac") { //a sequence of digits with "." and another sequence of digits
            let! x = digits
            let! y = "."
            let! z = digits
            return x+y + z
        }
        let exp = token("exp") { //the exponent part of a float 
            let! e = keyword("e") <|> keyword("E")
            let! s = (keyword("+") <|> keyword("-")).OrNothing
            let! d = digits
            return e+s+d
        }
        expparser {
            let! _,f = frac //must either be a frac number with optional exponent
            let! _,e = exp.OrNothing
            let b,x = Double.TryParse(f+e)
            if b then return MyExpression.Float x
        } <|> expparser { //or a normal integral with an exponent
            let! _,d = digits
            let! _,e = exp
            let b,x = Double.TryParse(d+e)
            if b then return MyExpression.Float x
        }
    //parse string constants
    let s =
        expparser { 
            let! _ = keyword("\"")
            let! s = escChar.Repeat
            let! _ = keyword("\"")
            return MyExpression.String(new string (Array.ofList s))
        }
    //parse boolean constants
    let b = 
        expparser {
            let! _ = keyword "true"
            return MyExpression.Boolean true
        } <|> expparser {
            let! _ = keyword "false"
            return MyExpression.Boolean false
        }
    //parse identifier constants (identity)
    let v = expparser {
        let! id = pIdentifier
        return MyExpression.Identity id
    }
    //parse null-constants
    let n = expparser {
        let! _ = keyword "null"
        return MyExpression.Null
    }
    //helper function to handle ambigeous syntax for tuple, call and array-literal
    let expand = function
        | MyExpression.Tuple(args) -> args //if previous expression was tuple, convert to list
        | arg -> [arg] //otherwise create a list with just the argument
    //parse postfix expression
    let rec postfix (exp:MyExpression) : Parser<MyExpression> = 
        expparser {
            let! _ = opCode "[" //array indexer; must have just 1 argument
            let! i = pExpression
            let! _ = opEnd "]"
            return! postfix(MyExpression.Postfix(MyPostfixOperator.Array i,exp))
        } <|> expparser {
            let! _ = opCode "(" //call without arguments
            let! _ = opEnd ")"
            return! postfix(MyExpression.Postfix(MyPostfixOperator.Call [],exp))
        } <|> expparser {
            let! _ = opCode "(" //call with arguments
            let! xa = pExpression //check for tuple to get multiple arguments
            let! _ = opEnd ")"
            return! postfix(MyExpression.Postfix(MyPostfixOperator.Call(expand xa),exp))
        } <|> expparser {
            let! _ = opCode "." //member expression
            let! s = pIdentifier
            return! postfix(MyExpression.Postfix(MyPostfixOperator.Member s,exp))
        } <|> expparser { return exp }
    //member assigment for object literal
    let m = typeparser { // <identifier> : <typename>
        let! _ = space.OrNothing
        let! n = pIdentifier
        let! _ = opCode ":"
        let! t = pExpression
        let! _,eol = space <|> opCode ";"
        if eol = ";"    then return n,t
        else if eol.Contains "\n" then return n,t
    }
    //parse object literal
    let o = 
        typeparser {
            let! _ = opCode "{" //empty objects
            let! _ = opEnd "}"
            return MyExpression.Object(Map.empty)
        } <|> typeparser {
            let! _ = opCode "{" //object with many assignments
            let! ms = m.Repeat
            let! _ = opEnd "}"
            return MyExpression.Object(Map.ofList ms)
        }
    //parse array literal 
    let a = 
        typeparser {
            let! _ = opCode "[" //empty array
            let! _ = opEnd "]"
            return MyExpression.Array([])
        } <|> typeparser {
            let! _ = opCode "[" //array with values
            let! xa = pExpression //check for tuple to get multiple values
            let! _ = opCode "]"
            return MyExpression.Array(expand xa)
        }
    //loop-parse binary expression
    let rec binary (exp:MyExpression) : Parser<MyExpression> = 
        expparser {
            let! o = pBinOps //get one binary operator
            let! other = pExpression //right-hand expression
            return! binary(sBinOps o exp other) //shunt operator and get next expression
        } <|> expparser { return exp } //or return the current expression
    //primary expressions are constants, identifier, literals or unary expressions
    let primary = expparser {
        let! x = f <|> i <|> s <|> p <|> v <|> n <|> o <|> a
        return! postfix x //wrap result into post-fix expressions
    }
    let px = expparser { //wrap result into binary expressions
        let! x = primary
        return! binary x
    }
    expparser { //finally try to create a tuple, so this one always has the highest precedence
        let! xs = px.SeparatedBy(opCode ",")
        if xs.Length > 1 then return MyExpression.Tuple xs
        else if xs.Length = 1 then return xs.Head
    }
 

Zum Testen nehme ich einfach mal folgendes kleine TestProgramm

Code:

 
({ x : 5; y : 10; }.x + a + b), a*b
 

und bekomme

Code:

 
Tuple [Double; Double]
 

_________________
Meine Homepage

Nach oben

yunharla

Betreff des Beitrags: Re: [Tool] BTCC

Verfasst: Di Mär 15, 2016 10:10

DGL Member

Registriert: Mo Nov 08, 2010 18:41
Beiträge: 769
Programmiersprache: Gestern

Hab jetzt den Parser + Beispiel auf GitHub geladen. Den Link findet ihr in meiner Sig.

_________________
Meine Homepage

Nach oben

Seite 1 von 1

[ 11 Beiträge ]

Foren-Übersicht » Sonstiges » Projekte

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

Du darfst keine neuen Themen in diesem Forum erstellen.
Du darfst keine Antworten zu Themen in diesem Forum erstellen.
Du darfst deine Beiträge in diesem Forum nicht ändern.
Du darfst deine Beiträge in diesem Forum nicht löschen.
Du darfst keine Dateianhänge in diesem Forum erstellen.