Word Sketch Die Thesaurus-Erstellung funktioniert nur, wenn das Korpus Word Sketches beinhaltet. Das Korpus muss in Sketch Engine getaggt worden sein oder das selbe Tagset benutzen. Wenn das Korpus mit einem anderen Tagset getaggt worden ist, wird eine benutzerdefinierte
Word-Sketch-Grammatik benötigt.
Die Thesaurus-Erstellung funktioniert mit bestimmten Einschränkungen auch mit allgemeinen Word-Sketch-Grammatiken. Mehr unter Word Sketch.
Tags und Lemmata
Für einen vollwertigen Thesaurus wird ein%[tag|getaggtes]% und %[lemma|lemmatisiertes]% Korpus benötigt. Thesauri, die mithilfe von nicht getaggten und nicht lemmatisierten Korpora erstellt werden, werden Qualitätsmängel aufweisen. Solche Thesauri können trotzdem sehr nützlich sein, vor allem bei der Arbeit mit Sprachen, für die wenige Daten vorhanden sind und für die deswegen das Taggen und Lemmatisieren nicht realistisch ist.
Korpusgröße
Die Qualität des Thesaurus hängt vor allem von umfangreichen Word Sketches ab. Ein Word Sketch ist dann umfangreich, wenn er eine große Menge an Kollokatoren in allen grammatischen Beziehungen enthält. Solche umfangreichen Word Sketches müssen sowohl für den Suchbegriff als auch für alle Wörter der gleichen Wortart existieren, damit diese miteinander verglichen werden können. Diese Vorraussetzung kann nur erfüllt werden, wenn das Wort eine hohe %[frequency|Häufigkeit]% im Korpus aufweist, idealerweise mehrere tausende Vorkommnisse oder mehr. Sehr große Korpora sind nötig, damit umfangreiche Word Sketches auch für weniger häufige Wörter produziert werden können. Wir empfehlen für jede fundierte Arbeit mit Thesaurus eines unserer Korpora mit mehreren Milliarden Wörtern.