Word Sketch Thesaurus può funzionare solo se esistono word sketch nel corpus. Il corpus deve essere taggato in Sketch Engine o usare lo stesso tagset. Una
word sketch grammar personalizzata deve essere usata se il corpus è taggato con un tagset diverso.
Thesaurus funzionerà anche con word sketch grammar universali con tutte le relative limitazioni. Vedi word sketch.
Tag e lemmi
Un corpus %[tag|taggato]% e %[lemma|lemmatizzato]% è necessario per un thesaurus a pieno titolo. I thesauri generati da corpora non taggati e non lemmatizzati con word sketch universali ne risentiranno in qualità. Tuttavia, possono essere molto utili, specialmente con le lingue con meno risorse dove il tagging e la lemmatizzazione non sono praticabili.
Dimensione del corpus
La qualità del thesaurus dipende interamente da word sketch ricchi. Un word sketch ricco è definito da un gran numero di collocazioni in tutte le relazioni grammaticali. Un word sketch ricco deve esistere per la parola cercata ma anche per tutte le altre parole con la stessa parte del discorso, in modo da poterle confrontare. Questo requisito può essere soddisfatto solo se la parola ha un'alta %[frequency|frequenza]% nel corpus, idealmente migliaia di occorrenze o più. Di conseguenza, è necessario un corpus molto grande in modo che anche le parole meno frequenti possano produrre ricchi word sketch. L'uso dei nostri corpora di molti miliardi di parole è raccomandato per qualsiasi lavoro serio tramite thesaurus.