Word sketch Tezaurus může fungovat pouze tehdy, pokud v korpusu existují word sketch. Korpus musí být ve Sketch Engine označkován nebo musí používat stejný tagset. Vlastní
gramatika word sketch musí být použita, pokud je korpus označen jinou sadou tagů.
Tezaurus bude fungovat i s univerzálními gramatikami sketch se všemi souvisejícími omezeními. Viz word sketch.
Tay a lemmata
Pro plnohodnotný tezaurus je zapotřebí %[tag|značkovaný]% and %[lemma|lemmatizovaný]% korpus. Tezaury vytvořené z neoznačkovaných a nelemmatizovaných korpusů s univerzálními word sketch budou mít výrazně sníženou kvalitu. Přesto mohou být velmi užitečné, zejména u jazyků s méně zdroji, kde značkování a lemmatizace nejsou dostupné.
Velikost korpusu
Kvalita tezauru je zcela závislá na bohatých word sketch. Bohatý word sketch je definována velkým počtem kolokací ve všech gramatických relacích. Bohatý word sketch musí existovat nejen pro hledané slovo, ale i pro všechna ostatní slova se stejným slovním druhem, aby je bylo možné porovnat. Tento požadavek lze splnit pouze tehdy, má-li slovo v korpusu vysokou %[frequency|frekvenci]%, ideálně tisíce výskytů nebo více. V důsledku toho je zapotřebí velmi rozsáhlý korpus, aby i méně frekventovaná slova mohla vytvořit bohaté náčrty slov. Pro každou seriózní práci s tezaurem doporučujeme používat naše korpusy s mnoha miliardami slov.