Besedna skica Tezaver lahko deluje le, če v korpusu obstajajo besedne skice. Korpus mora biti označen v programu Sketch Engine ali pa mora biti uporabljen isti nabor oznak. Če je korpus označen z drugačnih naborom oznak, moramo uporabiti
slovnico besednih skic po meri.
Tezaver bo deloval tudi z univerzalnimi slovnicami besednih skic z vsemi povezanimi omejitvami. Glejte besedno skico.
Oznake in leme
Za popoln tezaver je potreben %[tag|označen]% in %[lemma|lematiziran]% korpus. Tezavri, ustvarjeni iz neoznačenih in nelematiziranih korpusov z univerzalnimi besednimi skicami, bodo slabše kakovosti. Kljub temu so lahko zelo uporabni, zlasti pri jezikih z manj viri, kjer označevanje in lematizacija nista realna.
Velikost korpusa
Kakovost tezavra je v celoti odvisna od bogatih besednih skic. Bogato besedno skico opredeljuje veliko število kolokacij v vseh slovničnih razmerjih. Bogata besedna skica mora obstajati za iskano besedo in tudi za vse druge besede z isto besedno vrsto, da jih je mogoče primerjati. Ta zahteva je lahko izpolnjena le, če ima beseda v korpusu visoko %[frequency|frekvenco] %, najbolje tisoč ali več pojavitev. Zato je potreben zelo velik korpus, da lahko tudi pri manj pogostih besedah dobimo bogate besedne skice. Uporaba naših korpusov z več milijardami besed je priporočljiva za vsako resno delo s tezavri.