Word sketch Tezaurus może działać tylko wtedy, gdy w korpusie istnieją word sketche. Korpus musi być otagowany w Sketch Engine lub używać tego samego zestawu tagów. Jeśli korpus jest otagowany innym zestawem tagów, należy użyć własnej
gramatyki word sketch.
Tezaurus będzie działać nawet z uniwersalnymi gramatykami word sketch, wraz ze wszystkimi związanymi ograniczeniami. Zobacz word sketch.
Tagi i lemmy
Do pełnoprawnego tezaurusa wymagany jest korpus %[tag|otagowany]% i %[lemma|zlematyzowany]%. Tezaurusy wygenerowane z nieotagowanych i niezlematyzowanych korpusów z uniwersalnymi gramatykami word sketch będą miały niższą jakość.
Tezaurus będzie działał nawet z uniwersalnymi gramatykami word sketch, z wszystkimi związanymi ograniczeniami. Zobacz word sketch.
Rozmiar korpusu
Jakość tezaurusa jest całkowicie zależna od treściwych word sketchów. Treściwy word sketch jest definiowany przez dużą liczbę kolokacji we wszystkich relacjach gramatycznych. Treściwy word sketch musi istnieć dla wyszukiwanego słowa, ale także dla wszystkich innych słów o tej samej części mowy, aby można je było porównać. Ten wymóg można spełnić tylko wtedy, gdy słowo ma wysoką %[frekwencję]% w korpusie, najlepiej tysiące wystąpień lub więcej. W związku z tym potrzebny jest bardzo duży korpus, aby nawet mniej częste słowa mogły wygenerować treściwe word sketche. Zaleca się użycie naszych korpusów liczących wiele miliardów słów do wszelkich poważnych prac nad tezaurusem.