Портрет слова Тезаурус може працювати лише за умови, що в корпусі є портрети слова. Корпус має бути позначений тегами в Sketch Engine або використовувати той самий тегсет. Якщо корпус позначено іншим тегсетом, необхідно використовувати користувацьку
граматику портретів слова.
Тезаурус працюватиме навіть із загальними граматиками портретів з усіма пов’язаними обмеженнями. Див. портрет слова.
Теги та леми
Для повноцінного тезауруса потрібен %[tag|протегований]% та %[lemma|злематизований]% корпус. Тезауруси, згенеровані з непротегованих та незлематизованих корпусів із загальними портретами слова, матимуть сумнівну якість. Проте вони можуть бути дуже корисними, особливо з менш ресурсними мовами, де тегування та лематизація не є здійсненними.
Розмір корпусу
Якість тезауруса цілковито залежить від багатих портретів слова. Багатий портрет слова визначається великою кількістю колокацій в усіх граматичних зв’язках. Багатий портрет слова має існувати не лише для пошукового слова, але й усіх інших слів, що належать до того ж самого класу частин мови, щоб їх можна було порівняти. Цю вимогу можна задовольнити, лише якщо слово має високу %[frequency|частотність]% у корпусі, в ідеалі тисячі траплянь або більше. Виходить, що потрібен дуже великий корпус, щоб навіть менш частотні слова могли видавати багаті портрети слова. Рекомендуємо використовувати наші багатомільярдні корпуси слів для будь-якої серйозної роботи з тезаурусами.