Word sketch シソーラスは、コーパスにワードスケッチが存在する場合にのみ機能します。コーパスはSketch Engineでタグ付けされているか、同じタグセットを使用する必要があります。コーパスが異なるタグセットでタグ付けされている場合は、カスタム
ワードスケッチ文法を使用する必要があります。
シソーラスは、すべての関連する制限を伴うユニバーサルスケッチ文法でも機能します。単ワードケッチを参照してください。
タグとレンマ
完全なシソーラスには、%[tag|タグ付けされた]%と%[lemma|レンマ化]%のコーパスが必要です。タグ付けされていないコーパスやレンマ化されていないコーパスから生成されたシソーラスは、品質が低下しますが、特にタグ付けやレンマ化が現実的ではないリソースの少ない言語では非常に役立ちます。
コーパスサイズ
シソーラスの品質は、豊富なワードスケッチに完全に依存しています。豊富なワードスケッチは、すべての文法関係での大量のコロケーションによって定義されます。検索語の豊富なワードスケッチだけでなく、同じ品詞の他のすべての単語についても豊富なワードスケッチが存在する必要があります。これにより、比較が可能になります。この要件は、単語がコーパス内で高い%[frequency|頻度]%を持つ場合にのみ満たされます。理想的には、数千回以上の出現が必要です。その結果、頻度が低い単語でも豊富なワードスケッチを生成するには非常に大規模なコーパスが必要です。本格的なシソーラス作業には、数十億語のコーパスの使用をお勧めします。