词汇素描 同义词库只能在语料库中存在词汇素描的情况下使用。语料库必须在 Sketch Engine 中进行标注,或使用相同的标注集。如果语料库使用不同的标注集,则必须使用自定义的
词汇素描语法。
即使使用通用素描语法,同义词库也能使用,但会有相关的限制。参见词汇素描。
标注和词目
要生成一个完善的同义词库,需要一个%[tag|标注]%和%[lemma|词形还原]%的语料库。在未标注和未词形还原的语料库中,使用通用词汇素描生成的同义词库,质量就会有所下降。然而,结果仍然值得使用,尤其是在标注和词形还原无法使用的低资源语言中。
语料库大小
同义词库的质量完全取决于充沛的词汇素描。充沛的词汇素描是由大量的语法关系的搭配词定义的。充沛的词汇素描除了必须存在于搜索词中以外,还必须存在于具有相同词性的所有其他单词中,以便进行比较。只有当单词在语料库中具有较高的%[frequency|词频]%,理想情况下出现数千次或更多时,才能满足此要求。因此,需要一个非常大的语料库,来让低频单词生成丰富的词汇素描。对于任何较需要较严谨的同义词库结果,建议使用我们的十亿词以上的语料库。