处理大量索引时,随机取样的方式用于减少索引行句的数量,但同时保有代表性。用户定义的行句数皆从整个语料库中随机选取。
这些行句会跟它们在语料库中出现的顺序相同。
从相同索引生成的具有相同设置行数的随机取样会始终生成完全相同的索引行句。这种结果是有意设置的,目的是以便不同用户(例如学生)可以按照相同的步骤得到相同的结果。要生成不同的取样,应使用不同的行数。将行数值设置为201而不是200,就会生成完全不同的取样。