Luščenje ključnih besed in izrazov se uporablja za:
luščenje terminologije za uporabo pri prevajanju in tolmačenju
luščenje eno- in večbesednih enot, ki so značilne za korpus/dokument/besedilo ali opredeljujejo njegovo vsebino ali temo
primerjavo dveh korpusov/dokumentov/besedil z ugotavljanjem, kaj je edinstveno v prvem korpusu v primerjavi z drugim
Rezultat je razdeljen na ključne besede (enobesedne enote) in izraze (večbesedne enote) in so prikazane skupaj s povezavami do stavkov v fokusnem in referenčnem korpusu.
Ključne besede in izrazi, pridobljeni iz korpusa besedil o digitalni fotografiji.
Ključne besede in izrazi
Ključne besede Ključne besede so posamezne besede (%[pojavnica|pojavnice]%), ki se pogosteje pojavljajo v fokusnem korpusu kot v referenčnem korpusu. Vsaka %[pojavnica]% se lahko šteje za ključno besedo, če se v fokusnem korpusu uporablja pogosteje kot v referenčnem korpusu. V resnici bo rezultat vključeval predvsem samostalnike in pridevnike, saj je pogostost drugih besednih vrst v vseh besedilih podobna.
Izrazi Izrazi so večbesedni izrazi, ki se v fokusnem korpusu pojavljajo pogosteje kot v referenčnem korpusu in poleg tega ustrezajo tipični obliki terminologije v jeziku. Oblika je opredeljena v slovnici terminov.
Rezultat luščenja izrazov se prikaže kot %[lema|leme]%. Ospoljene leme se uporabljajo v jezikih, kjer se mora besedna oblika pridevnika ujemati s spolom samostalnika.
Fokusni korpus in referenčni korpus
Da bi orodje delovalo, morata obstajati vsaj 2 korpusa (ali 2 podkorpusa) v jeziku. Korpus, v katerem so prepoznane ključne besede in izrazi, se imenuje fokusni korpus. Korpus, ki se uporablja za primerjavo, se imenuje referenčni korpus.
Osnovna matematika
S preprosto matematično metodo se določi ključnost ključnih besed in izrazov. Deluje z normaliziranimi (relativnimi, na milijon) frekvencami v fokusnem in referenčnem korpusu.
Luščenje terminologije
Luščenje terminologije zajema besede, ki so značilne za temo dokumenta ali korpusa, tj. v korpusu se pojavljajo pogosteje kot v splošnem jeziku. Za predstavitev splošnega jezika se uporabi velik nespecializiran korpus v jeziku. Privzete nastavitve običajno zadoščajo, da luščenje zagotovi visokokakovostne rezultate.
Luščenje edinstvenih značilnosti korpusa
Ta uporaba je skoraj enaka luščenju terminologije. Razlika je v tem, da uporabnika morda ne zanima le specializirana leksika, ki je v splošnem jeziku redka, temveč je včasih zanimivo pogledati, katere srednje- ali celo visokofrekvenčne besede se uporabljajo pogosteje kot v splošnem jeziku. Z drsnikom na zavihku za napredne se lahko pri luščenju osredotočite na različne dele frekvenčnega razpona.
Primerjava korpusov
Ročna primerjava dveh besedil ni izvedljiva, če sta besedili zelo dolgi. Tudi pri kratkih besedilih lahko statistična primerjava pokaže pojave, ki bi pri ročni primerjavi ostali neopaženi. Ključne besede in izrazi se lahko uporabijo za primerjavo dveh korpusov ali podkorpusov. Pri primerjavi podkorpusov sta lahko oba v istem ali različnih korpusih. Rezultat bo pokazal, kaj je značilno za fokusni (pod)korpus v primerjavi z referenčnim (pod)korpusom.
Zahteve za delovanje ključnih besed in izrazov
Ključne besede bodo izluščene iz vsakega tokeniziranega korpusa. Izraze je mogoče izluščiti le iz korpusov, ki so označeni in lematizirani v jezikih, za katere obstaja slovnica terminov.