Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams | Corpus of transcribed parliamentary speeches for authorship attribution and author profiling tasks
ISSN 1392-1517. Online ISSN 2029-8315. KALBOTYRA. 2014 • 66
Seimo posėdžių stenogramų tekstynas autorystės nustatymo
bei autoriaus profilio sudarymo tyrimams
Jurgita Kapočiūtė-Dzikienė
Informatikos fakultetas
Vytauto Didžiojo universitetas
Vileikos g. 8-511
LT-44404 Kaunas, Lietuva
El. paštas:
Andrius Utka
Kompiuterinės lingvistikos centras
Vytauto Didžiojo universitetas
K. Donelaičio g. 52-206
LT-44244 Kaunas, Lietuva
El. paštas:
Ligita Šarkutė
Viešosios politikos ir administravimo
institutas
Kauno technologijos universitetas
K. Donelaičio g. 20-217
LT-44239 Kaunas, Lietuva
El. paštas:
Anotacija
Straipsnyje pristatome Seimo posėdžių stenogramų tekstyną, parengtą specialiu formatu,
tinkančiu įvairiems autorystės nustatymo tyrimams. Tekstyną sudaro apie 111 tūkstančių
tekstų (24 milijonai žodžių), kurių kiekvienas atitinka vieną parlamentaro pasisakymą
eilinės sesijos posėdžio metu bei apima 7 Lietuvos Respublikos Seimo kadencijas:
nuo 1990 metų kovo 10 dienos iki 2013 metų gruodžio 23 dienos. Pasisakymų tekstai
sugrupuoti pagal autorius į 147 grupes, todėl tinka individualių autorių autorystės
nustatymo tyrimams; jie suskirstyti pagal autorių amžiaus grupes, lytį ar politines
pažiūras, todėl tinka autorių profilio sudarymo tyrimams. Trumpas tekstas neatskleidžia
jo autoriaus kalbėjimo stiliaus, yra daugiaprasmiškas kitų autorių atžvilgiu, todėl į
tekstyną įtraukti ne trumpesni nei 100 žodžių tekstai. Kiekvieną autorių atitinkantis
tekstų rinkinys turi būti išsamus ir reprezentatyvus, todėl įtraukti autoriai, pasisakę ne
mažiau kaip 200 kartų. Visi tekstai automatiškai lemuoti, morfologiškai bei sintaksiškai
anotuoti, suskaidyti simbolių n-gramomis, surinkta statistinė informacija. Straipsnyje
pademonstruota, kaip sukurtas tekstynas gali būti panaudotas individualių autorių
autorystės nustatymo bei autorių profilio sudarymo tyrimams, naudojant prižiūrimo
mašininio mokymo metodus. Tekstyno struktūra taip pat leidžia taikyti neprižiūrimo
27
mašininio mokymo metodus, patogi taisyklinių-loginių metodų kūrimui bei įvairioms
lingvistinėms analizėms.
Raktažodžiai: Seimo posėdžių stenogramos, autorystės nustatymo tekstynas, stilo
metrija, individualių autorių autorystės nustatymas, autorių profilio nustatymas
1
Įvadas
Kiekvieno žmogaus rašymo stilius (šablonai, naudojami sakinių formavimui, žodyno
turtingumas, frazeologizmai, gramatinės ar sintaksinės klaidos) yra savotiškas jo „piršto
antspaudas“. Rašymo stiliumi pradėta domėtis jau 1439 metais (Renna 2014), o jį
tyrinėjantis stilometrijos mokslas padarė ypač didelį šuolį pastaraisiais dešimtmečiais. Šį
progresą paskatino pats tokių tyrimų poreikis, kurį daugiausia lėmė elektroninių tekstų,
ypač anoniminių, atsiradimas.
Vieni stilometrijos uždaviniai sprendžia konkretaus autoriaus autorystės nustatymo
problemas: pavyzdžiui, teismo lingvistai nagrinėja, kas internetiniame forume atskleidė
konfidencialią įmonės informaciją; kas atsiuntė grasinančio turinio elektroninį laišką,
kurio adresas visiškai neinformatyvus; ar kompiuteryje rastą atsisveikinimo laišką iš
tiesų parašė pats savižudis; kuris iš socialiniame tinkle prisistatančių asmenų iš tiesų
yra užsimaskavęs pedofilas. Kiti stilometrijos uždaviniai apsiriboja autoriaus profilio
sudarymu, t. y. autoriaus charakteristikų, tokių kaip amžius, lytis, socialinis statusas,
gimtoji kalba, emocinė būsena ir kita, nustatymu. Pavyzdžiui, rinkodaros specialistai
siekia išsiaiškinti, kokio amžiaus ar lyties vartotojai labiausiai domisi jų produkcija,
iš kriminalinio teksto ištrauktos charakteristikos apie jo autorių policijos pareigūnams
padeda sudaryti detalesnį įtariamojo portretą.
Jeigu autorystės nustatymas apsiribotų tik autoriaus verifikacijos tyrimais (Koppel ir
Schler 2004, 63), kai turint anoniminį tekstą reikia nustatyti, ar jį parašė mums gerai
pažįstamas autorius, ar ne, jis būtų lengvai įveikiamas žmogui. Uždavinys tampa gerokai
sudėtingesnis, kai turimi keli šimtai ar net tūkstančiai galimų autorių (autorių-kandidatų):
net ir labai reprezentatyvi kiekvieno iš jų rašytų tekstų imtis vargiai padeda nustatyti
naujo nežinomo teksto autorystę. Žmogui tiesiog per sunku apdoroti tokius milžiniškus
informacijos kiekius, atpažinti kiekvieno iš autorių kalbėjimo stilių ypatumus bei surasti
skirtumus tarp jų. Čia į pagalbą ateina automatiniai tyrimo metodai.
2
Autorystės nustatymo tyrimų apžvalga
Visus automatinius autorystės nustatymo metodus galima suskirstyti į taisykliniusloginius (angl. rule-based) ir statistinius – t. y. mašininio mokymo (angl. machine learning)
28
metodus. Taisyklinių-loginių metodų atveju naudojamas žodynas bei rankiniu būdu
žmogaus-eksperto sukonstruoti lingvistinių taisyklių šablonai, kurių dėka ir nustatoma
tekstų autorystė. Mašininio mokymo metodai gali būti prižiūrimi (angl. supervised)
ir neprižiūrimi (angl. unsupervised). Prižiūrimi mašininio mokymo metodai iš anksto
apibrėžtoms tekstų grupėms (grupe gali būti konkretaus autoriaus tekstai, konkretaus
amžiaus grupės autorių tekstai ir pan.) geba automatiškai sukonstruoti skiriančiąsias
taisykles. Neprižiūrimo mašininio mokymo metodai skiriančiąsias taisykles konstruoja
neturėdami informacijos apie tekstų grupes, todėl jų siūlomas „sugrupavimas“ nebūtinai
sutampa su žmogaus skirstymu.
1964 metais paskelbta Mosteller ir Wallace (1964) Federalisto užrašų (pagrindinio
JAV Konstitucijos interpretavimo šaltinio) studija, pasiūliusi alternatyvą tuo metu
populiariems taisykliniams-loginiams metodams, padarė perversmą autorystės nustatymo
tyrimų srityje. Pasiūlyta nauja paradigma – automatiniai prižiūrimo mašininio mokymo
metodai (Kotsiantis 2007), skirti tekstų klasifikavimui (Sebastiani 2002), jie pradėti
taikyti autorystės nustatymo bei autoriaus profilio sudarymo tyrimams (Stamatatos
2009). Šių metodų populiarumą lėmė tai, jog jie efektyviai veikia turint dideles autorių
imtis, kai žmogui-ekspertui tiesiog per sunku surasti skirtumus tarp tiek daug grupių ir
sukonstruoti kiekvieną iš jų apibūdinančius taisyklių šablonus. Norint taikyti prižiūrimo
mašininio mokymo metodus, tereikia turėti mokymo imtį: tekstinių dokumentų aibę
D={d1, d2, .., dn} ir apibrėžtą grupių (vadinamų klasėmis) rinkinį C={c1, c2, ..., cm}, kur
kiekvienas iš dokumentų priskirtas tik vienai jį atitinkančiai klasei: d ∈ c. Individualių
autorių autorystės nustatymo atveju klasių turime tiek, kiek turime autorių-kandidatų.
Autoriaus profilio sudarymo atveju klasifikavimo uždavinį reikia spręsti kiekvienai iš
autorių charakteristikų atskirai, pavyzdžiui, lyties iš teksto nustatymo uždavinio atveju
turime dvi klases: vyrišką bei moterišką; amžiaus nustatymo atveju turime tiek klasių,
kiek yra amžiaus grupių ir t. t. Vėliau kiekvienas tekstinis dokumentas d automatiniu
būdu paverčiamas rinkiniu x = {x1, x2, …, xN}, kurio elementai xi apibūdina skirtingas
teksto savybes. Pavyzdžiui, jei savybėmis xi laikysime visus D tekstuose naudojamus
žodžius, turėsime žodžių rinkinį (angl. bag-of-words), įprastai su įsimintomis tų žodžių
pasi (...truncated)