Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams | Corpus of transcribed parliamentary speeches for authorship attribution and author profiling tasks (pdf)

Article PDF cannot be displayed. You can download it here:

http://www.kalbotyra.flf.vu.lt/wp-content/uploads/2015/01/Kalbotyra_66_27_45.pdf

Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams | Corpus of transcribed parliamentary speeches for authorship attribution and author profiling tasks

ISSN 1392-1517. Online ISSN 2029-8315. KALBOTYRA. 2014 • 66 Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams Jurgita Kapočiūtė-Dzikienė Informatikos fakultetas Vytauto Didžiojo universitetas Vileikos g. 8-511 LT-44404 Kaunas, Lietuva El. paštas: Andrius Utka Kompiuterinės lingvistikos centras Vytauto Didžiojo universitetas K. Donelaičio g. 52-206 LT-44244 Kaunas, Lietuva El. paštas: Ligita Šarkutė Viešosios politikos ir administravimo institutas Kauno technologijos universitetas K. Donelaičio g. 20-217 LT-44239 Kaunas, Lietuva El. paštas: Anotacija Straipsnyje pristatome Seimo posėdžių stenogramų tekstyną, parengtą specialiu formatu, tinkančiu įvairiems autorystės nustatymo tyrimams. Tekstyną sudaro apie 111 tūkstančių tekstų (24 milijonai žodžių), kurių kiekvienas atitinka vieną parlamentaro pasisakymą eilinės sesijos posėdžio metu bei apima 7 Lietuvos Respublikos Seimo kadencijas: nuo 1990 metų kovo 10 dienos iki 2013 metų gruodžio 23 dienos. Pasisakymų tekstai sugrupuoti pagal autorius į 147 grupes, todėl tinka individualių autorių autorystės nustatymo tyrimams; jie suskirstyti pagal autorių amžiaus grupes, lytį ar politines pažiūras, todėl tinka autorių profilio sudarymo tyrimams. Trumpas tekstas neatskleidžia jo autoriaus kalbėjimo stiliaus, yra daugiaprasmiškas kitų autorių atžvilgiu, todėl į tekstyną įtraukti ne trumpesni nei 100 žodžių tekstai. Kiekvieną autorių atitinkantis tekstų rinkinys turi būti išsamus ir reprezentatyvus, todėl įtraukti autoriai, pasisakę ne mažiau kaip 200 kartų. Visi tekstai automatiškai lemuoti, morfologiškai bei sintaksiškai anotuoti, suskaidyti simbolių n-gramomis, surinkta statistinė informacija. Straipsnyje pademonstruota, kaip sukurtas tekstynas gali būti panaudotas individualių autorių autorystės nustatymo bei autorių profilio sudarymo tyrimams, naudojant prižiūrimo mašininio mokymo metodus. Tekstyno struktūra taip pat leidžia taikyti neprižiūrimo 27 mašininio mokymo metodus, patogi taisyklinių-loginių metodų kūrimui bei įvairioms lingvistinėms analizėms. Raktažodžiai: Seimo posėdžių stenogramos, autorystės nustatymo tekstynas, stilo metrija, individualių autorių autorystės nustatymas, autorių profilio nustatymas 1 Įvadas Kiekvieno žmogaus rašymo stilius (šablonai, naudojami sakinių formavimui, žodyno turtingumas, frazeologizmai, gramatinės ar sintaksinės klaidos) yra savotiškas jo „piršto antspaudas“. Rašymo stiliumi pradėta domėtis jau 1439 metais (Renna 2014), o jį tyrinėjantis stilometrijos mokslas padarė ypač didelį šuolį pastaraisiais dešimtmečiais. Šį progresą paskatino pats tokių tyrimų poreikis, kurį daugiausia lėmė elektroninių tekstų, ypač anoniminių, atsiradimas. Vieni stilometrijos uždaviniai sprendžia konkretaus autoriaus autorystės nustatymo problemas: pavyzdžiui, teismo lingvistai nagrinėja, kas internetiniame forume atskleidė konfidencialią įmonės informaciją; kas atsiuntė grasinančio turinio elektroninį laišką, kurio adresas visiškai neinformatyvus; ar kompiuteryje rastą atsisveikinimo laišką iš tiesų parašė pats savižudis; kuris iš socialiniame tinkle prisistatančių asmenų iš tiesų yra užsimaskavęs pedofilas. Kiti stilometrijos uždaviniai apsiriboja autoriaus profilio sudarymu, t. y. autoriaus charakteristikų, tokių kaip amžius, lytis, socialinis statusas, gimtoji kalba, emocinė būsena ir kita, nustatymu. Pavyzdžiui, rinkodaros specialistai siekia išsiaiškinti, kokio amžiaus ar lyties vartotojai labiausiai domisi jų produkcija, iš kriminalinio teksto ištrauktos charakteristikos apie jo autorių policijos pareigūnams padeda sudaryti detalesnį įtariamojo portretą. Jeigu autorystės nustatymas apsiribotų tik autoriaus verifikacijos tyrimais (Koppel ir Schler 2004, 63), kai turint anoniminį tekstą reikia nustatyti, ar jį parašė mums gerai pažįstamas autorius, ar ne, jis būtų lengvai įveikiamas žmogui. Uždavinys tampa gerokai sudėtingesnis, kai turimi keli šimtai ar net tūkstančiai galimų autorių (autorių-kandidatų): net ir labai reprezentatyvi kiekvieno iš jų rašytų tekstų imtis vargiai padeda nustatyti naujo nežinomo teksto autorystę. Žmogui tiesiog per sunku apdoroti tokius milžiniškus informacijos kiekius, atpažinti kiekvieno iš autorių kalbėjimo stilių ypatumus bei surasti skirtumus tarp jų. Čia į pagalbą ateina automatiniai tyrimo metodai. 2 Autorystės nustatymo tyrimų apžvalga Visus automatinius autorystės nustatymo metodus galima suskirstyti į taisykliniusloginius (angl. rule-based) ir statistinius – t. y. mašininio mokymo (angl. machine learning) 28 metodus. Taisyklinių-loginių metodų atveju naudojamas žodynas bei rankiniu būdu žmogaus-eksperto sukonstruoti lingvistinių taisyklių šablonai, kurių dėka ir nustatoma tekstų autorystė. Mašininio mokymo metodai gali būti prižiūrimi (angl. supervised) ir neprižiūrimi (angl. unsupervised). Prižiūrimi mašininio mokymo metodai iš anksto apibrėžtoms tekstų grupėms (grupe gali būti konkretaus autoriaus tekstai, konkretaus amžiaus grupės autorių tekstai ir pan.) geba automatiškai sukonstruoti skiriančiąsias taisykles. Neprižiūrimo mašininio mokymo metodai skiriančiąsias taisykles konstruoja neturėdami informacijos apie tekstų grupes, todėl jų siūlomas „sugrupavimas“ nebūtinai sutampa su žmogaus skirstymu. 1964 metais paskelbta Mosteller ir Wallace (1964) Federalisto užrašų (pagrindinio JAV Konstitucijos interpretavimo šaltinio) studija, pasiūliusi alternatyvą tuo metu populiariems taisykliniams-loginiams metodams, padarė perversmą autorystės nustatymo tyrimų srityje. Pasiūlyta nauja paradigma – automatiniai prižiūrimo mašininio mokymo metodai (Kotsiantis 2007), skirti tekstų klasifikavimui (Sebastiani 2002), jie pradėti taikyti autorystės nustatymo bei autoriaus profilio sudarymo tyrimams (Stamatatos 2009). Šių metodų populiarumą lėmė tai, jog jie efektyviai veikia turint dideles autorių imtis, kai žmogui-ekspertui tiesiog per sunku surasti skirtumus tarp tiek daug grupių ir sukonstruoti kiekvieną iš jų apibūdinančius taisyklių šablonus. Norint taikyti prižiūrimo mašininio mokymo metodus, tereikia turėti mokymo imtį: tekstinių dokumentų aibę D={d1, d2, .., dn} ir apibrėžtą grupių (vadinamų klasėmis) rinkinį C={c1, c2, ..., cm}, kur kiekvienas iš dokumentų priskirtas tik vienai jį atitinkančiai klasei: d ∈ c. Individualių autorių autorystės nustatymo atveju klasių turime tiek, kiek turime autorių-kandidatų. Autoriaus profilio sudarymo atveju klasifikavimo uždavinį reikia spręsti kiekvienai iš autorių charakteristikų atskirai, pavyzdžiui, lyties iš teksto nustatymo uždavinio atveju turime dvi klases: vyrišką bei moterišką; amžiaus nustatymo atveju turime tiek klasių, kiek yra amžiaus grupių ir t. t. Vėliau kiekvienas tekstinis dokumentas d automatiniu būdu paverčiamas rinkiniu x = {x1, x2, …, xN}, kurio elementai xi apibūdina skirtingas teksto savybes. Pavyzdžiui, jei savybėmis xi laikysime visus D tekstuose naudojamus žodžius, turėsime žodžių rinkinį (angl. bag-of-words), įprastai su įsimintomis tų žodžių pasi (...truncated)