Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams | Corpus of transcribed parliamentary speeches for authorship attribution and author profiling tasks

Dec 2014

In our paper we present a corpus of transcribed Lithuanian parliamentary speeches. The corpus is prepared in a specific format, appropriate for different authorship identification tasks. The corpus consists of approximately 111 thousand texts (24 million words). Each text matches one parliamentary speech produced during an ordinary session from the period of 7 parliamentary terms starting on March 10, 1990 and ending on December 23, 2013. The texts are grouped into 147 categories corresponding to individual authors, therefore they can be used for authorship attribution tasks; besides, these texts are also grouped according to age, gender and political views, therefore they are also suitable for author profiling tasks. Whereas short texts complicate recognition of author speaking style and are ambiguous in relation to the style of other authors, we incorporated only texts containing not less than 100 words into the corpus. In order to make each category as comprehensive and representative as possible, we included only those authors, who produced speeches at least 200 times. All the texts are lemmatized, morphologically and syntactically annotated, tokenized into the character n-grams. The statistical information of the corpus is also available. We have also demonstrated that the created corpus can be effectively used in authorship attribution and author profiling tasks with supervised machine learning methods. The corpus structure also allows using it with unsupervised machine learning methods and can be used for creation of rule-based methods, as well as in different linguistic analyses.

Article PDF cannot be displayed. You can download it here:

http://www.kalbotyra.flf.vu.lt/wp-content/uploads/2015/01/Kalbotyra_66_27_45.pdf

Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams | Corpus of transcribed parliamentary speeches for authorship attribution and author profiling tasks

ISSN 1392-1517. Online ISSN 2029-8315. KALBOTYRA. 2014 • 66 Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams Jurgita Kapočiūtė-Dzikienė Informatikos fakultetas Vytauto Didžiojo universitetas Vileikos g. 8-511 LT-44404 Kaunas, Lietuva El. paštas: Andrius Utka Kompiuterinės lingvistikos centras Vytauto Didžiojo universitetas K. Donelaičio g. 52-206 LT-44244 Kaunas, Lietuva El. paštas: Ligita Šarkutė Viešosios politikos ir administravimo institutas Kauno technologijos universitetas K. Donelaičio g. 20-217 LT-44239 Kaunas, Lietuva El. paštas: Anotacija Straipsnyje pristatome Seimo posėdžių stenogramų tekstyną, parengtą specialiu formatu, tinkančiu įvairiems autorystės nustatymo tyrimams. Tekstyną sudaro apie 111 tūkstančių tekstų (24 milijonai žodžių), kurių kiekvienas atitinka vieną parlamentaro pasisakymą eilinės sesijos posėdžio metu bei apima 7 Lietuvos Respublikos Seimo kadencijas: nuo 1990 metų kovo 10 dienos iki 2013 metų gruodžio 23 dienos. Pasisakymų tekstai sugrupuoti pagal autorius į 147 grupes, todėl tinka individualių autorių autorystės nustatymo tyrimams; jie suskirstyti pagal autorių amžiaus grupes, lytį ar politines pažiūras, todėl tinka autorių profilio sudarymo tyrimams. Trumpas tekstas neatskleidžia jo autoriaus kalbėjimo stiliaus, yra daugiaprasmiškas kitų autorių atžvilgiu, todėl į tekstyną įtraukti ne trumpesni nei 100 žodžių tekstai. Kiekvieną autorių atitinkantis tekstų rinkinys turi būti išsamus ir reprezentatyvus, todėl įtraukti autoriai, pasisakę ne mažiau kaip 200 kartų. Visi tekstai automatiškai lemuoti, morfologiškai bei sintaksiškai anotuoti, suskaidyti simbolių n-gramomis, surinkta statistinė informacija. Straipsnyje pademonstruota, kaip sukurtas tekstynas gali būti panaudotas individualių autorių autorystės nustatymo bei autorių profilio sudarymo tyrimams, naudojant prižiūrimo mašininio mokymo metodus. Tekstyno struktūra taip pat leidžia taikyti neprižiūrimo 27 mašininio mokymo metodus, patogi taisyklinių-loginių metodų kūrimui bei įvairioms lingvistinėms analizėms. Raktažodžiai: Seimo posėdžių stenogramos, autorystės nustatymo tekstynas, stilo metrija, individualių autorių autorystės nustatymas, autorių profilio nustatymas 1 Įvadas Kiekvieno žmogaus rašymo stilius (šablonai, naudojami sakinių formavimui, žodyno turtingumas, frazeologizmai, gramatinės ar sintaksinės klaidos) yra savotiškas jo „piršto antspaudas“. Rašymo stiliumi pradėta domėtis jau 1439 metais (Renna 2014), o jį tyrinėjantis stilometrijos mokslas padarė ypač didelį šuolį pastaraisiais dešimtmečiais. Šį progresą paskatino pats tokių tyrimų poreikis, kurį daugiausia lėmė elektroninių tekstų, ypač anoniminių, atsiradimas. Vieni stilometrijos uždaviniai sprendžia konkretaus autoriaus autorystės nustatymo problemas: pavyzdžiui, teismo lingvistai nagrinėja, kas internetiniame forume atskleidė konfidencialią įmonės informaciją; kas atsiuntė grasinančio turinio elektroninį laišką, kurio adresas visiškai neinformatyvus; ar kompiuteryje rastą atsisveikinimo laišką iš tiesų parašė pats savižudis; kuris iš socialiniame tinkle prisistatančių asmenų iš tiesų yra užsimaskavęs pedofilas. Kiti stilometrijos uždaviniai apsiriboja autoriaus profilio sudarymu, t. y. autoriaus charakteristikų, tokių kaip amžius, lytis, socialinis statusas, gimtoji kalba, emocinė būsena ir kita, nustatymu. Pavyzdžiui, rinkodaros specialistai siekia išsiaiškinti, kokio amžiaus ar lyties vartotojai labiausiai domisi jų produkcija, iš kriminalinio teksto ištrauktos charakteristikos apie jo autorių policijos pareigūnams padeda sudaryti detalesnį įtariamojo portretą. Jeigu autorystės nustatymas apsiribotų tik autoriaus verifikacijos tyrimais (Koppel ir Schler 2004, 63), kai turint anoniminį tekstą reikia nustatyti, ar jį parašė mums gerai pažįstamas autorius, ar ne, jis būtų lengvai įveikiamas žmogui. Uždavinys tampa gerokai sudėtingesnis, kai turimi keli šimtai ar net tūkstančiai galimų autorių (autorių-kandidatų): net ir labai reprezentatyvi kiekvieno iš jų rašytų tekstų imtis vargiai padeda nustatyti naujo nežinomo teksto autorystę. Žmogui tiesiog per sunku apdoroti tokius milžiniškus informacijos kiekius, atpažinti kiekvieno iš autorių kalbėjimo stilių ypatumus bei surasti skirtumus tarp jų. Čia į pagalbą ateina automatiniai tyrimo metodai. 2 Autorystės nustatymo tyrimų apžvalga Visus automatinius autorystės nustatymo metodus galima suskirstyti į taisykliniusloginius (angl. rule-based) ir statistinius – t. y. mašininio mokymo (angl. machine learning) 28 metodus. Taisyklinių-loginių metodų atveju naudojamas žodynas bei rankiniu būdu žmogaus-eksperto sukonstruoti lingvistinių taisyklių šablonai, kurių dėka ir nustatoma tekstų autorystė. Mašininio mokymo metodai gali būti prižiūrimi (angl. supervised) ir neprižiūrimi (angl. unsupervised). Prižiūrimi mašininio mokymo metodai iš anksto apibrėžtoms tekstų grupėms (grupe gali būti konkretaus autoriaus tekstai, konkretaus amžiaus grupės autorių tekstai ir pan.) geba automatiškai sukonstruoti skiriančiąsias taisykles. Neprižiūrimo mašininio mokymo metodai skiriančiąsias taisykles konstruoja neturėdami informacijos apie tekstų grupes, todėl jų siūlomas „sugrupavimas“ nebūtinai sutampa su žmogaus skirstymu. 1964 metais paskelbta Mosteller ir Wallace (1964) Federalisto užrašų (pagrindinio JAV Konstitucijos interpretavimo šaltinio) studija, pasiūliusi alternatyvą tuo metu populiariems taisykliniams-loginiams metodams, padarė perversmą autorystės nustatymo tyrimų srityje. Pasiūlyta nauja paradigma – automatiniai prižiūrimo mašininio mokymo metodai (Kotsiantis 2007), skirti tekstų klasifikavimui (Sebastiani 2002), jie pradėti taikyti autorystės nustatymo bei autoriaus profilio sudarymo tyrimams (Stamatatos 2009). Šių metodų populiarumą lėmė tai, jog jie efektyviai veikia turint dideles autorių imtis, kai žmogui-ekspertui tiesiog per sunku surasti skirtumus tarp tiek daug grupių ir sukonstruoti kiekvieną iš jų apibūdinančius taisyklių šablonus. Norint taikyti prižiūrimo mašininio mokymo metodus, tereikia turėti mokymo imtį: tekstinių dokumentų aibę D={d1, d2, .., dn} ir apibrėžtą grupių (vadinamų klasėmis) rinkinį C={c1, c2, ..., cm}, kur kiekvienas iš dokumentų priskirtas tik vienai jį atitinkančiai klasei: d ∈ c. Individualių autorių autorystės nustatymo atveju klasių turime tiek, kiek turime autorių-kandidatų. Autoriaus profilio sudarymo atveju klasifikavimo uždavinį reikia spręsti kiekvienai iš autorių charakteristikų atskirai, pavyzdžiui, lyties iš teksto nustatymo uždavinio atveju turime dvi klases: vyrišką bei moterišką; amžiaus nustatymo atveju turime tiek klasių, kiek yra amžiaus grupių ir t. t. Vėliau kiekvienas tekstinis dokumentas d automatiniu būdu paverčiamas rinkiniu x = {x1, x2, …, xN}, kurio elementai xi apibūdina skirtingas teksto savybes. Pavyzdžiui, jei savybėmis xi laikysime visus D tekstuose naudojamus žodžius, turėsime žodžių rinkinį (angl. bag-of-words), įprastai su įsimintomis tų žodžių pasi (...truncated)


This is a preview of a remote PDF: http://www.kalbotyra.flf.vu.lt/wp-content/uploads/2015/01/Kalbotyra_66_27_45.pdf
Article home page: https://doaj.org/article/d4f79e01ead64882b1c90f792dc26b15

Jurgita Kapočiūtė-Dzikienė, Andrius Utka, Ligita Šarkutė. Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams | Corpus of transcribed parliamentary speeches for authorship attribution and author profiling tasks, 2014, pp. 27-45, Issue 66,