Stilometriai elemzések
A lenti videodemonstráció egy olyan szövegelemző-rendszert [1] mutat be, amely számos módszert nyújt szövegkorpuszok statisztikai elemzésére például szerzőségi vizsgálatok [2], plágiumdetektálás és más klasszifikációs alkalmazásokban. A rendszer három fő részből áll:
- webes interfész egy R-ben futó elemzőeszközhöz (Stylo), amely számos, részletesen paraméterezhető klasszifikációs módszert kínál szövegkorpuszok elemzésére,
- heurisztikus paraméterbeállító, amely a feltöltött korpuszhoz legjobban illeszkedő módszerek kiválasztását és azok paramétereinek előzetes beállítását végzi, valamint
- paraméteroptimalizáló, amely az elemzési feladat paramétereinek finomhangolását végzi el lokális keresési módszerekkel.
Az alábbi rövid videóban látható a rendszer webes felülete és működése. A példában bemutatjuk egy korpuszon, hogy a paraméterbeállító és az optimalizáló hogyan javítja egy adott klaszterezési feladat eredményeit.
Az eszköz R programnyelven megvalósított eljárásokat tartalmaz, amelyeket egy R Shiny webes felületen keresztül tesz elérhetővé. Az alkalmazás Docker környezetben működik, és integráltuk a DHmine eszköztárunkba is.
Kapcsolódó publikációk
[1] Dobi J. S., Mészáros T., Kiss M., “Shtylo: stilometriai elemzések webes támogatása,” XIV. Magyar Számítógépes Nyelvészeti Konferencia : MSZNY 2018, 2018, pp. 423–436.
[2] Kiss, Margit. "Stilometriai elemzés lehetőségei magyar történeti szövegkorpuszon." Digitális Bölcsészet 2 (2019): 15-T.