MI tanulmányi verseny 2022: álhírek detektálása
Álhírek felismerése magyar nyelvű hírekben és tweetekben
A Villamosmérnöki és Informatikai Karon évente megrendezett mesterséges intelligencia hallgatói verseny idei célja az volt, hogy magyar nyelvű rövid cikkekben álhíreket tartalmazó bejegyzéseket detektáljanak a versenyzők.
Szervező: Mesterséges Intelligencia Kutatócsoport, Méréstechnika és Információs Rendszerek Tanszék.
A verseny időpontja és helyszíne: 2022. november 23. Online (csapatok).
Adatok
A kihívás fókuszának leszűkítése érdekében a Covid-járványhoz kapcsolódó dokumentumokat gyűjtöttünk össze. Meglehetősen nehéz feladat volt egy kellően nagy, validált, magyar nyelvű adathalmaz összeállítása, amely lehetővé teszi statisztikai és gépi tanulási modellek tanítását. Mivel a gépi fordítási technikák az elmúlt évtizedben jelentősen fejlődtek, úgy döntöttünk, hogy validált angol nyelvű szövegeket gyűjtünk és fordítunk magyarra.
Az alapkorpuszt két angol nyelvű álhír-adatkészletből hoztuk létre, a fordítást pedig a Deepl segítségével végeztük, amely meglepően jól teljesített angol-magyar fordításban. Ezt követően a korpuszt kibővítettük magyar újságokból és online forrásokból származó szövegekkel.
Az így kapott korpusz nagyjából 10 ezer dokumentumot tartalmaz (ezek fele álhírként van címkézve). A dokumentumok átlagos hossza körülbelül 630 karakter.
A feladat
A feladat egy offline rendszer kifejlesztése volt álhírek felismerésére magyar nyelvű szövegekben egy adott teljesítménymetrika-készlet maximalizálása mellett. A Python programozási környezetet részesítettük előnyben a szokásos adattudományi, gépi tanulási és NLP könyvtárakkal.
Eredmények
A legjobban teljesítő eszköz 99%-os pontosságot (AUPRC) ért el egy előre betanított huBERT modell finomításával.
Az egyszerű bag-of-words modellek SVM / PassiveAgressive osztályozókkal, illetve a magyar szövegeken előtanított Spacy SVM-mel 95% körüli teljesítményt nyújtottak, amennyiben megfelelő előfeldolgozást (stopszavak kiszűrését, szótövesítést) alkalmaztak.