MI tanulmányi verseny 2022: álhírek detektálása

Álhírek felismerése magyar nyelvű hírekben és tweetekben

A Villamosmérnöki és Informatikai Karon évente megrendezett mesterséges intelligencia hallgatói verseny idei célja az volt, hogy magyar nyelvű rövid cikkekben álhíreket tartalmazó bejegyzéseket detektáljanak a versenyzők.

Szervező: Mesterséges Intelligencia Kutatócsoport, Méréstechnika és Információs Rendszerek Tanszék.

A verseny időpontja és helyszíne: 2022. november 23. Online (csapatok).

Adatok

A kihívás fókuszának leszűkítése érdekében a Covid-járványhoz kapcsolódó dokumentumokat gyűjtöttünk össze. Meglehetősen nehéz feladat volt egy kellően nagy, validált, magyar nyelvű adathalmaz összeállítása, amely lehetővé teszi statisztikai és gépi tanulási modellek tanítását. Mivel a gépi fordítási technikák az elmúlt évtizedben jelentősen fejlődtek, úgy döntöttünk, hogy validált angol nyelvű szövegeket gyűjtünk és fordítunk magyarra.

Az alapkorpuszt két angol nyelvű álhír-adatkészletből hoztuk létre, a fordítást pedig a Deepl segítségével végeztük, amely meglepően jól teljesített angol-magyar fordításban. Ezt követően a korpuszt kibővítettük magyar újságokból és online forrásokból származó szövegekkel.

Az így kapott korpusz nagyjából 10 ezer dokumentumot tartalmaz (ezek fele álhírként van címkézve). A dokumentumok átlagos hossza körülbelül 630 karakter.

A feladat

A feladat egy offline rendszer kifejlesztése volt álhírek felismerésére magyar nyelvű szövegekben egy adott teljesítménymetrika-készlet maximalizálása mellett. A Python programozási környezetet részesítettük előnyben a szokásos adattudományi, gépi tanulási és NLP könyvtárakkal.

Eredmények

A legjobban teljesítő eszköz 99%-os pontosságot (AUPRC) ért el egy előre betanított huBERT modell finomításával.
Az egyszerű bag-of-words modellek SVM / PassiveAgressive osztályozókkal, illetve a magyar szövegeken előtanított Spacy SVM-mel 95% körüli teljesítményt nyújtottak, amennyiben megfelelő előfeldolgozást (stopszavak kiszűrését, szótövesítést) alkalmaztak.