Jogi szövegek tezaurusz alapú osztályozása : egy nyelvfüggetlen modell létrehozásának problémái

  • Nyéki Bence
Open PDF
Publication date
January 2021
Language
Hungarian

Abstract

A cikkben jogi szövegek automatikus többcímkés osztályozását vizsgáljuk. A feladat nagy mennyiségű betanító adatot igényel, azonban ha az osztályozás kivitelezhető a többnyelvű EUROVOC tezaurusz terminusai alapján, akkor elméleti lehetőség nyílik arra, hogy egy meghatározott nyelvű korpuszon betanított osztályozó nyelvfüggetlenül működhessen. A bináris relevancia módszerén alapuló osztályozónkat horvát korpuszon tanítottuk be, és bár teljesítménye horvát szövegeken elfogadható, kis méretű annotált magyar mintánkra alkalmazva gyenge eredményt mutatott. Ennek legvalószínűbb oka a horvát és a magyar korpusz közötti különbség a terminus- és címkeeloszlás szempontjából

Extracted data

We use cookies to provide a better user experience.