Málfræðilegur markari

Til þess að unnt sé að koma upp málfræðilega greindum mál- og textasöfnum eins og Markaðri íslenskri málheild er nauðsynlegt að ráða yfir aðferðum til þess að marka textana vélrænt.  Mörkun felst í því að greina allar orðmyndir sem koma fyrir í textunum málfræðilega, t.d. eftir orðflokki og beygingu, og færa greininguna inn í málheildina. Handvirk greining af þessu tagi er mjög seinvirk og það er nánast óvinnandi verk að greina textasafn með mörgum milljónum orða á þann hátt. Það hefur því lengi verið keppikefli að þróa vélrænar greiningaraðferðir og það hefur verið eitt af  helstu viðfangsefnum þeirra sem fást við tungutækni.

Á árunum 2002-2003 var unnið að því að gera málfræðilegan markara fyrir íslensku. Að verkinu stóð svonefndur Málgreiningarhópur ásamt Orðabók Háskólans og það var styrkt af tungutækniverkefni  menntamálaráðuneytisins. Í vinnuhópnum voru Auður Rögnvaldsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarnadóttir og Sigrún Helgadóttir. Eiríkur Rögnvaldsson var verkefnisstjóri og Sigrún Helgadóttir og Auður Rögnvaldsdóttir unnu mestan hluta verksins.

Verkefnið fólst aðallega í því að prófa ýmsar vélrænar aðferðir við mörkun íslensks texta. Við prófunina var notað textasafn með um 500.000 orðum sem hafði verið greint fyrir gerð Íslenskrar orðtíðnibókar sem Orðabók Háskólans gaf út 1991. Vélrænar aðferðir við mörkun eru venjulega flokkaðar í tvo flokka, regluaðferðir og gagnaaðferðir sem byggjast á fyrir fram greindu textasafni. Þrjár aðferðir af seinni gerðinni voru prófaðar á efnivið orðtíðnibókarinnar. Sérstakt forrit er þá látið læra af gögnum sem þegar hafa verið greind og búa til líkan út frá þeim.

Markmið verkefnisins var að finna aðferð eða aðferðir sem nota mætti við mörkun íslensks texta og ná a.m.k. 92% nákvæmni. Með því að beita fleiri en einni aðferð og gera ýmsar aðrar ráðstafanir tókst að ná 93,65% nákvæmni við mörkun á texta orðtíðnibókarinnar. Verkinu lauk með lokaskýrslu í febrúar 2004. Meginefni skýrslunnar er aðgengilegt í grein eftir Sigrúnu Helgadóttur (2007).


Heimildir um verkefnið
Sigrún Helgadóttir. 2004a. Markari fyrir íslenskan texta (pdf). Í bæklingnum Samspil tungu og tækni. Afrakstur tungutækniverkefnis menntamálaráðuneytisins, bls. 55-63. Reykjavík: Menntamálaráðuneytið.


Sigrún Helgadóttir. 2004b. Testing Data-Driven Learning Algorithms for PoS Tagging of Icelandic (pdf). Í Holmboe, Henrik (ritstj.). Nordisk Sprogteknologi 2004. Årbog for Nordisk Sprogteknologisk Forskningsprogram 2000-2004, bls. 257-265. København: Museum Tusculanums Forlag, Københavns Universitet.

Sigrún Helgadóttir. 2007. Mörkun íslensks texta (pdf). Orð og tunga 9: 75-107.