Tölvutækur merkingarbrunnur fyrir íslenska máltækni. Grunnur lagður að því að tölvur skilji merkingu í íslenskum textum.

Anna B. Nikulásdóttir

Í þessari grein er fjallað um tölvutækan gagnagrunn með merkingarupplýsingum orða fyrir íslenska máltækni. Gagnagrunnurinn Íslenskur merkingarbrunnur er unnin með sjálfvirkum aðferðum, sem vinna merkingarupplýsingar úr stóru textasafni. Notaðar eru aðferðir sem byggjast á mynsturgreiningu og tölfræði sem og blandaðar aðferðir. Gagnagrunnurinn inniheldur nú um 134 þúsund orð, fyrst og fremst nafnorð, og vel á aðra milljón merkingarvensla. Síðasta verkþættinum í þróun gagnagrunnsins fyrir fyrstu útgáfu er þó enn ólokið og gætu þessar tölur því breyst. Niðurstöður mismunandi aðferða til greiningar merkingarvensla verða bornar saman og þær nýttar til þess að styðja eða hrekja einstök vensl.

Formgerð merkingarbrunnsins er ekki sambærileg við hefðbundin orðanet eins og Princeton WordNet fyrir ensku (http://www.princeton.edu/wordnet), sem byggist fyrst og fremst á yfirheitastigveldum. Merkingarbrunnurinn inniheldur svokallaðar þyrpingar af merkingarlega tengdum orðum, hefðbundin merkingarvensl sem og vensl sem lýsa almennri þekkingu og hugmyndatengslum.

Fyrsta útgáfa merkingarbrunnsins var tilbúin við upphaf ársins 2012 og er hún öllum aðgengileg.