Íslenskt orðanet

 

Höfundur: Jón Hilmar Jónsson

 

Íslenskt orðanet er rannsóknarverkefni sem miðar að því að ná fram samfelldu yfirliti í orðabókarbúningi um íslenskan orðaforða og innra samhengi hans, þar sem byggt á greiningu á merkingarvenslum íslenskra orða og orðasambanda. Gengið er út frá þeirri forsendu að lesa megi merkingarvensl orða út úr setningarlegum og orðmyndunarlegum venslum þeirra eins og þau birtast í orðasamböndum og samsetningum. Í upphafi lá til grundvallar safn orðasambanda og samsetninga með samræmdri framsetningu sem hefur að geyma rösklega 200 þúsund orðasambönd af ólíku tagi og um 100 þúsund samsetningar. Þetta safn sameinar gagnaefni Stóru orðabókarinnar um íslenska málnotkun (2005) og Orðasambandaskrá Stofnunar Árna Magnússonar í íslenskum fræðum (áður Orðabókar Háskólans).  Til viðbótar þessu efni hefur mjög verið  leitað fanga í stafrænum textasöfnum og málheildum,  einkum í safninu Tímarit.is og Markaðri íslenskri málheild. Allt þetta efni er tengt flettulista sem sameinar um 250 þúsund einyrtar og fleiryrtar flettur.

Merkingarvenslin sem um ræðir eru af ólíku tagi. Auk hefðbundinnar greiningar samheita og andheita er lögð áhersla á að sýna stöðu einstakra flettna gagnvart merkingarlega nálægum flettum. Venslategundirnar skyldheiti og grannheiti gegna því hlutverki, þar sem byggt er á vélrænni greiningu og úrvinnslu notkunardæma. Niðurstaða greiningarinnar er sýnd á myndrænan hátt og er studd tölulegum upplýsingum. Víðtækasta merkingarflokkun orðaforðans skipar flettunum í hugtök  sem sameina ólíka orðflokka.

Fletturnar eru merkingarlega einræðar og það hefur mótandi áhrif á lýsingu merkingarvenslanna. Einræðingin hefur m.a. víðtæk áhrif á flettumyndir sagna þar sem rökliðirnir hverju sinni eru hluti af flettustrengnum og sagnasambönd af ýmsu tagi fá sjálfstæða stöðu innan flettulistans.

Í almennum orðabókum koma einstök flettiorð fram sem formbundnar einingar og geta búið yfir mörgum ólíkum merkingarbrigðum sem eftir atvikum er skipað í aðgreinda merkingarliði. Í Íslensku orðaneti er orðið og flettan hins vegar í brennidepli sem merkingarleg eining. Því á ekki við að setja umfangi flettulistans sérstakar hömlur heldur ræðst gildi flettnanna af því hvort þær eru í sýnilegum venslum við aðrar flettur.

Fleiryrtar flettur (merkingarbær orðasambönd) eru fyrirferðarmiklar í flettulista orðanetsins. Samræmd framsetning þeirra gefur færi á að marka flettustrengina setningarlega og ná með því fram virku samspili setningarlegrar og merkingarlegrar flokkunar. Setningargerðin kemur fram við hverja og eina flettu og þar má kalla má fram heildarlista flettna með sömu setningargerð.

Orðanetið veitir fjölbreytta innsýn í íslenskan orðaforða og orðanotkun. Frá hagnýtu sjónarmiði sameinar það hlutverk samheita- og hugtakaorðabókar  og kemur þar með að beinum notum við ritun og textagerð, hvort sem er í námi, leik eða starfi.

Greining efnisins sem orðanetið byggist á fer fram jafnt og þétt og myndin af einstökum flettum og hugtökum er þar með síkvik. Um leið er lýsing flettnanna misjafnlega fjölbreytt og yfirgripsmikil. Sumar koma fram í mörgum tegundum vensla, aðrar eiga sér (enn) færri vensl.
 

 

Kerfisvinna og forritun, hönnun vefsíðu:
Bjarki Karlsson

Ráðgjöf:
Steinþór Steingrímsson

Skipulagning, gagnavinnsla og gagnagreining á fyrri stigum:
Þórdís Úlfarsdóttir

Gerð gagnagrunns og ritstjórnarumhverfis, fyrsta vefsíða:
Ragnar Hafstað

Gagnagreining:
Ásdís Þórsdóttir, Gísli Rúnar Harðarson, Sunna Mímisdóttir, Tinna Sigurðardóttir, Þórhalla Beck Guðmundsdóttir

Forritun:
Stefán Ólafsson

Myndbandagerð og hljóðupptökur:
Skot Productions

Teikningar:
Bjarni Guðmundsson