Skip to main content

Íslensk tunga á tækniöld

Sérfræðingar í máltækni, málfræðingar og aðrir sem starfa innan máltækni sinna afar mikilvægu starfi í þágu tungumálsins, ekki síst þegar litið er til þess hversu hraða tækniþróun við búum við. Engu að síður vita ekki allir eða skilja fyllilega hvað máltækni er. Orðið er þó tiltölulega gagnsætt þegar við vitum hvað liggur að baki. Í Íðorðabankanum má finna eftirfarandi skilgreiningu á máltækni:

Samvinna tungumáls og tölvutækni í hagnýtum tilgangi, samvinna sem beinist að því að hanna eða útbúa einhvern hugbúnað eða tæki sem nýtist mönnum í starfi eða leik. Þessi samvinna getur bæði falist í notkun tölvutækninnar í þágu tungumálsins og í notkun tungumálsins innan tölvutækninnar. Innan [máltækni] er m.a. unnið með hvers kyns taltækni, þáttun, mörkun, málmyndun og vélrænar þýðingar.

Sérfræðingar í máltækni vinna með öðrum orðum að samþættingu tungumáls og tækni. Það má því segja að starf þeirra sé að mörgu leyti mikilvægur grundvöllur fyrir lífvænleika íslenskrar tungu á tækniöld.

Eitt stærsta verkefnið sem máltæknihópur Stofnunar Árna Magnússonar í íslenskum fræðum vinnur að er Risamálheildin. Risamálheildin er textasafn sem er meðal annars nýtt í málrannsóknir og ýmis máltækniverkefni. Málheildin inniheldur meira en 1.550 milljónir lesmálsorða og áætlað er að hún muni stækka um 30% á þessu ári. Til samanburðar inniheldur meðallöng skáldsaga um 60 þúsund orð sem þýðir að textamagnið í málheildinni er á við 25 þúsund bækur. Textarnir í Risamálheildinni eru af ýmsum toga en hún inniheldur meðal annars texta úr flestum íslenskum fréttamiðlum og allar ræður sem haldnar hafa verið á Alþingi frá miðri tuttugustu öld. Hjá Árnastofnun er nú unnið að stækkun Risamálheildarinnar innan máltækniáætlunar stjórnvalda fyrir íslensku. Máltækniáætlunin er eitt stærsta verkefni sem gögn Risamálheildarinnar nýtast í en þau eru notuð í flestum kjarnaverkefnum áætlunarinnar. Máltæknihópur Árnastofnunar vinnur því að mikilvægum grunni fyrir íslenskuvæðingu tækja og tækni.

            Í máltæknihópnum hefur verið unnið að ýmsum fleiri gagnagrunnum sem nýtast í máltækni. Íslenskt orðanet sýnir hvernig merking orða tengist og hvaða orð og orðasambönd eru merkingarlega skyld öðrum. Beygingarlýsing íslensks nútímamáls (BÍN) er ekki aðeins vinsæll uppflettigrunnur á netinu, sem inniheldur yfir 300 þúsund orð þegar þetta er ritað, heldur hefur hún líka reynst ómissandi undirstaða fjölbreytilegustu verkefna í máltækni, ekki síst við hvers kyns málfræðilega greiningu íslensks texta. Þessi gagnasöfn eru notuð samhliða Risamálheildinni, til dæmis til þess að kenna tækjum og forritum að mismunandi beygingarmyndir orðs eru ekki aðskilin orð sem meðal annars er mikilvægt í þeim tilgangi að kenna tækjum að skilja það sem við skrifum og segjum. Dæmi um máltækniverkefni sem byggir að hluta á BÍN er opni hugbúnaðurinn Greynir. Hugbúnaðurinn er undirstaða smáforritsins Emblu sem svipar til forritanna Siri hjá Apple og Alexu hjá Amazon en líkt og þær svarar Embla spurningum sem lagðar eru fyrir hana. Sérstaða Emblu er þó að hægt er að tala og fá svör á okkar ástkæra, ylhýra. Hægt er að spyrja Emblu um veðrið á Akureyri eða hvenær von er á næsta strætó svo fátt eitt sé nefnt.

            Í hröðum tækniheimi þar sem flest þau tæki sem við notum eru á ensku skiptir þróun forrita eins og Emblu miklu máli. Tölvur, tæki og forrit skipa stóran sess í daglegu lífi okkar og er einsýnt að sú þróun mun halda áfram. Til þess að viðhalda íslenskri tungu er því mikilvægt að tæknin sé okkur aðgengileg á móðurmálinu. Verkefni Árnastofnunar á sviði máltækni skapa grunninn að því að gera þau markmið að veruleika.

Fjóla K. Guðmundsdóttir

 

Þetta er hluti af greinaröð um máltækniverkefni innan Stofnunar Árna Magnússonar í íslenskum fræðum.

Grein 2: Tækni í þágu orðabókargerðar →