Skip to main content

Pistlar

Notkun Risamálheildarinnar í málfræðirannsóknum

Risamálheildin á tölvuskjá.

Risamálheildin, sem unnin er á Árnastofnun, er stórt safn texta sem hafa verið greindir á málfræðilegan hátt. Þegar farið er inn á slóðina malheildir.arnastofnun.is opnast sjálfkrafa leitarviðmót fyrir nýjustu gerð Risamálheildarinnar, frá 2024, en þar er einnig hægt að leita í fyrri útgáfum hennar og ýmsum öðrum málheildum. Textarnir í málheildinni eru fjölbreyttir og er þeim raunar skipt í undirmálheildir. Þannig er hægt að leita sérstaklega í t.d. alþingisræðum, fréttatextum eða textum um fótbolta. Risamálheildin hefur stórbætt umhverfi til íslenskra málfræðiathugana af ýmsum toga. Hér verður bent á nokkra þeirra möguleika sem bjóðast í leitarviðmótinu og hverri athugun fylgir síðan myndband þar sem ýmislegt af því sem lýst er í textanum er sýnt í verki.

1. Einföld og útvíkkuð leit – orðmyndir í mismunandi málheildum: sögnin skapa

Málfræðileg greining textanna í Risamálheildinni gerir notendum kleift að skoða málfræðilegar upplýsingar um einstök orð í leitarniðurstöðum. Ein af fjölmörgum setningum í málheildinni er Frábær byrjun skóp sigur Fjölnis. Þegar smellt er á skóp fást þær upplýsingar að um sé að ræða sögnina skapa (sem er lemma orðsins, þ.e.a.s. uppflettimynd þess) í þátíð, hún sé í framsöguhætti germyndar, 3. persónu eintölu.

Ef við hefðum sérstakan áhuga á þessari sögn gætum við skrifað skapa í einfaldri leit. Þá fengjum við þó eingöngu þá tilteknu orðmynd en það gæti verið, sem dæmi, í nafnhætti (Að skapa sjálfan sig) eða nútíð 3. persónu fleirtölu (Þrengslin skapa fyndnar aðstæður) en ekki t.d. í þátíð. Leitarniðurstöðurnar eru þá 176.248 talsins. Til þess að kalla fram öll dæmi sagnarinnar í mismunandi orðmyndum getum við farið í útvíkkaða leit (með því að smella á „Útvíkkuð“), valið „lemma“ í fellilistanum og skrifað skapa í textareitinn. Þá eru niðurstöðurnar 420.325.

En aftur að setningunni Frábær byrjun skóp sigur Fjölnis. Þar er sterka beygingin skóp notuð en ekki veika beygingin skapaði. Setningin er úr íþróttamáli og er tekin úr undirmálheildinni Fótbolti.net. Sterka beygingin virðist einmitt talsvert notuð í íþróttamáli. Hvort sterka beygingin sé notuð meira þar en annars staðar er þó erfitt að fullyrða nokkuð um án þess að athuga það nánar – og það er hægt í Risamálheildinni með því að velja mismunandi undirmálheildir og bera niðurstöður úr þeim saman. Hér gætum við t.a.m. leitað að bæði skapaði og skóp í tveimur undirmálheildum með fótboltatextum, 433.is og Fótbolti.net, og til samanburðar athugað miðla þar sem ólíklegt er að rætt sé mikið um íþróttir, svo sem Bleikt.is, Bændablaðið, Fiskifrettir.is, Frjálsa verslun, Mannlíf og Vb.is.

Niðurstöðurnar eru sýndar í töflunni hér fyrir neðan og virðist sem þátíðin skóp sé talsvert meira notuð í íþróttamáli en í samanburðarmiðlunum.

 

skapaði

skóp

fótboltamiðlar

1.089 (80%)

264 (20%)

samanburðarmiðlar

337 (95%)

16 (5%)

 

2. Leit að dæmum um orðmyndir sem innihalda tiltekinn textastreng: fokking

Innskeyti eru ein tegund aðskeyta, rétt eins og forskeyti og viðskeyti. Í ensku er stundum talað um fucking sem innskeyti í dæmum eins og every-fucking-where. Íslenska er venjulega ekki talin hafa innskeyti en þó eru ýmis dæmi um að t.d. fokking sé notað á svipaðan hátt og í ensku.

Það er tiltölulega einfalt að safna dæmum í Risamálheildinni þar sem fokking er ritað áfast fyrri og síðari hluta orðs. Í útvíkkaðri leit veljum við „inniheldur“ í fellilistanum hægra megin við „orð“. Svo skrifum við fokking í textareitinn og leitum. Þá finnum við öll dæmi sem innihalda þennan textastreng, þar á meðal fjölmörg dæmi um sjálft orðið fokking. Ef við hins vegar smellum á flipann „Tölfræði“ og í framhaldinu „Virkja og leita“ fáum við lista yfir allar mismunandi orðmyndir sem innihalda strenginn. Þar ætti fokking aðeins að birtast einu sinni. Þegar við rennum í gegnum listann má sjá dæmi um innskeytisnotkunina, svo sem nákvæmfokkinglega, skítfokkingsama, þokkafokkinglega, lystifokkingsnekkjur og drullufokkingsama.

3. Setningafræðilegt mynstur: Mikið er það sorglegt að refir skuli ekki geta klifrað í trjám

Atviksorð koma oft næst á undan lýsingarorði sem þau ákvarða, sbr. Hún er rosalega skemmtileg. Stundum er hægt að færa atviksorðið frá lýsingarorðinu: Rosalega er hún skemmtileg. Þetta er hins vegar ekki hægt með hvaða atviksorði sem er. Eiríkur Rögnvaldsson, einn af upphafsmönnum Risamálheildarinnar, skoðaði fyrir 30 árum dreifingu mjög m.t.t. þessa og benti á að ekki væri hægt að færa mjög frá lýsingarorðinu sem það ákvarðar en þar væri hins vegar hægt að nota mikið í sömu merkingu. Hann lagði út af setningunni Mikið er það sorglegt að refir skuli ekki geta klifrað í trjám úr Dýrunum í Hálsaskógi en þrátt fyrir að hægt sé að segja Það er mjög sorglegt er mun síður hægt að segja Mjög er það sorglegt. Eins benti hann á að hann gæti ekki sagt Það er mikið sorglegt, í því umhverfi yrði að nota mjög. Eiríkur setti fram þá hugmynd að orðin mjög og mikið tilheyrðu sama „lexemi“ en þau væru í svokallaðri fyllidreifingu: mjög kæmi fyrir með lýsingarorðum í umhverfi þar sem mikið gerði það ekki og öfugt. Með einföldun mætti kannski segja að tilgáta Eiríks hafi verið að mikið og mjög tilheyrðu sama orði í ákveðnum skilningi sem hefði mismunandi birtingarmyndir eftir umhverfi.

Núna getum við skoðað í Risamálheildinni hvort raunveruleg notkun mjög og mikið í þessum setningagerðum komi heim og saman við lýsingu Eiríks og förum í útvíkkaða leit. Við leitum að setningum sem hefjast annaðhvort á Mikið/Mjög er það + lýsingarorð + eða Það er mjög/mikið + lýsingarorð + . Til einföldunar takmarkast leitin við lýsingarorð sem enda á legt (með því að velja „endar á“ í fellilistanum hægra megin við „orð“ og skrifa legt í textareitinn). Það flækir málin eilítið að nota samtenginguna í leitinni því að stundum er notuð komma á undan henni og stundum ekki. Þá grípum við til þess ráðs að setja kommu á milli legt og en segjum að hún megi koma fyrir en þurfi þess ekki; þetta gerum við með því að smella á „Valmöguleikar“, „Endurtaka“ og skrifa 0 til 1. Þá koma bæði leitarniðurstöður eins og Það er mjög skemmtilegt, að … (komman kemur 1 sinni fyrir) og Það er mjög skemmtilegt að (komman kemur 0 sinnum fyrir).

Niðurstöðurnar sýna að dreifingin er mjög nálægt lýsingu Eiríks; aðeins eitt dæmi finnst um gerðina Það er mikið sorglegt að … (Það er mikið leiðinlegt að sjá hvað þessar skepnur verða að þola vegna okkar veiðimannanna) og eitt um Mjög er það sorglegt að … (Mjög er það eðlilegt, að varnarliðsmenn vilji fá að hafa sjónvarp, meðan þeir dveljast hér …). Mun fleiri dæmi finnast af gerðinni Mikið er það sorglegt að … og enn fleiri um gerðina Það er mjög sorglegt að …

 

mikið

mjög

Mikið/Mjög er það + lo. + að

62

1

Það er mikið/mjög + lo. + að

1

7.258

Að lokum

Tilgangurinn með þessum pistli er að sýna hvernig hægt er að nota Risamálheildina í málfræðiathugunum. Þegar við nýtum okkur niðurstöður úr Risamálheildinni er mikilvægt að skoða dæmin. Stundum eru niðurstöðurnar svo margar að það er ógerningur að skoða allt en þá er hægt að taka stikkprufur. Í leitinni að skóp að framan skilgreindum við t.a.m. ekki orðflokkinn heldur fórum í einfalda leit að strengnum skóp. Þá eru meiri líkur en annars að eitthvað slæðist með í niðurstöðunum, svo sem tökunafnorðið skóp (e. scope). Aftur á móti eru málfræðiupplýsingarnar sem eru gefnar í Risamálheildinni fengnar með sjálfvirkum aðferðum og þess vegna ber að varast að treysta um of á þær í leit.

Birt þann 28. janúar 2026
Síðast breytt 28. janúar 2026
Heimildir

Anna Snæbjörnsdóttir. 2016. Orðmyndun á samfélagsmiðlum. MEd-ritgerð, Háskóla Íslands. http://hdl.handle.net/1946/26299.

Anton Karl Ingason og Einar Freyr Sigurðsson. 2022. En hvað við getum verið þakklát fyrir hann Eirík. Málþing til heiðurs Eiríki Rögnvaldssyni, 1. júní 2022, Háskóla Íslands.

Einar Lövdahl Gunnlaugsson. 2016. „Hvað í fokkanum geri ég þegar ég útskrifast?“ Ritgerð um blótsyrðið fokk og skyld orð í íslensku nútímamáli. BA-ritgerð, Háskóla Íslands. https://hdl.handle.net/1946/23597.

Einar Freyr Sigurðsson. 2023. Sögnin skapa í íþróttamáli. Fjörutíu þankastrik opinberuð Jóhannesi B. Sigtryggssyni fimmtugum 15. janúar 2023, bls. 29–31. Reykjavík: Menningar- og minningarsjóður Mette Magnussen.

Eiríkur Rögnvaldsson. 1990. Íslensk orðhlutafræði. Kennslukver handa nemendum á háskólastigi. 4. útgáfa. Reykjavík: Málvísindastofnun Háskóla Íslands.

Eiríkur Rögnvaldsson. 1996. Mikið er það sorglegt að refir skuli ekki geta klifrað í trjám. Höskullu gefið. Höskuldur Þráinsson fimmtugur, bls. 14–16. Reykjavík.

Starkaður Barkarson, Steinþór Steingrímsson og Hildur Hafsteinsdóttir. 2022. Evolving Large Text Corpora: Four Versions of the Icelandic Gigaword Corpus. Proceedings of the Thirteenth Language Resources and Evaluation Conference, bls. 2371–2381. Marseille: European Language Resources Association.

Steinþór Steingrímsson, Sigrún Helgadóttir, Eiríkur Rögnvaldsson, Starkaður Barkarson og Jón Guðnason. 2018. Risamálheild: A Very Large Icelandic Text Corpus. Proceedings of the Eleventh International Conference on Language Resources and Evaluation, bls. bls. 4361–4366. Miyazaki: European Language Resources Association.