Textasöfn og setningagerð: greining og leit

Eiríkur Rögnvaldsson

Í þessari grein er fjallað um textasöfn sem setningafræðilega heimild, og leit að setningafræðidæmum í textasöfnum. Undanfarna áratugi hafa verið uppi mjög mismunandi viðhorf til gildis textasafna í setninga¬fræðilegri umræðu og röksemdafærslu, en bent er á að þann ágreining má að verulegu leyti rekja til mismunandi skoðana á því hvert viðfangsefni málfræðinnar sé. Einnig er fjallað nokkuð um margvíslegan vanda við túlkun þeirra upplýsinga sem textasöfn veita – ekki síst túlkun á þögn textanna um tilteknar setningagerðir. Meginhluti greinarinnar fjallar um möguleika á setningafræðilegri dæmaleit í mismunandi greindum íslenskum textasöfnum; hráum texta án nokkurra sérmerkinga, texta með beygingarlegri greiningu, og texta þar sem helstu setningarliðir og setningafræðileg hlutverk hafa verið greind. Gagnamarkarar hafa nú verið þjálfaðir á íslenskum textum, og í ljós hefur komið að vegna ríkulegs beygingarkerfis málsins og stórs markamengis gagnast beygingar¬leg mörkun mjög vel við leit að ýmsum setningagerðum.