Nye utfordringer i språkforskningen

Moderne språkforskning forutsetter store dataressurser og søkbare elektroniske tekstsamlinger. Slike korpus er kostnadskrevende å bygge opp, skriver kronikkforfatterne som etterlyser en langt mer aktiv holdning fra Forskningsrådet på dette feltet.

FORSKNING I HUMANIORA generelt og norsk språk spesielt er i ferd med å bli en stor taper i kampen om forskningsmidlene. Skal fremtidig språkforskning bare dreie seg om engelsk? Skal vi holde oss til foreldede forskningsmetoder og bli liggende i en bakevje både hva gjelder metodologi og kunnskap? Dette kan bli resultatet dersom ikke forskningsmidler også kanaliseres inn mot våre virksomheter.

Moderne informasjonsteknologi har åpnet opp uante muligheter for nye forskningsmetoder innenfor et vidt spekter av vitenskaper. Elektroniske arkiv og samlinger, databaser og søkeverktøy gjør at man nå etter noen minutter eller timer foran datamaskinen kan finne fram til informasjon det ville ta år og dag med reising og leting i fysiske arkiver å framskaffe - hvis det i det hele tatt hadde latt seg gjøre å finne. Det kalles e-infrastruktur og man har begynt å snakke om e-vitenskap og e-forskning som egne begreper.

MEN DET KOSTER å bygge opp e-infrastruktur. Det synes Norges forskningsråd til en viss grad å ha innsett, og i disse dager lanseres et eget forskningsprogram hos NFR kalt eVITA, som ifølge programplanen er «et forsknings- og infrastrukturprogram innrettet mot beregnings- og dataintensive utfordringer i naturvitenskap, teknologi og medisin.» Det er liten tvil om at denne satsingen på e-vitenskap er en oppfølging av den siste forskningsmeldingens fokus på realfaglig forskning. Men e-vitenskap er i alle høyeste grad også relevant og nødvendig for humaniora. Dessverre har NFR så langt vist liten forståelse for at også humanistisk forskning bør bringes inn i den nye e-vitenskapelige æra.

Artikkelen fortsetter under annonsen

Vi som arbeider med oppbygging av språkressurser for forskning, ser nemlig igjen og igjen at behovene våre oversees, og våre sonderinger mot Forskningsrådet tyder på at eVITA i første omgang i praksis vil være lukket for søknader fra annet hold enn medisinske og matematisk-naturvitenskapelige fag. De ordinære midlene under Forskningsrådets humaniorapott FRIHUM samt de smalere forskningsprogrammene er alle stengt for søknader om ressursoppbygging fordi dette ikke ansees som forskning. Forskningsrådets dører synes altså stengt. Samtidig har det vist seg umulig å få penger gjennom de ordinære utstyrsbevilgningene hos universitetene og Forskningsrådet.

DEN ANBEFALTE årlige rammen for eVITA er ifølge programplanen 100 millioner, mens Forskningsrådet kun bevilget 23 millioner NOK til nye forskningsprosjekt innenfor humaniora i 2006. Vi tre stod bak en søknad til sistnevnte pott, om et prosjekt som kombinerer ressursoppbygging og teoretisk lingvistisk forskning, men prosjektet fikk ikke bevilgning til tross for at det av tre uavhengige eksperter fikk karakterene sju, sju og seks på en skala hvor sju var høyest, til tross for at prosjektet inngår som en del av et større nordisk prosjekt der i alt ni forskergrupper samarbeider, til tross for at det nordiske nettverket nylig ble utnevnt til nordisk senter for fremragende forskning, og til tross for at det i sin tur er en del av et større europeisk nettverk. Hovedbegrunnelsen for avslaget var at prosjektet var for omfattende!

Tradisjonelt har det nok vært slik at humanistiske fag ikke er typisk utstyrskrevende. Men situasjonen er en annen nå. Forskningsmetodene for moderne språkforskning og språkteknologiforskning forutsetter store dataressurser, elektronisk søkbare tekstkorpus - dvs. elektroniske tekstsamlinger som er annotert på ulike måter. Slike korpus er kostnadskrevende å bygge opp, men på tross av det har det skjedd en viss oppbygging av korpus med skriftspråkstekster (både ved UiB og UiO). Dette skyldes at mange typer skriftspråkskorpus i stor grad tross alt kan bygges opp ved å benytte et ressursmateriale som er tilgjengelig allerede, slik som ferdige tekstfiler fra aviser og forlag. Slike ressurser er i utgangspunktet billige. Men all ekstra annotering for å gjøre korpusene mest mulig brukbare for språkforskning, samt utviklingen av gode brukergrensesnitt for søking, kommer selvsagt i tillegg, og gjør at også slike korpus er kostnadskrevende å bygge opp.

SITUASJONEN er en helt annen for talespråk. Her finnes det ikke noe ferdig tilgjengelig materiale - det materialet som man kunne tenkt seg å overta fra radio og tv er i såpass stor grad manipulert underveis og etterpå, og talerne selv tatt opp i en så kunstig situasjon, at denne typen materiale ikke egner seg som eksempel på vanlig talespråk. For å bygge opp talespråkskorpus, må man begynne helt fra bunnen av. Man må finne informanter og gjøre opptak med dem, man må bearbeide opptakene digitalt etterpå. For at korpusene skal bli søkbare, må opptakene transkriberes med standardtranskripsjon (ortografi), slik at hvert eneste ord også gjøres tilgjengelig i skrift. Uttalenær transkripsjon er i mange tilfeller dessuten også ønskelig. Både opptak og transkripsjon er svært kostnadskrevende. I tillegg kommer selvsagt de samme kostnadene som for skriftspråkskorpus, knyttet til annotering og søkegrensesnitt.

At slike korpus er viktige, er hevet over tvil. Uten dem vil norske forskere ikke kunne være i forskningsfronten når det gjelder vårt eget språk. Både innen allmenn språkforskning, dialektforskning og språkteknologiforskning er det viktig at man har etterrettelige data, og i mange tilfeller også kvantitative data som gjør statistiske metoder mulige. Uten gode talespråksdata vil all forskning som gjøres om norsk språk i verste fall være om norsk skriftspråk, som jo er en annen og mye mindre spontan variant enn den vi uttrykker oss på gjennom de fleste av livets situasjoner, eller om engelsk, hvor store datamengder finnes. Fra et kulturperspektiv vil det være et enestående tap dersom kunnskap om og forskning på dialekter og talespråk skal falle bort. Samtidig er det faktisk en kjensgjerning at det allerede i dag finnes store hull i kunnskapen om både talespråk og dialekter, hull som aldri har blitt fylt, og som først nå kunne blitt det fordi det i dag finnes et godt begreps- og teoriapparat i den teoretiske språkvitenskapen samt gode systemer for behandling av store datamengder i form av databaseteknologi.

SLIKE DATABASER kan ikke kjøpes fiks ferdige! De må bygges opp. Ingen andre land tar ansvar for oppbyggingen av norske språkdatabaser. Det må gjøres av oss ved de norske forskningsinstitusjonene. Derfor er det mer enn bare litt foruroligende når alle deler av Forskningsrådet fraskriver seg ansvaret for dette. Vi etterlyser en langt mer aktiv holdning fra Forskningsrådet på dette området. Det er av avgjørende betydning både for norsk forskning og for norsk kultur, og selv om vårt spesfikke anliggende gjelder språkvitenskapelig e-forskning, bør bekymringene deles også av forskere innenfor andre human- og samfunnsvitenskapelige fag.