Hva har «åpenhet», «TV-serie» og «kjempestor» til felles?

Svar: De står ikke i ordboka.

OVERRASKENDE MANGE AV DE ORDENE vi bokmålsbrukende nordmenn benytter oss av, står ikke i ordboka.

Det viser en undersøkelse som forskere ved Universitetet i Oslo nylig har gjennomført.

Forskerne har brukt datamaskiner til å sammenlikne den elektroniske utgaven av Bokmålsordboka med et nytt bokmålskorpus som forskerne har brukt åtte år på å sette sammen.

- Nå må jeg bare få presisere at dette ikke er det eneste vi har jobbet med i åtte år, altså. Men vi har ønsket å lage en elektronisk tekstsamling som dekker hele skriftspråket, forteller professor Ruth E. Vatvedt Fjeld ved Institutt for lingvistiske og nordiske studier til Dagbladet.no.

Leksikografisk bokmålskorpus er en samling tekster datert fra 1985 og fram til i dag, og består av totalt 40 millioner ord. 20 prosent er tekster fra aviser og ukeblader, mens 45 prosent er sakprosa-tekster, fra for eksempel fagbøker.

25 prosent er hentet fra skjønnlitteraturen, 5 prosent fra teksting av TV-sendinger og de siste 5 prosentene er «unormerte» tekster som blant annet inneholder debattinnlegg på internett.

OG NÅ VISER DET SEG altså at det er store forskjeller mellom dette materialet og ordbasen til Bokmålsordboka.

Ordboka består i dag av 70 000 ord. Den maskinelle sammenlikningen forskerne har gjort, viser at det i bokmålskorpuset er brukt 65 000 ord som ikke står i ordboka.

Mye av dette skyldes feilstavinger og tilfeldige ordsammensetninger, forteller Fjeld.

- I det norske språket lager vi ofte sammensatte ord. Et eksempel jeg pleier å bruke, er ordet baugport, som kan være på alles lepper i noen uker etter et ferjeforlis, men som forsvinner igjen ganske raskt og ikke tas inn i ordboka, forklarer hun.

Det viser seg likevel at mange av de ordene vi faktisk bruker til daglig, ikke finnes i ordboka. Nå har forskerne begynt på jobben med å gå gjennom materialet i korpuset og finne ord som kan tas opp til vurdering for å komme inn i ordbøkene.

Feiring, åpenhet og TV-serie, for eksempel. Besteforelder og arbeidsplass. Et såpass mye brukt verb som å offentliggjøre finnes heller ikke i bokmålsordboka, ifølge forskerne.

Det samme gjelder tvetydighet, sekstiåtter og filmskaper.

- Mange av disse ordene er avledninger av definerte ord, og korpuset sier noe om hvilke avledningsformer som er mest brukt i samtidsspråket. Det er ikke nye ord i språket, men former som er blitt mer vanlige i seinere tid, forteller Fjeld.

FLERE FORKORTELSER, flerordsuttrykk og affikser er også blant kandidatene til å komme inn i ordboka.

For du er vel godt kjent med uttrykk som først og fremst, rett og slett, stort sett og på forhånd? Nå kan de endelig være på vei inn i Bokmålsordboka som egne oppslagsord.

Det samme gjelder forleddet (affikset) kjempe-, som i kjempebra, kjempestor og så videre. Forkortelsene st. meld. (stortingsmelding), tlf. (telefon) og t.v. (til venstre) brukes hyppig i tekstene som er samlet i bokmålskorpuset, men finnes foreløpig ikke i de godkjente oppslagsverkene.

Ordet korpus defineres for øvrig slik i ordboka:

korpus

I korpus -en (sm o s II *korpus) den vanligste skrifttypestørrelsen i aviser og bøker

II korpus m1 el. n3 (fra lat. \'legeme\')

1

legeme, kropp hans veldige k- fylte hele baksetet

2

innsamlet materiale

Det er denne siste betydningen som har sammenheng med ordet tekstkorpus.

IFØLGE NORSK SPRÅKRÅD bruker mellom 85 og 90 prosent av alle nordmenn bokmål som skriftspråk.

Med det nye bokmålskorpuset får språkmyndighetene større muligheter til å vedta endringer i språkreglene - basert på den faktiske bruken av skriftspråket.

- Man har laget seg visse forestillinger om hva som foregår i språket, uten å kunne undersøke det skikkelig, mener professor Fjeld.

- Det er blitt vedtatt endringer i språket basert på vage antakelser - eller ut fra hvilke ord som får flest treff på Google. Vi har vært opptatt av å finne det språket som er spontant og naturlig for folk flest, og å få et korrekt bilde av språkbruken i Norge, sier hun.

- Men hvis dere vil finne det naturlige og spontane språket, burde dere ikke hatt en større andel tekster fra debattinnlegg og lignende - ikke så mye fra aviser, fagbøker og skjønnlitteratur?

- Jo, vi kunne gjerne hatt med en større andel unormerte tekster, blant annet fra nettet. Men det må være en balanse mellom dette og det skriftspråket vi alle møter i aviser, bøker og så videre. Jeg tror vi har gjort noe smart ved at vi har bedt om å få to versjoner av flere tekster. Vi har for eksempel hele bøker der vi har lagt inn både forfatterens råtekst og den publiserte utgaven som er blitt rettet av forlaget.

Et slikt dublettkorpus er unikt i verden, tror Fjeld.

DET ER PRIMÆRT FORSKERE som får tilgang til den ferske tekstdatabasen, men Fjeld kan fortelle at studenter som vil skrive hovedfagsoppgave, doktorgradsoppgave eller lignende om norsk språk, vil få tilgang.

- Vi har dessverre ikke kapasitet til å gi alle som ønsker det tilgang. Dessuten har vi fått tilgang til mange av tekstene gjennom avtaler med rettighetshaverne som beskytter materialet mot å bli benyttet kommersielt, forteller Fjeld. 

Forskerne har valgt å fjerne 20 prosent av innholdet i alle tekstene, slik at det med jevne mellomrom dukker opp blanke sider. Dette skyldes hensynet til opphavsretten.

Nå inviteres alle interesserte forskere til å dykke inn i materialet, men jobben med korpuset er langt fra over. Planen er å utvide basen med ytterligere 60 millioner ord, slik at man får 100 millioner ord å søke blant.

- Vi vil beholde den samme balansen av ulike teksttyper, sier Fjeld.

- Men det vi kanskje gjør i den boksen vi kaller «unormert», er å ta inn en del talemål. Blant annet gjennom prosjektet Norsk talemålskorpus, der man har intervjuet forskjellige mennesker og transkribert dagligtale fra TV-programmer som Big Brother.

- Har dere tatt ut noen statistiske fakta fra korpuset? Vet dere for eksempel hvilke ord som er de hyppigst brukte eller hvilke som forekommer færrest ganger?

- Fra før vet vi at enkelte pronomen, konjunksjoner og andre småord er de mest brukte i norsk språk - i, og, det, er, . Mange av de ordene som forekommer færrest ganger er feilstavinger eller engangstilfeller av sammensatte ord. Vi er mer opptatt av det store bildet i skriftspråket: Hvem som skriver boken/boka, eller kastet/kasta. Og hvor mange som skriver eller sier «ta selvmord» og ikke «begå selvmord».

Slike ting kan forskerne si mye mer om nå som vi har fått et større og mer balansert korpus, ifølge professoren.

- Tidligere har vi bare kunnet studere avisenes arkiver, og da får vi jo bare med oss det journalistene skriver, avslutter Fjeld.

Denne artikkelen er skrevet av Magasinets nettredaksjon, og ikke publisert i papirutgaven. Har du spørsmål eller kommentarer, send dem til oss på e-post.

TV-SERIE: Vi har hatt dem her til lands i mange år, og mange husker nok «Dynastiet», «Falcon Crest» og «Forviklingar». Men selv om ordet TV-serie er ofte brukt i norsk skriftspråk, er det ikke et eget oppslagsord i Bokmålsordboka. Det er derimot <a href="http://www.dokpro.uio.no/perl/ordboksoek/ordbok.cgi?OPP=s%E5peopera&ordbok=bokmaal&s=n&alfabet=n&renset=j">såpeopera</a>.
ENDELIG I MÅL: Professor Ruth E. Vatvedt Fjeld har ledet arbeidet med det nye bokmålskorpuset. Tekstsamlingen teller 40 millioner ord, og er samlet inn fra både avisartikler, fag- og skjønnlitteratur, TV-teksting og debattinnlegg på internett. Forskerne har brukt åtte år på å samle og tilrettelegge tekstene.
KJEMPE: Verdens høyeste mann Bao Xishun (236 cm høy) må kunne sies å være både kjempehøy og kjempestor. Men affikset kjempe- finnes ikke i ordboka - til tross for at det forekommer hyppig i det nye bokmålskorpuset.
FOLKVORD-KRAV: Ordet har vært på trykk i media i mange år, og mange bruker åpenhet i dagligtalen. Nå vurderes det å ta inn ordet i Bokmålsordboka. Det samme gjelder verbet å offentliggjøre.
SAMMENSATT: Etter Estonia-forliset i 1994 ble ordet baugport mye brukt. Men slike sammensatte ord - som vi nordmenn ofte lager når vi har bruk for dem - skal ikke være egne oppslagsord. De blir dessuten ofte bare brukt i en kort periode før de forsvinner fra skriftspråket igjen.
FRUSTRERTE FRUER: TV-serien som er aktuell på norske TV-skjermer kan snart få et oppslagsord i tillegg såpeopera i Bokmålsordboka. For det er jo en TV-serie.