AVSLØRENDE «LIKES»: I 2013 viste en forskningsrapport at «Likes» på Facebook avslører mer om en bruker enn man skulle tro. Mønstre i hva man liker ga overraskende nøyaktige prediksjoner av personens kjønn, rase alder og IQ. De matematiske modellene klarte med 88 prosent nøyaktighet å skille menn fra kvinner, og med 95 prosent nøyaktighet å skulle afroamerikanere fra hvite kun ved å analysere likes. Foto: AFP PHOTO / Karen BLEIER / NTB SCanpix
AVSLØRENDE «LIKES»: I 2013 viste en forskningsrapport at «Likes» på Facebook avslører mer om en bruker enn man skulle tro. Mønstre i hva man liker ga overraskende nøyaktige prediksjoner av personens kjønn, rase alder og IQ. De matematiske modellene klarte med 88 prosent nøyaktighet å skille menn fra kvinner, og med 95 prosent nøyaktighet å skulle afroamerikanere fra hvite kun ved å analysere likes. Foto: AFP PHOTO / Karen BLEIER / NTB SCanpixVis mer

Ja, det er grunn til å være redd

Ved hjelp av algoritmene kan vi finne ut ting om deg som du ikke vet selv. Hva slags ukjent mat du sannsynligvis vil like. Hva slags ukjent litteratur du sannsynligvis vil like. Evne til stressmestring. Hvilke politiske sympatier du vil kunne overtales til å støtte.

Meninger

Da Donald Trump vant presidentvalget i USA, hevdet firmaet Cambridge Analytics at de hadde noe med det å gjøre. Ved å analysere personlighet ved hjelp av algoritmer, kunne de skreddersy informasjonsstrømmen slik at leserne fikk de nyhetene de ville ha. I denne artikkelen forklarer jeg hvordan de fikk det til og om dette er noe vi bør være redde for.

Spaltist

Rolf Marvin Bøe Lindgren

er psykolog, og har også studert informatikk og kunstig intelligens. Han har brukt sin spesialkunnskap hyppig i mediene, senest i podcasten om personlighetstesten Big five.

Siste publiserte innlegg

Det begynner å bli ei stund siden jeg hørte Michael Kosinski ved Cambridge Analytics fortelle om arbeidet med å utvikle algoritmer for å bestemme Facebook-brukeres personlighet basert på likes. Jeg så dengang at dette ville bli ei interessant utfordring for selgere av personlighetstester ved ansettelser. Fra et personvernsynspunkt kunne man argumentere for at Facebooks algoritme neppe vil kjenne deg bedre enn det vennene og kollegene dine gjør. Jeg prøvde den på Facebook-profilen min samme året, samt noen år seinere. Første gang traff den dårlig. Neste gang traff den svært godt.

Så kom nyheten om at Facebook skreddersyr feeden etter personlighet – og det antagelig med mindre avanserte algoritmer enn dem Kosinski snakket om. Trenger vi være redde?

Hva en algoritme er

Først, litt om hva en algoritme egentlig er. En algoritme er en fremgangsmåte for, gitt et argument, å finne verdien til en beregnbar funksjon. En funksjon alle kjenner, er ‘+’. Fremgangsmåtene som datamaskiner bruker for å summere to tall, er algoritmer. Mennesker bruker normalt uformelle algoritmer. Du kan sikkert regne ut 4711 + 42, men kan du beskrive – kort, og med ord – hva du må gjøre for å summere to vilkårlige heltall? Desimaltall? Brøker? Algoritmer blir fort vanskelig.

Men dette er generelle algoritmer. Når vi snakker om sånne algoritmer som Facebook bruker, er de laget for bestemte formål. Litt på samme måte som ‘+’ bruker forskjellige algoritmer avhengig av om det er heltall eller desimaltall som skal summeres, vil Facebook velge algoritmer avhengig av hva det er som skal gjøres. Men moderne datamaskiner har kapasitet til å gjøre ting som tidligere først og fremst ble gjort som tankeeksperimenter.

En kokebok-oppskrift er litt som en algoritme. Den sier hva du skal gjøre med ingrediensene, som da på en måte er argumentene som algoritmen opererer på. Hvis det står «smak til med krydder» eller ingrediensene varierer litt med årstid, er det fortsatt en algoritme: Det er ikke vanskelig å gjøre som det står hvis du har grunnleggende kunnskap og ferdigheter. Det kokebøker normalt ikke har, er oppskrifter som kan brukes til å lage helt nye retter basert på kunnskap om de som spiser maten. Dataprogrammer som kan gjøre slikt, er antagelig alt her.

Et svært enkelt eksempel finner du i Tex-Mex-hyllene. Der vil du finne smooth og chunky salsa. Markedsundersøkelser hvor enkel statistikk (altså telling) ble brukt, viste ikke noen klar preferanse angående hvordan folk ville ha salsaen. Ved å bruke mer avanserte algoritmer (faktoranalyse), viste det seg at det er forskjell på hva slags salsa folk vil ha. Mange vil ha den smooth, og mange vil ha den chunky. Da lager man begge deler. I våre dager er det selvsagt å bruke faktoranalyse ved markedsundersøkelser, men noen måtte være først. Faktoranalyse er en generell algoritme – algoritmen gjør det samme uansett hva slags data du har.

De første vitenskapelig baserte modellene for personlighet ble laget på denne måten. En pedagogisk illustrasjon er som følger. En mann (Raymond Cattell) hadde ei liste over 4400 adjektiver som beskriver mennesker (Energisk, snill, ryddig, nervøs, nysgjerrig, etc.). Han skrev alle adjektivene ned mange ganger på mange små lapper. Så spurte han mennesker om å tenke på noen de kjente godt, og å trekke lapper som de mente beskrev disse menneskene. Så tok han et stort golv, og la lapper som ofte ble trukket for samme menneske, sammen, slik at han fikk hauger. Hvis noen f.eks. ofte trakk «snill» for noen de kjente, så trakk de ofte også «vennlig», «oppmerksom», høflig på vedkommende også. Cattell fikk 16 hauger. I våre dager, med mer avanserte utgaver av algoritmen, får vi vanligvis fem hauger – The Big Five.

Dette er selvsagt en ufullstendig beskrivelse av hva Cattell gjorde. Slik jeg har pedagogisk beskrevet metoden over, er det mulig å se hvilke lapper som trekkes ofte for samme person – men ikke hvilke som ikke trekkes hvis andre lapper trekkes. Er en person «snill», vil det ikke være vanlig også å trekke lappen for «uhøflig». Faktoranalysen regner ut dette.

Den årvåkne leser vil da naturligvis spørre: «Hvordan vet man om noe er nært nok til å legges i samme haug?» Den erfarne statistiker vil svare at det ikke er så nøye, så lenge alle er enige, og forstår hvordan det gjøres.

Moderne forskning på personlighetstesting dreier seg hovedsakelig om å redusere antall nødvendige spørsmål. Dette gjøres bl.a. ved å analysere sammenhengene mellom svar på spørsmålene. Hvis det f.eks. er slik at kombinasjonen av skåren mellom to spørsmål sier hva du ville ha svart på et tredje, så kan det spørsmålet droppes.

Facebooks algoritmer

Det finnes algoritmer som oppfører seg som kokebøker som lager nye oppskrifter. De tar data som er samlet inn om verden, og tilpasser hvordan de regner ut svarende avhengig av dataene som kommer inn. De kan lage helt nye algoritmer. De brukes typisk innenfor forskning hvor det er veldig mye usikkerhet. Innenfor personlighetsforskning, som er det jeg har kjennskap til, stiller sakene seg noe annerledes.

Jeg har ganske ofte tilgang til mye data om mennesker: Personlighetstester av mennesker som er i jobb, samt svar på spørsmål om hvordan de gjør det i jobben. Slik kan jeg finne ut hva slags personlighet som er egnet i jobben. Jeg har så lastet dataene inn i Microsoft Azure og spurt hva slags algoritmer Azure foreslår. Og det er da alltid linear regression Azure foreslår. Dette er algoritmer som all statistikksoftware har og som læres av nybegynnere i statistikk. Og det tror jeg gjelder Facebook også. Det er ikke snakk om avanserte algoritmer for å finne ut av disse tingene. Det er snakk om å ha tilgang på datamaskiner som kan bruke svært enkle algoritmer på svært mye data.

Forskning på personlighet ved bruk av algoritmer har foregått siden forrige århundreskifte. De algoritmene som brukes nå, er blant annet utviklet av psykologer, og andre som arbeider med den type data som psykologer arbeider med. Data fra personlighetstester er svært enkle å håndtere. Dataene blir normalfordelte bare man samler inn nok. Da kan man bruke svært enkle algoritmer, og få veldig mye ut av dataene, fordi man ikke trenger veldig raske datamaskiner. Jobber man f.eks. med klima er ting mye mer komplisert, fordi det er mange flere faktorer å ta hensyn til, og mye mer data som må samles inn. Så utfordringa er egentlig ikke avanserte algoritmer. De algoritmene som brukes, er ikke vesensforskjellig fra algoritmer som ble brukt på nittenfemtitallet. Det som er nytt, er at det er så veldig mye data å få tak i, at datamaskinene har plass til dataene, og mulighet til å regne svært raskt på dem.

Moderne personlighetstester, f.eks., er allerede mye bedre enn mennesker til å finne ut hvilken jobbsøker som egner seg best til en stilling. At personlighetstesting brukes så lite som det gjør, har å gjøre med mangel på kunnskap hos de som ansetter. Ikke noe annet.

Vant Cambridge Analytics’ algoritmer valget for Trump og Brexit?

Michael Kosinski spekulerer i om Cambridge Analytics, firmaet som har vist at de kan gi deg Big Five-profilen din basert på likes på Facebook, var blant de som vant valget for Trump. Dagen Trump vant, var spørsmålet legitimt – ingen skjønte hvordan han kunne vinne. Seinere har det vist seg at de to mest sannsynlige enkeltfaktorene var mangel på karisma hos Clinton, samt tvilen som ble sådd om epost-bruken hennes rett før valget. Hvis Cambridge Analytics hadde påvirket folks Facebook-feed, hadde det vært en reel mulighet. Men politisk markedsføring har ikke all verdens betydning. En liten endring i strategi kan ha betydning hvis mange nok mennesker blir påvirket, men analysene i ettertid viser at det er lite trolig. Hvis Cambridge Analytics hjalp til med å spisse budskapet basert på velgernes antatte personlighet, kan ikke effekten ha vært veldig stor.

Men kunne effekten, gitt flere og bredere markedsføringskanaler, ha vært større?

Hva det er mulig å finne ut av

Jeg har nevnt jobbsøking. Men rent generelt er moderne personlighetstester svært godt egnet til å beskrive de menneskene som testes. I tillegg til de svært enkle algoritmene som brukes, er personlighetsmodellen som brukes (Big 5) svært god til å gi en grunnleggende beskrivelse av et menneske – for de som forstår den. All den forskningen som har vært gjort, har gitt Facebook svært mye grunnleggende kunnskap. Vi vet svært mye ut fra den forskningen som allerede finnes. Når jeg ser en Big 5-profil, vet jeg mye mer om vedkommende enn det vedkommende har blitt spurt om. Jeg kan si, med ganske god nøyaktighet, om vedkommende leser biografier, krim eller science fiction, selv om jeg ikke har spurt om det. Jeg kan se om det er sannsynlig at vedkommende har sceneskrekk, selv om jeg ikke har spurt om det. Om vedkommende har gjort karriere ved å bli oppdaget eller ved målrettet innsats, selv om jeg ikke har spurt om det. Om vedkommende foretrekker å dra på hytta eller til ny by hver sommer, selv om jeg ikke har spurt om det. Selv om jeg ikke treffer hver gang, treffer jeg ofte nok til at jeg kan vite hvem det ville vært lønnsomt å markedsføre byferie i utlandet overfor.

Jeg ser ofte nok markedsføring hvor det er lett for meg å tenke at dersom forfatterne av reklamen hadde kunnet mer om personlighetspsykologi, ville budskapet kunne vært spisset langt mer effektivt. Mange tekstforfattere har helt åpenbart ikke nok kunnskap om personlighet utover de menneskene de selv omgås. Mennesker varierer på måter man må ha faktisk kunnskap for å forstå.

For det er mer – og det er her det er skummelt. Vi vet f.eks. at dersom du er mot selvbestemt abort, er du sannsynligvis også for strengere straffer. Men noen som er for selvbestemt abort, er også for strengere straffer. Vet vi begge deler om deg, da vet vi ganske mye om det sannsynlige verdigrunnlaget ditt. Det interessante her er at vi ikke trenger å vite noen logisk sammenheng – alt vi trenger å vite er at det er sånn. Mennesker grupperer seg i konservative, moderate og liberale – dette er velkjent. Det finnes slike inndelinger som er langt mindre åpenbare, men som man kan finne bare man har nok data. Og det er med utgangspunkt i å finne slike grupperinger, at vi kan finne ut ting om deg som du ikke vet selv: Verdivalg. Hva slags ukjent mat du sannsynligvis vil like. Hva slags ukjent litteratur du sannsynligvis vil like. Evne til stressmestring. Hvilke politiske sympatier du vil kunne overtales til å støtte.

Ja, det er grunn til å være redd. Ja, det er grunn til å være forsiktig med hvilke opplysninger du gir fra deg om deg selv. Det er bare de som har dataene som har mulighet til å vite hva slags korrekte slutninger som kan trekkes om deg på bakgrunn av dem.

Lik Dagbladet Meninger på Facebook