Weapons of Math Destruction av Cathy O'Neil
Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy av Cathy O'Neil. Crown Random House, 2016
Det er allment akseptert nå at algoritmer som bygger på maskinlæring og stordata kan gjøre stor skade, men systemene er så komplekse og nye at vi sliter med å sette ord på problemet. Det er lettere når mennesker gjør noe dumt, fordi vi har mange ord for å beskrive menneskelig dumskap. Vi kan for eksempel omtale en arbeidsgiver som ikke ansetter kvinner som fordomsfull, og da skjønner vi straks mer av problemet. Vi kan gå dypere ned i forklaringen og si at denne personen jobber i et yrke, som IT-bransjen, hvor det som følge av tidligere generasjoners fordommer er få kvinner, og at dette har spilt sammen med andre kulturelle faktorer slik at han tror at kvinner objektivt sett ikke er egnet til IT-oppgaver.
Menneskelige fordommer kan plukkes fra hverandre på denne måten. Det er vanskeligere når en algoritme kommer fram til et dårlig resultat. En algoritme som bruker historiske data til å automatisere søknadsprosessen i et mannsdominert IT-selskap vil også kunne komme fram til at det er dumt å ansette kvinner. De har jo så sjelden fått jobb der tidligere, og de få som har sluppet gjennom nåløyet har kanskje ikke oppnådd noe særlig. Ingen av dem har klart å komme seg opp i ledelsen. Altså bør man unngå å ansette kvinner. Samme resultat, men prosessen bak er vanskeligere å forstå. Hvordan beskriver vi et system som feiler på denne måten?
Matematikeren Cathy O’Neil kaller slike modeller weapons of math destruction. Dette er bare ett av mange fine begreper i denne boka som jeg får lyst til å oversette og ta i bruk på norsk: Matteødeleggelsesvåpen. Det vil si, hun omtaler mange dårlige modeller og algoritmer i boka, men det som skiller de farligste av dem ut som matteødeleggelsesvåpen er at de har tre egenskaper: At de tar beslutninger i det skjulte, at resultatet er destruktivt, og at de skaleres opp til å ramme et stort antall mennesker.
Hvis jobbsøknadssystemet jeg beskrev over bare ble brukt av ett IT-selskap, ville det ikke gjort så stor skade. Da kan man søke jobb et annet sted. Men hva om det ble tatt i bruk av hele IT-bransjen, slik at kvinner alltid havnet nederst i CV-bunken basert på uransakelig vurderinger i en algoritme? Da ville det vært et matteødeleggelsesvåpen.
Heldigvis begynte kvinner å komme seg inn i arbeidslivet flere tiår før maskinlæring og stordata ble en faktor i arbeidsmarkedet. O’Neils påstand er at kvinners vei inn i arbeidslivet ville vært enda vanskeligere hvis slike systemer hadde eksistert for femti år siden. I dag har slike jobbsøknadssystemer nemlig den samme effekten, mener hun, det bare at de rammer grupper det er vanskeligere å kategorisere, og de gjør det på måter det er vanskeligere å få øye på.
Matteødeleggelsesvåpen oppstår, mener hun, når noen trenger en kjapp og automatisk måte å ta beslutninger på, men de bare har dårlige data tilgjengelig. For eksempel vet de ikke hvor pålitelig du er som person, det kan ikke måles, men de vet kanskje hvor kredittverdig du er. De bygger så en modell som gjenspeiler disse dataene, men bygger ingen mekanisme for å justere modellen basert på dens effekter i den virkelige verden. Gode modeller har en feedback-mekanisme, slik at de kan bli gradvis bedre. Det har ikke slike modeller. Samtidig er modellen god nok fra ståstedet til de som bruker den, som ikke selv blir rammet av konsekvensene, til at de tar den i bruk i stor skala. Resultatet blir ofte modeller som inngår i en ond sirkel.
Ta predictive policing, for eksempel. La oss oversette det med spåspaning. Dette er når politiet bruker systemer som forteller dem hvor det er verdt å patruljere. Vær tilstede i denne gata på dette tidspunktet, for der er det ekstra risiko for at det skjer noe ulovlig. O’Neil mener dette kan gi mening for alvorlige forbrytelser, som drap og voldtekt, men når det brukes for mindre alvorlige lovbrudd som narkotikabruk skaper det fort en selvforsterkende effekt. Slike lovbrudd fanges bare opp i systemet når politiet er der og ser på. Dermed vil områdene politiet er tilstede i få en større plass i lovbruddstatistikken, som igjen fører til at systemet spår at det er verdt å sette inn flere politifolk der. Dette får negative ringvirkninger for de som bor der, som i utgangspunktet gjerne er fattige og tilhører minoriteter.
Når man beskriver det på denne måten, høres slike systemer åpenbart irrasjonelle ut. Men folk ser bare sin lille del av den onde sirkelen, og ordet “algoritme” har så mye prestisje at man skrur av den kritiske sansen sin. Algoritmen sier at dette er et kriminelt område. Javel, da så. Mennesker gjør lignende vurderinger, men da forstår vi også intuitivt at de kan være fordomsfulle, eller at de bygger på dårlige mentale modeller av virkeligheten som broken windows theory.
Eksemplene i boka er amerikanske, så deler av den fremstår mest som en advarsel om en vei vi fremdeles kan unngå å ende opp på. Men dynamikken som frembringer slike systemer er så effektiv at den ikke er bundet til noe bestemt samfunn, og når et slikt system først har vunnet frem, er det vanskelig å bli kvitt. USA har for eksempel et sinnsykt system for å rangere studiesteder. Siden kvaliteten på en skole ikke kan måles i tall, ser man i stedet på proxytall som hvordan det går med studentene etterpå, andelen som fullfører, og så videre. Modellen fører til absurde selvforsterkende effekter. Den er åpenbart irrasjonell og destruktiv. Likevel er den nesten umulig å bli kvitt. O’Neil skriver også om lignende systemer som rangerer lærere basert på elevenes faktiske prøveresultatet sammenlignet med det systemet “forventet”, og hvor lærere som gjør det “dårlig” risikerer å miste jobben. Igjen, med absurde resultatet, som når lærere som jobber med flinke elever fremstår dårlige, fordi det er vanskelig å forbedre prøveresultatene til en flink elev.
Jeg vet ikke om lignende modeller som brukes i Norge, men jeg kjenner jeg blir urolig når jeg hører om hvordan tellekantsystemet fungerer og ser hvordan nasjonale prøver brukes til uoffisielle rangeringer av Norges “beste” skoler. Etter å ha lest denne boka, fremstår de potensielle problemene med slike utregninger klarere.
Skaden slike systemer gjør kommer ikke nødvendigvis av at modellen er feil. Det kan være at den er riktig, objektivt sett, men fører til urettferdige resultater. Predatory advertising - la oss kalle det rovannonsering - er en bruk av overvåkningssystemene som ligger til grunn for nettøkonomien. Normalt vil annonsører ønske å nå frem til kunder som har råd og lyst til å kjøpe produktet deres. Rovannonsører sikter seg i stedet mot de fattigste og mest utsatte og ressurssvake personene, for eksempel for å tilby forbrukslån, eller, som i USA, lure dem til å ta opp studielån for å studere hos tvilsomme kommersielle nettuniversiteter.
Jeg hørte nylig om én som hadde blitt lurt inn i en dårlig leasingavtale på grensen til svindel. Det er trist nok, men hvordan havnet han på den nettsiden i utgangspunktet? Kanskje har systemet identifisert ham som en person med lite pengeteft, som er ekstra mottagelig for å bli svindlet. Kanskje var han et offer for rovannonsering.
O’Neil skriver også om farene når banker og forsikringsselskaper leter etter mer presise måter å kategorisere oss som kunder. I utgangspunktet kan det ses på som en forbedring av tilbudet deres. Hvis forsikringsselskapet mitt kan følge med på hvordan jeg kjører bilen min, kan de potensielt gi meg en billigere forsikring enn når de bare ser på mindre personlige faktorer. Maskinlæringalgoritmer er flinke til å se mønstre i persondata, og kan bruke disse til å plassere oss i presise grupper som ikke ville vært synlige for et menneske. Å vurdere oss basert på en slik gruppe fremstår mer rettferdig enn å vurdere oss basert på en mer generisk gruppe, som kjønn eller etnisitet.
Men de samme problemene sniker seg lett inn i slike modeller også. Hvis systemet ser at jeg har mange egenskaper til felles med en gruppe, og tar beslutninger basert på hva den vet om denne gruppen, kan det føre både til feil konklusjoner og til riktige konklusjoner som er urettferdige. Mye av den strukturelle rasismen i USA har tradisjonelt vært av denne formen, påpeker O’Neil. Finansindustriens diskriminering av svarte amerikanere kom både av at de brukte statistikk feil, og at de brukte den på en urettferdig måte.
Dagens modeller gir mer presise svar, men er til gjengjeld mer komplekse og ugjennomtrengelige, og sårbare for de samme feilene. Du kan ikke protestere mot diskriminering som foregår i en uforståelig svart boks.
Uansett er det de fattigste som rammes hardest, fordi det er i deres tilfelle interessen for kjappe automatiske beslutninger er størst. Når mennesker med penger og makt utsettes for en irrasjonell automatisk beslutning, får de alltids tak i et menneske som ordner det for dem. Når du er en av flere tusen søkere på en dårlig betalt jobb, og alle arbeidsgiverne i bransjen takker nei til deg fordi de alle bruker systemer med den samme irrasjonelle oppførselen, er det ingen som bryr seg.
Det er mulig å bygge gode modeller, mener O’Neil. De kjennetegnes ved at menneskelige verdier er bygget inn i systemet, for eksempel ved å legge sperrer på hva det kan analysere og hvordan dataene kan brukes. En litt dum og enkel modell kan være mer rettferdig enn en veldig smart modell, særlig når det ikke finnes gode tall på det man ønsker å måle.
En annen god bruk av modeller er at man i stedet for å avdekke mennesker som på ulike måter skal straffes, for eksempel med mer politioppfølging, høyere rente og dårlige muligheter på jobbmarkedet, identifiserer mennesker som trenger ekstra hjelp og oppfølging. Dette er ofte bare en annen måte å se de samme dataene på: Når en person fremstår som høyrisiko på grunn av bakgrunnen og omgivelsene deres, kan man også velge å se det slik at dette er personer som fortjener ekstra mye hjelp til å få et bedre liv.
Algoritmer som bruker maskinlæring og komplekse modeller er med andre ord et verktøy som kan brukes riktig, men som det er fristende og lett å bruke feil.
Se også notatene mine fra boka i Kaninhullet.