Notater fra Weapons of Math Destruction av Cathy O'Neil

(Notater fra Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy av Cathy O’Neil (2016). Se også omtalen min av boka.)

Tesen er at automatiserte systemer som fremstår smarte fordi de gjør bruk av avansert matematikk og store datamengder ofte i virkeligheten er dårlige og destruktive, fordi de bruker dårlige proxydata og modeller uten en god feedback-mulighet fra virkeligheten. Dette er ofte greit for de som bruker dem, fordi systemene gjerne er ment å gjøre det kjapt å ta avgjørelser som har å gjøre med fattige mennesker - de som er bedre stilt får personlig oppfølging. Ikke så farlig for dem om man feilaktig kaster en CV ut av søknadsbunken. Men siden slike systemer lett skaleres opp til å gjelde alle, kan de ha svært ødeleggende effekter for ofrene og for samfunnet som helhet.

Introduction

Gode statistiske modeller er avhengig av feedback for å justere modellen. Googles bruk av A/B-testing er en effektiv bruk av statistikk. Justerer utallige variabler, følger med på resultatet. Weapons of Math Destruction bygger ofte på modeller uten en slik feedback. Slike modeller rammer ofte fattige hardere enn rike, fordi de brukes i situasjoner hvor man trenger et billig system som kan ta beslutninger for et stort antall mennesker. Rike har alltid muligheten til å snakke med et menneske, det er fattige som må ta til takke med hva algoritmen beslutter.

1 - Bomb parts. What is a model?

Baseball-statistikk er et annet godt eksempel på god bruk av data. Tallene og modellene handler direkte om det vi bryr oss om: Altså hva som faktisk skjer i spillet. Dermed er det direkte kontakt mellom virkeligheten og modellen. Dårlige modeller fungerer mer som rasisme: Spekulative teorier uten god kontakt med virkeligheten.

Tre typer modeller:

  • Baseball-statistikk. En sunn bruk av data, oppdateres kontinuerlig, er knyttet til de faktiske dataene ikke proxyer.
  • Modellene vi bygger i hodene våre for å ta beslutninger om ting, for eksempel for å planlegge neste familiemiddag. Bygger på forutsetninger som kan diskuteres, men som også kan forklares. Kan være god eller dårlig, men er ikke ment å skalere til bruk for alle.
  • “WMD” - Weapons of math destruction. Matteødeleggelsesvåpen. For eksempel modell som anslår hvor sannsynlig det er at en straffedømt som søker benådning kommer til å bryte loven på nytt, noe det egentlig ikke er mulig å si noe om, og hvor man lett ender opp med en ekstrastraff for området man bor i eller gruppen man tilhører. WMD kjennetegnes ved at den indre dynamikken i modellen er skjult, at resultatet er destruktivt, og at modellen skalerer slik at den kan skade et stort antall mennesker. Opacity, scale, damage.

2 - Shell Socked. My journey to disillusionment.

O’Neil har bakgrunn i et investeringsfirma med stor tro på matematikk.

Subprime-lånene som utløste finanskrisen var ikke WMDs. WMDs er modeller, det som veltet finansmarkedet var bestemte finansielle produkter som ikke hadde spesielt mye å gjøre med matematikk. Men bankene gjorde bruk av dårlige modeller for å vurdere risikoen i disse produktene. Dette var WMDs. Modeller som skalerte til en størrelse hvor de kunne ødelegge markedet.

3 - Arms Race. Going to college.

Skala er nøkkelen til WMD. En dårlig modell kan være harmløs så lenge det finnes et mangfold av modeller, destruktiv når den blir enerådende. Eksempel: Univeristetsrangeringen i USA fra U.S. News & World Report. Start som et velment og uskyldig forsøk på å lage et verktøy til å finne gode universiteter, men problemet er hva slags data skal man egentlig bruke? Kan ikke måle “educational excellence” direkte, ref Lyndon Johnson: “A way to deeper personal fulfillment, greater personal productivity, and increased personal reward”. Må nøye seg med proxyer: SAT-resultater, antall studenter per lærer, andel søkere som slipper inn, andel studenter som fullfører, andel som senere gir pengegaver til sin gamle skole. Ny algoritme i 1988 som baserte seg 3/4 på “objektive” verdier som dette og 1/4 på subjektive evalueringer hvor universitetene rangerer hverandre. Effekten ble ødeleggende fordi rangeringen fikk en selvforsterkende effekt: Rangeringen til en skole blir bedre av at rangeringen blir bedre, og dårligere av at den blir dårligere. Derfor ekstremt viktig for en skole å forbedre kriteriene algoritmen ser på.

Prøvde å løse noe umulig: En rangering hvor alle skoler har sin plass. Kunne vært greit nok hvis den ikke hadde blitt så viktig. Svært destruktivt for høyere utdanning i USA. Problemet med en proxymodell er at det ofte er lettere å manipulere proxytallene enn det er å påvirke det disse tallene er ment å være en proxy for. En skole betalte studentene sine for å ta SAT-testen på nytt. En annen destruktiv effekt er at rangeringen er relativ til andre skoler, men oppfattes som en objektiv kvalitetsvurdering. Du kan dermed falle ned på listen uten å ha blitt en “dårligere” skole, bare fordi de andre blir “bedre”, dvs har prioritert proxytallene høyere. Derfor må du også gjøre det, selv om det ikke egentlig gjør skolen din bedre.

Skoleavgiftene ikke inkludert i rangeringen. Da ville jo ikke de tradisjonelle “beste” skolene som Harvard og Yale nødvendigvis havnet øverst. Det ville sådd tvil om rangeringen. Dermed ingen insentiver for lave kostnader, ingen straff for høye. Prisen for høyere utdannelse øker dermed langt fortere enn inflasjonen.

Tilsvarende har det blitt viktig for skolene å bruke modeller som gir plass til de “riktige” studentene, altså de som bidrar til en god rangering. Algoritmer som rangerer studenter basert på proxytall, for å maksimere skolens egne proxytall i den store skolerangeringen. Et helt økosystem av dårlige, destruktive modeller.

Også global rangering: Universitet i Saudi-Arabia har kommet seg i verdenstoppen ved å tilby verdens beste matematikere “jobb” som ikke innebærer mer enn en formell tilhørighet og tre ukers undervisning.

Studenter i Zhongxiang i Kina protesterte mot at eksamensjuks ble slått ned på, fordi de oppfatt hele systemet som så urettferdig at juks var den eneste måten å gjenopprette balansen på. Tilsvarende i systemer som er overtatt av WMDs. Rettferdighet er ikke lenger en relevant faktor, alt handler om å spille spillet bedre enn de andre. Dette skaper også motstand mot reformforsøk. Vinnerne i det eksisterende spillet motsetter seg endring i spillereglene. Den beste løsningen er kanske å avskaffe spillet helt, gi opp forsøket på en objektiv rangering.

4 - Propaganda Machine. Online advertising.

Kommersielle universiteter som University of Phoenix bruker målrettet annonsering på nettet til å rette seg mot de mest sårbare gruppene. Fattige oppfordres til å ta opp lån for å gjennomføre studier som en del av et forsøk på å løfte seg selv opp, få i gang karrieren, men gevinsten er liten sammenlignet med vanlige skoler som koster langt mindre.

I gamle dager het det at på internett vet ingen at du er en hund. I dag vet man alt om deg. Du er kategorisert og rangert på utallige måter, også på måter som kan misbrukes av de verste selskapene. Selger falskt håp dyrt til de som har minst og ikke forstår at de blir lurt.

Predatory advertising. Rovannonsering? Bruker svakhetene dine mot deg. Du forteller dem om dine svakeste og mørkeste sider når du søker dem opp på Google eller fyller ut skjemaer, eller når du klikker på annonser for forbrukslån. Gevinsten for annonsøren er så stor at de kan legge enorme summer i å kapre nye ofre. Bruker A/B-testing og maskinlæring til å forbedre annonseringen sin. Maskinlæring er en dum prosess, men foregår så raskt og benytter så store datamengder at det likevel kan gi smarte resultater.

Rovannonseringen foregår ofte i to faser: Først lead generation, hvor man samler inn de mest lovende ofrene, f.eks. ved å få dem til å fylle ut kontaktinfo i et skjema i håp om å få tilgang på noe verdifullt. F.eks. falske jobbannonser, falske nyheter. Gode leads kan så selges dyrt til kommersielle universiteter, opptil $150 for virkelig gode leads. De får det igjen når ofrene tar opp studielån.

Rovannonsering finnes over alt hvor folk lider eller er desperate. Forbrukslån/payday loan-industrien sikter seg mot samme publikum. Sidene ofrene er fattige, er gevinsten per offer ofte liten - men gjør stor skade.

5. Civilian Casualties. Justice in the age of big data.

Predictive policing - systemer som prøver å spå hvor det er størst behov for politifolk på gata, slik at politistasjonen kan bruke ressursene sine effektivt. Være tilstede der hvor man kan forhindre lovbrudd. Spåspaning? I utgangspunktet en bedre bruk av data enn systemer som vurderer om en fengselsinnsatt har så høy risiko for å bli lovbryter på nytt at de ikke bør slippes ut tidlig. Spåspaning retter seg ikke mot individer men områder, sier bare “her er det lurt å være tilstede”. Verdifullt når det gjelder “part 1”-forbrytelser, alvorlige forbrytelser som drap og overfall. Men lett å utvide systemet til å også gå etter “part 2”-forbrytelser, mindre viktige lovbrudd som narkotikabruk, forbrytelser som kanskje ingen egentlig ville lagt merke til om politiet ikke var der. Disse er vanligst i fattige boligområder. Dermed sendes politiet dit, og oppdager lovbrudd de ellers ikke ville hørt om, som igjen mates inn i systemet, slik at det fremstår enda viktigere å være tilstede der. Ond sirkel av overivrig polititilstedeværelse. Modellen bryr seg ikke om hudfarge, men siden fattigdom korrelerer med det, blir utslaget rasistisk. Det er også lettere å spå slike lovbrudd. Rusmisbrukere liker å holde seg til faste steder, mens biltyver beveger seg rundt.

Politiet følger opp slike mindre alvorlige lovbrudd fordi de tror på broken windows policing, at små lovbrudd skaper en lovløs stemning i et område som så fører til alvorlige lovbrudd. Fører til nulltoleranse som i New York siden 1990-årene hvor politiet oppførte seg aggressivt mot unge og minoriteter. Stop and frisk. Den opprinnelige ideen om ødelagte vinduer kom fra Kelling og Wilson, som tvert i mot la vekt på at politiet skulle være tolerante og tilpasse seg normene i området de patruljerte. Hjelp et område med å håndheve de normene de faktisk har der, forhindre dem i å forfalle, selv om det kanskje innebærer å la folk drikke i sidegatene. Ikke komme utenfra og innføre fremmede normer.

Det er ikke gitt at det er slike lovbrudd det er viktigst å bekjempe. Hvitsnippforbrytelser kan gjøre enorm skade, men er vanskelig å etterforske. Politiet går etter det som er lett å ta, med hjelp av dårlige modeller. Spåspaning kan brukes fornuftig, men er veldig lett å bruke feil, slik at det rammer fattige og minoriteter.

85% av de som stoppes og sjekkes på gata av politiet i New York er unge minoritetsmen. Bare 0.1% kan knyttes til lovbrudd. Stop and frisk er ikke en WMD, fordi avgjørelsen om å stoppe noen bygger på politifolkenes subjektive vurderinger. Men har en lignende selvforsterkende effekt fordi man ender opp med å straffe unge minoritetsmenn for lovbrudd alle unge menn begår, som fyll og narkotikabruk. Havner på rullebladet deres.

Konflikt mellom rettferdighet og effektivitet. WMD er gjerne veldig effektive, fordi de bygger på å kverne data om ting som kan måles og telles. Rettferdighet er ukvantifiserbart, vanskelig å ta høyde for. Dermed blir resultatet urettferdig. Vi må kjempe aktivt for å gi rettferdighet en plass i systemene vi bygger. Det kan innebære å takke nei til store datamengder.

Ulike WMDs spiller sammen for å ødelegge folks liv. Du har større sjanse for å bli arrestert pga området du bor i og tilhørighet til en minoritet. Deretter får du lengre straff av samme årsak. Området ditt og gruppen din anses som mer kriminelt tilbøyelig fordi skolene er dårlige, folk har lite utdannelse, får seg ikke jobb. Altså burde man angripe problemet der, ved rota, ikke nøye seg med å la en algoritme tildele området flere politifolk og lengre fengselsopphold. Ingen måler om det lengre fengselsoppholdet faktisk fører til noe positivt. Fengselssystemet er uinteressert i dette og andre interessante ting man kunne forsket på, så som hva isolasjon og seksualovergrep gjør med innsatte. Dermed ingen mulighet for systemet til å lære av egne feil.

Politiet i San Diego har tatt i bruk ansiktsgjenkjenning for å koble folk de ser til databaser med mistenkte. En mer avansert utgave av stop and frisk. (Antagelig kommet langt etter at boka ble utgitt i 2016?) Slik overvåkning kan inngå i systemer som prøver å forutse kriminelle individer. Miles Wernick, Chicago: Laget system som plukket ut de fire hundre personene som mest sansynlig ville begå et voldelig lovbrudd, basert på for eksempel hvilke venner man har. Politiet oppsøkte dem og fortalte dem at de følger med. Strengt tatt riktig at de nok er mer sannsynlige til å gjøre noe ulovlig, men samtidig dypt urettferdig, fordi de utpekes kun basert på hva andre har gjort. Bedre å gjøre som i den opprinnelige broken windows-studien: Politi som bygger gode relasjoner til innbyggerne i et nabolag.

6. Ineligible to Serve. Getting a job.

Arbeidsgivere i minstelønnyrker bruker personlighetstester til å “red-lighte” folk de ikke vil ansette. Tester som “Five Factor Model” som plasserer deg på en skala av utadvendthet, agreeableness, conscientiousness, nevrotiskhet og åpenhet for ideer. Ikke så farlig å få nei fra én arbeidsgiver. Men mange bruker de samme systemene. Dermed får man nei fra alle. Kjennetegn på WMD: Dårlig modell, skalert opp til å gjelde alle.

Slike systemer erstatter de subjektive vurderingene arbeidsgivere brukte tidligere: Ligner du meg, kjenner du noen jeg kjenner, liker jeg deg? Irrasjonelt men samtaidig variabelt. Du kan få nei fra én arbeidsgiver som ikke liker deg, men ja fra neste.

Kronos: Grunnlagt i 1970-årene. Lager HR-software. Mål om å gjøre ansettelsesprosessen mer vitenskapelig og dermed mer rettferdig. En del av en voksende industri som analyserer ansatte og potensielle ansatte, som regel basert på proxydata. I utgangspunktet har man ikke lov til å sortere ut ansatte basert på dere mentale helse, så kan man ikke stille spørsmål direkte om dette, men man kommer seg rundt dette fordi mental helse korrelerer med så mye annet som man har lov til å spørre om. Vanskelig å lure personlighetstester fordi de gir det vanskelige valgmuligheter hvor ingen av alternativene er åpenbart “friske”. Det er ikke enkeltspørsmål som diskvalifiserer men det større mønster. Utenforstående har ikke innsyn i hva dette mønsteret er, hva systemet leter etter. Systemet får heller ingen feedback basert på hvem man sa ja og nei til. I sportsstatistikk følger man opp spillerne man takket nei til og bruker deres resultater til å kalibrere systemet. Ikke mulig å følge opp en jobbsøker man takket nei til og se at de gjorde det veldig bra i sin neste jobb. Og hvis det var mulig, ville man ikke tatt seg bryet, fordi tapet av å takke nei til én dyktig ansatt i minstelønnyrker er så lav. Systemene skal være billige, ikke mest mulig korrekte.

En annen viktig del av ansettelsesprosessen er systemene som rangerer de jobbsøkerne som ikke forkastes. Viktig å stå høyt på lista. Tradisjonelt sett havner hvite menn øverst, basert på fordommene til arbeidsgiverne. Fristende å innføre rasjonelle, automatiserte systemer som kun ser på objektive data. Slike systemer gjør at i dag (2016, USA?) blir 72% av CV-ene som kommer inn aldri lest av et menneske. Derfor viktig å utforme dokumentet på en algoritmevennlig måte. Unngå bilder, fonter, symboler som er vanskelig å analysere. Belønner de som har utdannelse og ressurser nok til å utforme dokumenter riktig. Litt på samme måte som det er essensielt for små bedrifter å utforme hjemmesiden sin slik at den havner høyt i Google-rangeringen.

St. George’s Hospital Medical School i London, pioner i å innføre automatiserte systemer for å rangere jobbsøkere. Slutten av 1970-årene. Totalt mislykket, fordi systemets definisjon på en god ansatt ble formet av skolens tidligere ansettelser. Dermed omformet man menneskelige fordommer til en effektiv algoritme. Menneskene kastet ut CV-er med grammatiske feil. Systemet kunne ikke gjenkjenne slike feil, men så at avvisningene korrelerte med utenlandske navn og boligområder med mange minoriteter, og begynte å avvise disse i stedet. Ble til slutt anklaget funnet skyldig i rasisme av den britiske rasediskrimineringskommisjonen.

Slike modeller fanger ofte korrekt opp at noen grupper har andre forutsetninger enn andre, for eksempel språkproblemer eller at mødre er avhengig av barnepass. Problemet er når man så straffer dem for dette ved å avvise dem, i stedet for å hjelpe dem.

Dyrt å erstatte ansatte som slutter, churn. Ansettelsessystemer prøver derfor å anslå risikoen for dette.

Gild - startup som analyserer sosiale medier og andre datakilder som GitHub og StackOverflow for å vurdere jobbsøkere i teknologiselskaper. Følger dem også opp senere, har som mål å kunne spå når dine beste ansatte er rastløse og du bør gjøre noe ekstra for å beholde dem. Har seks millioner programmerere i databasen sin. Vanskelig å finne gode data, men i en så stor database kan man alltid finne et mønster, så som at en masse gode programmerere henger på et bestemt mangaforum. Selv om korrelasjonen er meningsfull, er den samtidig urettferdig, den straffer de som av ulike grunner ikke kan sitte timesvis om kvelden for å snakke om manga. Men ikke en WMD, fordi dette foreløpig bare er ett lite selskap av mange.

I praksis ofte lite forskjell mellom jobbsøkeralgoritmer og frenologi.

7. Sweating Bullets. On the job.

Clopening: Når den samme ansatte som stengte butikken kvelden før, åpner den igjen neste morgen. Resultat av nye systemer som gir ansatte tilsynelatende tilfeldige, vilkårlige jobbrutiner, ofte på kort versel. Behandles like vilkårlig som servere i clouden, som ressurser som kan instansieres ved behov, uten hensyn til hva de ansatte selv ønsker. Målet er å optimisere hvor mye man får ut av hver ansatt. Forutse når det trengs ekstra ansatte i butikken, la dem være der da men ikke lenger. Analysere ikke bare historiske kundemønstre men også data som sier noe om fremtiden, som værvarsel, kommende arrangementer og merkedager.

Resultatet er i praksis at de ansatte tjener mindre og må jobbe hardere. De mister de “ineffektive” dødperiodene hvor det er stille i butikken og man kan slappe litt av, og mister også lønna for disse periodene. Ideelt sett skal man nå være opptatt hvert minutt på jobben, ellers er algoritmen ineffektiv. Vanskelig å leve midt oppi slike systemer, særlig hvis man har familie ved siden av. Det har vært noen medieskandaler om hvordan det slår ut på ansatte, men vellykkete butikker og serveringssteder som Starbucks er bygget opp rundt slik planlegging i så stor grad at de ikke kan la være. Ingen har insentiv for å endre på det som fungerer.

Røtter i Operations Research, en matematisk retning som handler om effektiv ressursutnyttelse. Foredlet i det japanske Just in Time-systemet, som la opp til å unngå store lagre av deler og råmaterialer i fabrikker. Pull-system hvor det er hastigheten i den endelige produksjonsprosessen som trekker resten av systemet med seg. Skaff delene til rette når de trengs, ikke før. Dagens scheduling-systemer er Just in Time med mennesker. Finn den riktige balanse hvor man ikke sliter ut arbeiderne helt, for da må de erstattes, men hvor de ikke får forutsigbarheten man trenger for å oppfylle andre mål i livet. Påvirker barna deres også, som opplever et liv uten faste rutiner.

Cataphora - selskap (2008-2012) som skulle rangere teknologiarbeidere på ting som hvor mange gode ideer de kommer opp med. Studerte internkommunikasjonen i selskaper under forutsetning av at gode ideer sprer seg, så man kan følge dem via mail osv. Måtte samtidig skille ut vitser, rykespredning og annet tull. Kategoriserte ansatte som idea generators, opphavet til ideer, og connectors, som sprer dem videre. Slik analyse kan være godartet, som når analyser av call centers fant at det hjalp for produktiviteten å la ansatte være sosiale og småprate med hverandre. Cataphoras system førte til at folk som fremstod “mørke” i selskapets idénettverk mistet jobben. Men ingen oppfølging av hva de gjør senere for å justere algoritmen. Er dataene som måles faktisk meningsfulle?

Frykt i USA i 1980-årene for at dårlige lærere var årsaken til synkende SAT-resultater. Løsningen var systemer som evaluerer lærere, en value-added model. Hvor mye bidrar læreren til å heve barna fra utgangspunktet deres? Evalueringen gir underlige resultater, og også premisset for å innføre den var feil, en statistisk feil som gjorde at en økning i studentantallet fremstod som fall i kunnskap. Value-added modellen ser ikke på resultater direkte, fordi det vil belønne rike skoler og elever. Ser i stedet på noe mye mindre håndfast: Hvor godt elevene gjør det sammenlignet med hvor mye man spår at de kommer til å oppnå. Forskjellen antas å være lærerens skyld eller fortjeneste. En modell med veldig ustødige forutsetninger, ender lett opp som ren støy. Kunne fungert hvis én lærer hadde tusenvis av elever, men med noen titalls elever skal det lite til for å gjøre tallene verdiløse. En lærer fikk svært lav score etter å ha undervis en klasse hvor mange av elevene enten var svært dyktige eller hadde spesielle behov. Ingen av disse er lett å dytte til noe bedre enn “forventet” resultat, dermed var fremstod han som en dårlig lærer.

8. Collateral Damage. Landing credit.

Den tradisjonelle lokale banken var mektig og fordomsfull. Løsningen i USA var FICO, som gir deg en credit score ut fra hvordan du har oppført deg tidligere, om du betaler lånene i tide eller misligholdt dem. Ikke en WMD. Måler dataene banken faktisk bryr seg om, hvorvidt lånet betales tilbake, og har en god feedback-løkke: Hvis folk med lav eller høy score oppfører seg annerledes enn modellen tilsier, kan den justeres. Gjennomsiktig modell hvor du kan forstå analysere.

I dag finnes det nye modeller (e-score) som prøver å gå lengre enn FICO, men samtidig bygger på mer tvilsomme data, ikke har en god justeringsevne, og ikke er gjennomsiktige. Dermed WMD. F.eks. system som lar kundeservice prioritere de mest lønnsomme kundene, eller kredittkortselskaper som gjør bruk av nettbruken eller den geografiske plasseringen din for å vurdere hvor rik du er. Skaper feedback-løkker tilsvarende redlining hvor folk i fattige områder straffes med høyere renter, uten individuelle hensyn. Tilsvarer dermed den tradisjonelle bankfunksjonæren som også vurderte lånesøkere ut fra hvilken gruppe de tilhørte, ikke deres individuelle betalingsevne. “Forbedringen” er et tilbakeskritt, går tilbake fra individ (“hvordan har du oppført deg før?") til gruppe (“hvordan har folk som deg oppført seg før?").

Kredittscore kan bli WMD når det brukes som proxy for andre egenskaper, som hvor pålitelig du er. Men du blir ikke upålitelig av å ha en økonomisk krise. Du blir kanskje en mindre verdifull lånetaker, men ikke en dårligere ansatt. Mange arbeidsgivere i USA bruker kredittscore i ansettelsesprosessen. Skaper en ond sirkel hvor fattigdom straffes med fattigdom.

Automatiserte systemer inneholder ofte feil og dårlige persondata som er lett å rydde opp i hvis et menneske tar seg bry med å se på det, men som ikke er verdt noens tid å se på når det gjelder avgjørelser som rammer fattige. CV’en din dyttes ned på søknadslista for en minstelønnjobb fordi du har blitt forvekslet med en annen. Dataene formidles av selskaper som kanskje ikke gir deg tilgang til hva de vet om deg, eller noen måte å rette opp i det på. (Slikt som GDPR i teorien skal forhindre i EU.)

ZestFinance - selskap stiftet av Google-veteran for å tilby payday loans (forbrukslån?) til en litt lavere rente til personer systemet deres vurderer som en lavere risiko basert på dataene de har om dem. Belønner for eksempel det å fremstå som en “regelfølger” gjennom å skrive grammatisk riktig og lese alle terms and conditions. Dermed straffer de også folk med lav utdannelse, som korrelerer med minoritetsgrupper og fattigdom.

9. No Safe Zone. Getting insurance.

Frederick Hoffmann, 1896, la fram statistikk som argumenterte for at det var ulønnsomt å tilby forsikring til svarte amerikanere, eller iallfall svært risikabelt. La grunnlaget for mange år med diskriminering av forsikringsbransjen, bl.a. red lining. Hoffmann gjorde to statistiske feil: Koblet risikoen til det at de var svarte, altså noe essensielt som ikke kan endres, og ikke til det at de levde med rasisme og diskriminering, altså noe som kan bøtes på med politikk. Valgte også å gruppere svarte under ett, slik at de få som hadde gode levekår ble slått sammen med de mange som hadde dårlige. Kategoriseringen førte dermed til en rasistisk konklusjon: Det vil alltid være mer risikabelt å tilby forsikring til svarte, uavhengig av individuelle faktorer og politikk.

Forsikringsbransjen bygger på å plassere oss i grupper og beregne risiko for disse. Trenden er mot mer presise og mindre gjennomsiktige gruppedefinisjoner. Bak ligger kanskje komplekse modeller basert på proxydata som gir et nøyaktig men dårlig svar. Mangelen på gjennomsiktighet åpner også for utnyttelse av kundene. Forsikringsselskapet Allstate beregner hvor prisbevisst en potensiell kunde fremstår, og tilbyr høyere pris til de mindre bevisste. Mange er sinte på bilforsikringsindustrien fordi den bruker underlige data, mender de kunne holdt seg til det mest åpenbare med direkte betydning på risiko.

Transportselskaper setter overvåkningsutstyr i lastebiler. Kamera på sjåføren, GPS, osv. Kan brukes til å beregne individuell risiko per sjåfør, og en bonus til de som godtar overvåkning vs de som nekter. Kan i teorien overføres til personbiler. Høyere pris for de som ofte kjører i risikoområder, dvs de som er fattige, eller er nødt til å kjøre på natta. Selv individuell vurdering sammenligner oss dermed med en gruppe og kan bidra til å forsterke straffen for å tilhøre en utsatt gruppe. Handler ikke kun om dine kjøreferdigheter.

Individuelle risikovurderinger undergraver også poenget med forsikring, som er å dekke over ujevnheter. En helt nøyaktig risikovurdering vil i praksis bare bety at du forhåndsbetaler for uhellene du vil oppleve i framtiden, i stedet for at du får hjelp slik at de rammer deg mindre hardt.

Gruppen vi vil bli plassert i fremover vil baseres på oppførsel. Risikoen beregnes ved å se på folk som oppfører seg som deg. Maskinlæring pluss stordata kan fange opp mønstre og oppførselsgrupper vi mennesker ikke er klar over, helt uten bruk av menneskelige klassifiseringsbegreper. Selskapet Sense Networks gjorde dette ved å analysere bevegelsesmønstre fra mobildata. Plasserte folk i grupper basert på hvem andre som har de samme mønstrene. Dataene brukes nå til annonser, men vil i potensielt også kunne brukes til forsikring.

Slike klassifiseringssystemer er svarte bokser. Vi forstår ikke mønstrene og har ikke innsyn i prosessen som kategoriserer oss. Sterke insentier for å innføre individuell risikovurdering og systemer som mater dette med data, f.eks. at kunden forpliktes til å bli aktive brukere av en helseapp. Disse dataene kan igjen brukes av arbeidsgivere til å sette helsemål for sine egne ansatte, f.eks. basert på tvilsomme indikatorer som BMI.

Slik misbruk av helsedata er ikke at matteødeleggelsesvåpen ennå, fordi systemet er relativt gjennomsiktig. Du vet hva du blir målt på.

10 The Targeted Citizen. Civic Life.

Skjulte algoritmer påvirker også vår mulighet til å snakke om matteødeleggelsesvåpen, som når man poster et innlegg på Facebook. Faktorer ingen forstår styrer hvem av vennene dine som får se innlegget eller artikkelen du har delt.

Facebook har forsket på om de kan motivere folk til å stemme i valg. Kom fram til at de hadde økt valgdeltagelsen med kanskje 340 000 stemmer. Det som påvirket folk var å få vite at vennene deres hadde stemt. Har også kjørt andre eksperimenter på brukerne sine, så som om det å se mer positive eller negative innlegg påvirker humøret ditt.

Facebook er Wizard of Oz. Vi ser ikke mannen bak teppet. Mange vet ikke en gang at Facebook manipulerer feeden vår, tror at så lenge man poster noe, så får vennene dine se det. Google har samme evnen. Former verdensbildet vårt gjennom hvilke resultater vi får.

Facebook og Google er ikke matteødeleggelsesvåpen ennå, fordi det er uklart om de gjør noe som er aktivt til skade for oss. Men stort potensiale.

Politikere har alltid vært flinke til å vise ulike sider av seg selv, avhengig av hvem de snakker med. Annonseteknologien på nettet gjør dette enklere: Du kan fortelle individuelle mottakere nøyaktig det du tror de ønsker å høre. Du kan plukke ut nøyaktig de som er åpne for påvirkning, og bruke penger på dem. Obama-kampanjen i 2012 gjorde bruk av slike analyser. Dele opp alle i tribes som kan behandles på hver sin måte. Brukte folk som Rayid Ghani som hadde gjort lignende analyser av forbrukere. Startet med dybdeintervjuer av tusenvis av mennesker for å definere kategoriene, og prøvde så å plassere millioner av andre velgere i disse kategoriene.

Cambridge Analytica, avslørt i 2015 at de hadde skaffet data om millioner av Facebook-brukere som ble kategorisert i henhold til big five personlighetstyper. Kunne så brukes til politisk annonsering. Uklart om slik presisjonsannonsering faktisk er effektiv. Men skadelig, og gjør det vanskelig å analysere politikernes budskap. Kommunikasjonen foregår i det skjulte, i annonser vist til enkeltpersoner.

Conclusion

Matteødeleggelsesvåpen kombineres med hverandre og forsterker skaden. Fattige har dårlig credit score pga stedet de bor. Plukkes ut som ofre av rovannonsører som tilbyr dårlige lån, sender ekstra mange politifolk til gata deres, gir dem lengre straff for lovbrudd, som igjen forsterker inntrykket av at dette er dårlige mennesker som tilhører en risikabel gruppe. Dyrere lån, lavere credit score, osv. Ond sirkel.

Primært fattige som er ofre for matteødeleggelsesvåpen i dag, fordi de er enklest å ramme. Etterhvert utvikler systemene seg og kommer for de bedrestilte også.

Ville vært mye vanskeligere å bekjempe diskriminering av kvinner og homofile i skole og arbeidsliv hvis dagens systemer hadde eksistert for noen tiår siden. Vanskelig å forby diskriminering av en gruppe når viktige beslutninger tas automatisk av et system som basert på dårlige data og modeller identifiserer de samme gruppene på en indirekte måte og kommer fram til at de er høyrisiko. Modellene gjenspeiler fortiden, og baker inn fordommene som gjaldt før, gjør dem permanente og tilsynelatende “rasjonelle”.

Ny hippokratisk ed for dataanalytikere (Emanuel Derman, Paul Wilmott 2008):

  • Jeg skapte ikke verden, og den passer ikke inn i ligningene mine
  • Bruk modeller til å estimere, men ikke la deg imponere for mye av matematikk
  • Ikke ofre virkelighten for en elegant modell uten å forklare hvorfor
  • Ikke gi folk falsk trygghet i modellens presisjon, snakk åpent om forutsetninger og svakhete
  • Arbeidet vårt har store og til dels uforståelige konsekvenser på verden

Men selvregulering ikke nok. Og ikke nok å regne på skaden dårlige modeller gjør og slå ned på denne. Alt kan ikke tallfestes. Vi må bygge menneskelige verdier inn i modellene. Analyser av modeller kan føre til konklusjonen at vi må gjøre dem mindre presise. At de har et presisjonsnivå som i seg selv er skadelig, vi trenger “dummere” modeller, enklere og mer forståelige regler. Modeller som har stor effekt på livene våre må uansett være gjennomsiktige for både forskere og oss andre. (Tilsvarende innsyn i algoritmebeslutninger i GDPR?)

På sitt beste kan avanserte modeller brukes til å identifisere personer og grupper som trenger ekstra hjelp fra myndighetene. Da er det ikke algoritmen som tar beslutningen om hva som skal skje, den er bare et hjelpemiddel for å fange opp ting som bør følges opp av mennesker. (Tilsvarer litt debatten om AI vs HUD i f.eks. biler og fly.)