ImageNet og andre datasett for maskinlæring

Maskinlæring er avhengig av enorme datasett som algoritmen kan trenes opp med. Den eneste måten å lære algoritmen hvordan katter ser ut, er å vise den svært mange bilder som vi på forhånd vet inneholder katter. Da må noen først lage et slikt datasett.

Et av gjennombruddene innen bildegjenkjenning kom da bildearkivet ImageNet, som i dag inneholder 14 millioner ferdig kategoriserte bilder, ble lansert mot i slutten av 2000-årene. Arbeidet med å kategorisere bildene ble utført av et stort antall lavt betalte løsarbeidere ved hjelp av tjenesten Amazon Mechanical Turk. ImageNet var det første slike datasettet i denne størrelsen, og blir fremdeles mye brukt til å trene opp og teste bildegjenkjenningsløsninger.

Samtidig har datasettet store svakheter, særlig innenfor personbilder, hvor mange av bildene har fått tildelt absurde, rasistiske og nedsettende merkelapper som “gook, slant-eye”, “ball-buster” og “closet queer”.

AI-forskerne Kate Crawford og Trevor Paglen forklarer at problemet er langt større enn at noen rasister har vært med å bygge opp datasettet. Det å tolke bilder og redusere dem til en liste nøytrale merkelapper er en uoverkommelig kompleks oppgave, fordi bilder består av flere lag med mening. Hva et bilde er og viser kan ikke løsrives fra den kulturelle og politiske konteksten som har formet det. Bilder består av åpne, ubesvarte spørsmål, av selvmotsigelser, og referanser til symboler som bare er forståelige for en som tilhører konteksten bildet er laget i. Dette kan ikke reduseres til en liste med merkelapper.

Likevel er det nettopp dette man må gjøre for å bygge opp en database som ImageNet. Den som bygger datasettet må innføre en taksonomi, som nødvendigvis vil gjenspeile deres forståelse av verden. Videre må arbeidet med å knytte bilder til kategorier utføres av mennesker, som dermed tilfører sine egne premisser til datasettet. Det er ikke tilstrekkelig å forhindre rasister i å bistå med klassifiseringen. Resultatet kan aldri bli nøytralt, fordi det ikke finnes nøytrale måter å beskrive bilder på.

Crawford og Paglen forklarer at taksonomien ImageNet bruker på er hentet fra orddatabasen WordNet, som plasserer alle engelske ord innenfor et hierarky av betydninger, litt slik bøker klassifiseres i biblioteket. WordNet inneholder premisser så som at menneskekropper klart kan kategoriseres som menn eller kvinner, og at hermafroditt er en underkategori av det å være bifil.

Videre er bildene knyttet et stort antall svært spesifikke kategorier som særlig når det gjelder personbilder brukes vilkårlig og fordomsfullt:

ImageNet contains 2,833 subcategories under the top-level category “Person.” The subcategory with the most associated pictures is “gal” (with 1,664 images) followed by “grandfather” (1,662), “dad” (1,643), and chief executive officer (1,614). With these highly populated categories, we can already begin to see the outlines of a worldview. ImageNet classifies people into a huge range of types including race, nationality, profession, economic status, behaviour, character, and even morality. There are categories for racial and national identities including Alaska Native, Anglo-American, Black, Black African, Black Woman, Central American, Eurasian, German American, Japanese, Lapp, Latin American, Mexican-American, Nicaraguan, Nigerian, Pakistani, Papuan, South American Indian, Spanish American, Texan, Uzbek, White, Yemeni, and Zulu. Other people are labeled by their careers or hobbies: there are Boy Scouts, cheerleaders, cognitive neuroscientists, hairdressers, intelligence analysts, mythologists, retailers, retirees, and so on.

As we go further into the depths of ImageNet’s Person categories, the classifications of humans within it take a sharp and dark turn. There are categories for Bad Person, Call Girl, Drug Addict, Closet Queen, Convict, Crazy, Failure, Flop, Fucker, Hypocrite, Jezebel, Kleptomaniac, Loser, Melancholic, Nonperson, Pervert, Prima Donna, Schizophrenic, Second-Rater, Spinster, Streetwalker, Stud, Tosser, Unskilled Person, Wanton, Waverer, and Wimp. There are many racist slurs and misogynistic terms.

Se for deg at du er en digital løsarbeider på Amazon Mechanial Turk, og får tildelt et stort antall personbilder som du på kort tid skal knytte til disse kategoriene. Når bruker du kategorien “closet queen”? “Nonperson”? Under kategorien “ball-buster, ball-breaker” finner du 49 bilder av ganske vanlige kvinner som ikke er i ferd med å knuse noen testikler, og som neppe er skyldig i noe mer enn at ansiktet deres fremprovoserte en slags seksuell angst hos mennene som kategoriserte dem. “Closet queen” viser 32 bilder av grupper med menn i bar overkropp, uten at det er klart hva som tilsier at akkurat disse mennene er “queens” som befinner seg i skapet.

Crawford og Paglen illustrerte problemet ved å trene opp sitt eget bildegjenkjenningsprogram på personkategorien i ImageNet, og lage et nettsted hvor brukere kunne laste opp bilder og se hvilke kategorier de ble plassert i. Som man kunne forvente fra datasettet, ble folk kategorisert på bisarre og i blant støtende måter. Et bilde av Sigeourney Weaver fikk for eksempel merkelappen hermafroditt, mens en kvinne på badestrand fikk merkelappen kleptoman. Og bilder av grupper med menn i bar overkropp ble kategorisert som closet queens.

Bilde klassifisert som closet queen av en algoritme trent opp med ImageNet

De påpeker at det å kategorisere menneskers egenskaper ut fra ansiktet og kroppen deres på denne måten, er beslektet med frenologi. Selv kategorier som har en knytning til utseende, som kjønn og etnisitet, er for komplekse til at man kan bygge et datasett som er godt nok, og oppgaven kan aldri løsrives fra skadelige politiske implikasjoner. De peker på datasettet UTKFace, hvor ansikter er kategorisert etter etnisitet, kjønn og alder, hvor transpersoner ikke er en kategori, og hvor de etniske kategoriene minner om de det sør-afrikanske apartheridregimet brukte for å rangere innbyggerne sine.

IBMs datasett Diversity in Faces var et forsøk på å løse dette problemet ved å bygge opp et enda større datasett, med mer detaljerte kategorier for etnisitet, men resultatet ble bare at de gravde seg enda dypere ned i rasevitenskapens historie og gjenoppfant kranioskopien, det vil si forskning på hodeskalleformer. IBM kom fram til at formen på hodet ditt forteller mer om etnisiteten din enn hudfargen, og inkluderte derfor dette i datasettet sitt. Samtidig tillot de bare to kjønn, og arbeidet med å klassifisere ble utført av digitale løsarbeidere, på samme måte som med ImageNet.

Når man leier inn tusenvis av mennesker til å gjette hodeskallformen til folk, bør man nesten stoppe opp og spørre seg selv: Hvorfor er det så viktig for oss å lage en rasegjenkjenningsalgoritme? Kanskje man bare skulle la være å lage et slikt datasett? (Det minner meg om en kunde jeg jobbet for som ønsket at brukerne skulle kunne velge hvilket kjønn de var, og for å være inkluderende la de til 40-50 valgmuligheter. Men hva skulle de bruke et så detaljert svar til? Det meste inkluderende ville vært å ikke spørre om kjønn i det hele tatt.)

Crawford og Paglen slår fast at dette problemet ikke lar seg løse. Det finnes ingen nøytral måte å bygge opp datasettene som brukes til maskinlæring.


Tilbake til algoritmer, teknologi og start.