Expert Political Judgment: How good is it? How can we know?

Philip E. Tetlock

Princeton University Press, 2017

(Klassiker om i hvilken grad eksperter er i stand til å komme med spådommer om området sitt, hvor konklusjonen er: Nei, ikke særlig mye. Men “rever” som har flere tanker i hodet samtidig gjør det mindre dårlig enn “pinnsvin” som ser verden kun på én måte._

Tetlock forsket på perioder med store omveltninger, f.eks. hva Sovjetunionens fall ville føre til i 1990-årene. Ekstra aktuelt nå i 2025. Ett av hans frustrerende funn: Det gir ikke bedre spådommer å være pinnsvin på den “riktige” siden enn den “gale”, det vil si det finnes ingen bestemt ideologi eller teori som konsekvent gir riktige svar.

For et mer oppdatert stykke forskning i samme gate, se Alexander Beadles oppsummering av funnene som ble gjort etter en prediksjonsturnering hos Forsvarets forskningsinstitutt.)

Forord, 2017-utgave

Boka ble tolket som at den påstod at eksperter er ubrukelige. Men poenget var snarere at fordelen deres er uklar når det kommer til beslutninger i usikre omstendigheter.

Brier-skalaen måler avstand mellom spådom (0-1) og virkelighet (0-1), hvor 0 = skjedde ikke, 1 = skjedde. Avstand 0 over tid betyr at man har perfekt klarsyn. 2 betyr at man har perfekt anti-klarsyn, feil om alt. 0.5 betyr at det er helt tilfeldig, ie sjimpanser som kaster dartpiler.

Funn:

Eksperter overvurderer som regel prediksjonsevnene sine. De er sikrere enn de bør være.
Eksperter gjør det litt bedre enn sjimpanser, men ikke særlig bedre enn sofistikerte dilettanter, eller en algoritme som bare ekstrapolerer nåværende trend.
“Rever” gjør det bedre enn “pinnsvin” (ref Isaiah Berlin - The Hedgehog and the Fox), særlig på lang sikt. Rever holder seg mer til data og fakta. De er mer bevisst på hvordan usikkerhet samler seg opp over tid.
Bedre spådommer er knyttet til nysgjerrighet, åpenhet, en uvanlig toleranse for dissonanse. Man er åpen for kontrafaktiske historiefortellinger, også når disse innebærer at de tok feil, eller har en ideologisk brodd de ikke liker.
Men ikke generaliser for mye om pinnsvin og rever.

Pinnsvin snakker på en vag, men medievennlig måte som gjør at det alltid finnes en vei ut av en feil spådom. (Samtidig: Siden ideologi også handler om verdier, er det ikke gitt at en påstand om “dette vil skje” bør tolkes bokstavelig.)

Meninger signaliserer også lojalitet til gruppen. Derfor er det vanskelig å tenke gjennom ting på egen hånd. (Ja, men dette er en individorientert måte å se det på. Det er ikke gitt at det er bedre, eller mulig, å “tenke gjennom ting på egen hånd”.)

Media burde legge vekt på objektive vurderinger hvor eksperter kommer med spådommer som de kan holdes ansvarlig for. Veddemål, betting markets. (Naivt .. hvem formulerer spørsmålene? Forutsetter et post-ideologisk perspektiv, men det er jo nettopp ideologi mye uenighet kommer fra.)

Unødvendig tvetydighet er et større problem enn falsk presisjon.

Forsvar mot kritikk av førsteutgaven: Ekspertspådommer er mulig, men de må være håndfaste. (Men er dette noe eksperter egentlig bør drive med? Hvorfor skal EU-eksperter ha en mening om hvor mange land som er med om fem år? Verdien av en slik spådom må kobles til en handling vi kan gjøre i nåtiden, og da er vel utfallsrommet viktigere?)

Større og mer åpne temaer som krig mellom USA og Kina eller AI-drevet fjerde industrirevolusjon kan snakke om ved å dele dem opp i mindre deler som kan fungere som tidlige varsler på hvilket spor vi befinner oss på.

Kvantifisering av det ikke-kvantifiserbare

Ref Isaiah Berlin: Rever trekker på flere tradisjoner, godtar tvetydighet og motsigelser. Pinnsvine holder seg til én tradisjon, presser alle problemer inn i en fast ramme. s2

Sterk relativisme: Politiske vurderinger er helt bortkastet. Svak relativisme er mer forsiktig. Vi kan stille to krav: At vurderingen stemmer empirisk med virkeligheten, og at de henger sammen og oppdateres i lys va nye fakta. Altså, du må ha rett, og også tenke riktig. s6

Korrekt forståelse kan føre til feil spådom, fordi omstendighetene endte opp feil. Samtidig kan feil forståelse ved en tilfeldighet føre til riktig spådom. Begge deler er sant, men brukes også ofte som unnskyldning for hvorfor vår side bommet med våre spådommer og deres side traff riktig. s14

Også for prosesser finnes det slike tolkninger. Noen feil finnes det ingen uenighet om. Andre er det vanskelig å bli enige om. Enten snakk om en dyp uenighet, eller om hvor man skal trekke grensen. s16

Utfordringen fra radikal skepsis

Radikal skepsis: Samfunnsvitenskapens jakt på prediktive lover er bortkastet tid. s23

Skeptikerne mener at når politikk ikke er stabil og forutsigbar, er den tvert i mot helt uforutsigbar. s26

Typer skepsis / kilder til uforutsigbarhet:

Ontologiske skeptikere mener at uforutsigbarheten følger av noe helt grunnleggende ved virkeligheten. s27
Path dependency: Små tilfeldigheter i starten kan dytte historien inn på te spor det siden er vanskelig å komme seg ut av. Men før eller siden slår negativ feedback inn - spørsmålet er når. s28
Kompleksitetsteori: Årsakssammenhenger sprer seg gjennom uforståelige intrikate nettverk. Dermed umulig å plukke ut innflytelsesrike handlinger tidlig. s30
Spillteori: Uforutsigbarhet oppstår når rasjonelle aktører prøver å gjette hva motparten vil gjøre. “De vet hva jeg vil, men jeg at de vet hva jeg vil”, og så videre. s32
Sannsynlighetsteori: Ekstreme utfall forårsakes gjerne av flere usannsynlige årsaker slått sammen. Selv om vi fostår årsakene, kunne vi ikke spådd utfallet. s34
Psykologiske skeptikere: Spådommer kan være mulig i teorien, men problemet ligger i ekspertenes psykologi. De foretrekker enkle svar. Misliker tvetydighet og dissonanse, særlig pinnsvinene. Men historien er full av dette. Kontrollbehovet vårt gjør at vi velger teorier som forteller oss at vi kan påvirke resultatet. Dette viser en svak forståelse for tilfeldigheter. Vi ønsker å se mønstr ei støy. Men hvis baseraten er at den sittende politikeren vinner 80% av gangene, er det tvilsomet å tenke ut en intrikat teori for hvorfor det skal gå annerledes denne gangen. Bedre å tenke mindre, gå for det mest sannsynlige. s37-s40

Testbare hypoteser fra disse formene for skepsis:

Mennesker gjør det neppe bedre enn tilfeldig eller enkle ekstrapolerende algoritmer. s41
De som kan mye har neppe en stor fordel over de som kan litt. s42
Noen kan gjøre det bedre på en gruppe av sammenhengende spådommer, men dette gir dem ingen fordel i andre spørsmål senere.
Eksperter er flinkere til å begrunne og rasjonalisere, som gir dem overdreven selvtillit.
Berøømmelse bidrar også til overdreven selvtillit. s43
Noen eksperter vil tilfeldig fremstå ekstra treffsikre over tid. Før eller siden bryter illusjonen sammen, men den kan opprettholdes lenge. Vi ønsker å tro at noen vet hva som foregår. s44

Resultat fra test av disse hypotesene:

Mennesker gjør det bare litt bedre enn tilfeldig (“sjimpanser”), og fordelen er enda mindre sammenlignet med ekstrapolerende algoritmer. s52
Eksperter gjør det ikke bedre enn dilettanter. Eksperter og dilettanter gjør det likevel betydelig bedre enn de som kun har overfladisk kjennskap til temaet. s54
Det er riktig at eksperter kan få en “streak” innenfor et tema pga sammenhengende faktorer. Men de som gjør det bedre på ett område kan også gjøre det mye bedre på helt urelaterte områder. Dette strider med hypotesen. s60
Eksperter er sikrere enn dilettanter, tross at de ikke gjør det særlig bedre. Legger også frem flere begrunnelser, men det er ukarlt om dette henger sammen, slik hypotesen sier. s61
Ja, populære eksperter er mer overmodige. Men det er uklart hva som er årsak og virkning. Det kan være at overmot er mer medievennlig, det er derfor de slipper til, ikke at det er medieopptredene som gjør dem overmodige. s62
Vi søker mest mot eksperter når mye står på spill. Vi forventer at politikerne lytter mer til ekspertene i disse tilfellene. Skeptikerne taper dermed politiske selv om de vinner på fakta. s64

Eksperter generelt kommer dårlig ut av dette. Men dataene hinter om at eksperter individuelt har egenskaper som bør utforskes nærmere. s65

Å kjenne egen kunnskaps begrensninger

Vi kan forsøke å skille gode fra dårlige eksperter langs tre akser: Bakgrunn, innhold og stil. Men det viser seg at bakgrunn (utdannlse, tilgang på hemmelig informasjon, erfaring og så videre) er irrelevant, bortsett fra at det er en negativ sammenheng med mediesynlighet. s68

Innhold / idelogi har også liten betydning. Det vil si høyre vs venstre, idealist vs realist, doomster vs boomster. Det som derimot har noe å si er kognitiv stil: Berlins pinnsvin vs rev. Revene gjør det bedre. s72

De flinkeste revene er likevel ikke flinkere enn en enkel ekstrapolering. s76

Revene har en stor fordel over pinnsvinene i vurdering av sannsynlighet, særlig sammenlignet med de som spår på lang sikt innenfor eget domene. s78

Ekspertise har en positiv effekt for revene, men negativ for pinnsvinene. Pinnsvin ligner personlighetstyper som har større behov for å avslutte ting, finne strktur. De er mer motivert til å avvise motstridende fakta, være selektve. Kunnskap gir dermed mer ammunisjon for dette. s81

Rever:

Er skeptisk til deduktive forklaringer og spådommer.
Peker på fakta som bryter med deres egne analogier.
Unngår ekstreme prediksjoner av typen som forårsakes av positive feedbackløkker.
Forsiktige med å dømme fortiden ut fra informasjon de ikke hadde da.
Har et mer ironisk, distansert syn på livet.
Gjør bruk av motstridende argumenter om grunnleggende spørsmål, som hva mennesket kan påvirke og hvor rasjonelle vi er. s88

Pinnsvin er opptatt av å ikke la seg distrahere fra de dype lovene som driver historien. Rever er skeptiske til slike lover. Selv de beste lovene gir ikke utvetydige svar. Ofte må vi balansere flere av dem mot hverandre. Revene tror på å improvesere dissonante kombinasjoner av ideer som fanger den dynamiske spenningen i en situasjon for en kort stund. s89-91

Churchills definisjon på en fanatiker: En som ikke kan endre mening og ikke vil endre tema. s100

Pinnsvinene bruker fremtiden som retorisk grep: Fremtidens historikere vil undre seg over hvordan vi kunne være så naive og blinde. Revene tolker egen sikkerhet som et tegn på at de har gått for langt. Sikkerhet fører til tvil. s102

Revene forsøker å integrere motstridende tanker. s106

Revene er ikke gode til å spå, men de unngår en dle av fellene som gjør pinnsvinene dårligere. Pinnsvin graver seg ned i intellektuelle hull som de ikke kommer seg opp fra. s118

Justering i lys av nye fakta

Idealet er at vi bør justere oppfatningene i lys av nye fakta, proporsjonalt med hvor ekstreme vi var i utgangspunkt. Og ikke omskrive vår egen historie, “det var jo det jeg alltid har ment”. Men de som gjorde det dårlig i spådommene, gjorde det også dårlig i forhold til dette idealet. s121

Bayesiansk perspektiv: Det er irrasjonelt å spørre hvor sannsynlig X er, gitt ditt verdensbilde. Du må gange dette med hvor sannsynlig det er at ditt verdensbilde faktisk stemmer. Dette er neppe 100%. Det riktige er å ta hensyn til alle verdensbildene, med hver sin sannsynlighe for at de er riktige. Sannsynligheten for utfall X er summen fra hver av disse verdensbildene, ganget med sannsynlighet for hvert verdensbilde. s122

Det viktige er at når vi så ser det faktiske utfallet, bør vi også justere sannsynligheten for det underliggende verdensbildet. Hvis noe som er uvanlig i vårt verdensbilde, skjer stadig vekk, peker det mot en feil i vårt verdensbilde. s124

(Ie gitt to verdensbilder: 1) Donald Trump har en fast plan om å øke USAs makt og prestisje, eller 2) Donald Trump er mer en impulsiv leder. Vi gir 30% sannsynlighet til det første, 70% til det andre. Kommer han til å føre en ustabil handelspolitikk som vingler i tilfeldige retninger i fire år? Hvis han har en fast plan, er dette 10% sannsynlig. Hvis er impulsiv, 90%. Totalt 64%. Hvis det så viser seg at han faktisk ender opp med en stabil oppførsel innen tollbarrier osv, bør vi også justere opp sannsynligheten for at han har en fast plan. Det er irrasjonelt å si “ja, han fører en stabil politikk, men det er helt tilfeldig, for egentlig er han impulsiv”.)

Hverken revene eller pinnsvinene revurderer oppfatningene sine like mye som Bayes sier at de burde, men revene gjør det bedre enn pinnsvin. s127

Det finnes syv kategorier med forsvarsargumenter for å la være å justere synet sitt etter å ha tatt feil.

Stille spørsmål ved hva resultatet egentlig forteller oss om den underliggende hypotesen. Vilkårene for spådommen slo ikke til, så vi kan ikke avvise grunnlaget. s129
En faktor helt utenfor teoriens domene sporet av årsakskjeden. s131
Jeg hadde nesten rett. Det jeg spådde ville ha skjedd, hvis det ikke var for triville tilfeldigheter. Man ser for seg en troverdig alternativ virkelighet som veldig lett kunne ha skjedd, og som ville bekreftet spådommen. s132
Det var bare timingen som var feil. Dette kommer til å skje, bare vent litt til.
“Jammen, det er jo umulig å spå uansett”. Politikk er tåkete, spådommer er bare en lek - til tross for at man selv var villig til å spå i utgangspunktet. s134
“Jeg begikk den riktige feilen”. Det er bedre å bekymre seg litt for mye enn for lite, for å kunne motvirke/forhindre en katastrofe. (Samtidig: Slik kunne man jo tenkt selv om man ga katastrofen lite sannsynlighet. “X er usannsynlig, men vi må gjøre noe i tilfelle det skjer.”)
Det var usannsynlig, men noen ganger skjer det usannsynlige. (10 seksere på rad motviser ikke spådommen om det mest sannsynlige utfallet.) s135

Eksperter husket dessuten feil om hva de selv hadde spådd. De justerte sine tidligere oppfatninger nærmere det som faktisk skjedde. Effekten er større for pinnsvinene, kanskje fordi de har større behov for en konsistent teori og dermed raskt absorberer hendelser inn i sin forståelsesramme. Dette fungerer som en alternativ strategi til unnskyldninger: Glem feilene i stedet for å forsvare dem. s140

Evnen til å spå riktig henger sammen med evnen til å justere oppfatninger etter å ha tatt feil. Det er lettere å gjøre dette når man i utgangspunktet var åpen for flere utfall. Men pinnsvinene mener at andre faktorer er viktigere enn presise spådommer, så som at beslutningstagere trenger mot og selvsikkerhet, ikke tvil og usikkerhet. s142-143

Kontrafaktiske historiefortellinger

Historien er en dårlig lærer, fordi den bare gir oss det som faktisk skjedde. Men samtidig er vi også dårlige elever, som ignorerer det vi kan lære. s146

Eksperimenter hvor eksperter vurderer kontrafaktiske historiefortellinger:

“Hvordan ville du reagert” hvis det ble avdekket dokumentasjon som peker mot en annen tolkning av Sovjetunionen i 1920, 1950 og 1980-årene enn din egen? Altså at det kunne gått annerledes enn det gjorde. Både liberale og konservative var svært skeptiske til dokumentasjon som brøt med tolkningen deres, og svært åpne for det som støttet dem. s158

Pinnsvinene er mer villige til å bruke dobbeltstandarder for å evaluere slike funn enn revene, og også mer villige til å forsvare bruken av dobbeltstandarder. s160

Pinnsvinene slår tilbake

Pinnsvinene har flere styrker

De er mindre distrahert av støy
De er tøffere forhandlere, lar seg vanskeligere utnytte av motstanderen
De tar ansvar for kontroversielle beslutninger som skaper fiender
De er mer utholdende i gjennomføring av politikk som støter på midlertidige utfordringer
De har en inspirerende besluttsomhet. s164

Et mulig forsvar for pinnsvinene kunne være at de er mindre opptatt av nøyaktighet som sådan, mer av å unngå farlige feil, som å overse en fare, eller underdrive en faktisk trussel. Men det er vanskelig å finne støtte for dette i dataene. s166-167

Et annet forsvar kunne være at pinnsvin sikter mot fulltreffere, og foretrekker derfor å si “umulig” og “uunngåelig” mer enn revene. Dette hjelper litt, men ikke mye. s169-171

Et annet forsvar er at pinnsvinene er mer opptatt av ustabile situasjoner, hvor det er vanskeligere å spå. Dette hjelper også litt, men ikke mye. Det er uklart hvor langt man bør gå i å kompensere for vanskelighetsgrad. s173

Begrensninger ved å tenke åpent

Man har test bruk av scenarie-øvelser som verktøy for å motvirke skjevheten i eksperters tenkning. Men scenariene har ingen effekt på pinnsvinenes nøyaktighet, og en negativ effekt på revenes. De blir dratt inn i for mange hypotetiske men usannsynlige sidespor. s190

Scenarieskapere har i blant “spådd” riktig, som om OPECs vekst og fall i 1970- og 80-årene for Shell. Men de sikter så bredt at de ikke kan tolkes som spådommer. En finansportefølje er mer enn bare “spre eggene over flere kurver”. Hvilke kurver og hvorfor? s192

Amon Tverskys support theory peker mot at detaljer gjør at ting fremstår mer sannsynlige, slik at summen av sannsynligheten fra de detaljerte scenariene ender opp større enn sannsynligheten for et generelt scenarie som omfatter alle de detaljerte. s193

Tetlock fant at det å se for seg et scenarie fikk det til å fremstå mer sannsynlig, særlig

for eksperter, (sammenlignet med dilettanter)
når det utgjorde et brudd med status quo
når eksperten var en rev. s196

I spørsmålet om Canada kommer til å bli delt opp eller forbli samlet, endte man for eksempel opp med en total sannsynlighet på langt over 100%. s197

Scenarieeffekten slår til også når man ser for seg kontrafaktisk historie. Summen av scenariene ender opp på mer enn 100% sannsynlighet. s208

Objektivitetens begrensninger

Idealet om ideenes markedsplass har tre svakheter:

Publikum er umotivert til å vurdere påstander grndig nok
Publikum har feil motivasjon, ønsker bare å opprettholde eksisterende meninger
Riktig motiver er ikke nok på grunn av kognitive svakheter s231