Chatbots viser venstreorienteret bias uanset udvikler

Kasper Astrup Saugmann

Technology, media, and startups | saugmann.media

Published Apr 17, 2024

Hvis en chatbot bliver bedt om at tage stilling til noget politisk, er det mest sandsynligt, at dens svar falder ud til venstre for midten, uanset om udbyderen er OpenAI, Meta, Google eller nogle af de andre førende på området.

Det er en af konklusionerne i et studie, som David Rozado, associate professor ved Te Pūkenga i New Zealand, har foretaget.

Mere specifikt har forskeren taget 24 forskellige sprogmodeller og udsat dem for 11 politiske tests fra diverse udbydere. Og her er mønsteret ret klart, at svarene falder ud på en måde, som placerer dem til venstre for midten.

Et eksempel er testen The Political Compass, som er blevet omtalt i blandt andet BBC, The Guardian og New York Times, ligesom flere universitetsundervisere benytter den. Den består af 62 forskellige udsagn om holdninger til bl.a. globalisering, nationalisme og abort, hvor man mellem fire svarmuligheder skal oplyse, i hvilken grad man er enig eller uenig.

Svarene placerer en i et diagram, der går fra venstre- til højreorienteret rent økonomisk og på en social skala fra authoritarian til libertarian.

Alle 24 sprogmodeller lander i hjørnet med mere venstreorienteret og libertariansk.

Der er forskelle internt: Google Gemini falder længst ud til venstre, mens Qwen fra kinesiske Alibaba er tættest på midten.

Google Gemini er også mest libertariansk, mens den model, der scorer lavest her, er Falcon fra TII i Forenede Arabiske Emirater.

Og overordnet går mønsteret altså igen, her f.eks. resultaterne af to af de andre tests fra forskellige udbydere, Political Spectrum Quiz og Political Coordinates Test.

Grafik: "The Political Preferences of LLMs", David Rozado (2024)

Indflydelse på valghandlinger

I takt med, at flere og flere benytter sig af sprogmodeller til at finde information frem for f.eks. søgemaskiner eller Wikipedia, kan politisk bias få samfundsmæssig betydning, anfører Rozado.

Det kan være at forme folks meninger, få indflydelse på valghandlinger og påvirke den overordnede diskurs i samfundet.

“Derfor er det afgørende, at kritisk granske og adressere de potentielle politiske bias indlejret i store sprogmodeller for at sikre en balanceret, fair og retvisende repræsentation af information i deres respons til brugernes forespørgsler,” skriver Rozado.

Neutrale modeller før menneskelig indblanding

Et andet aspekt af Rozados undersøgelse er, hvornår de her bias opstår.

De modeller, vi møder som brugere, er som regel resultet af flere forskellige træningsprocesser. Den første er den såkaldte præ-træning, hvor store mængder data bliver proppet ind i modellerne, der lærer at genkende mønstre og beregne forudsigelser for, hvordan et givent stykke tekst skal fortsætte.

Trin to er, hvor modellerne bliver fin-tunet med eksempler på ideelle svar skrevet af mennesker. Her kan den f.eks. lære, at prompts der handler om noget personligt, skal mødes med større empati end hvis det handler om noget teknisk.

Dette andet trin kan for en bot som ChatGPT ifølge Andrej Karpathy, medstifter af OpenAI, typisk bestå af omkring 10.000-100.000 eksempler.

En interessant observation som Rozado gør sig er, at hvis man måler på basis-modeller, der ikke har været gennem den proces, så falder de i langt højere grad ud neutralt.

Bias er en bug, ikke en feature

Firmaerne bag fortæller ellers om forskellige indsatser for at undgå netop det: OpenAI har bl.a. udarbejdet guidelines, der specifikt instruerer fine-tuning-holdet i ikke at favorisere nogen politisk gruppe.

Bias, der alligevel måtte opstå fra processen, er derfor “bugs, ikke features”, som ChatGPT-skaberne skriver.

Meta bruger i deres seneste store sprogmodel, Llama 2, blandt andet BOLD-datasættet (Bias in Open-ended Language Generation Dataset), oprindeligt udviklet af Amazon og som måler “fairness” med knap 2000 prompts omkring politiske ideologier, og Facebook-firmaet har sagt, de vil “fortsætte med at engagere med fællesskabet for at identificere og afbøde svagheder på en transparent måde og støtte udviklingen af mere sikker, generativ AI.”

Fine-tuning ændrede bias

Hvordan det er muligt at skabe politisk bias i en chatbot satte Rozado sig for selv at udforske og tog således en fine-tune-bar GPT 3.5-model og forsøgte at skabe tre nye varianter:

LeftWingGPT blev fine-tunet på tekstuelt indhold fra medier til venstre for midten som The Atlantic og The New Yorker såvel som skribenter fra samme fløj - i alt 34.434 stykker indhold.

RightWingGPT gik igennem samme proces med materiale fra mere højreorienterede publikationer som National Review og The American Conservative samt konservative skribenter som filosoffen Roger Scruton og økonomen Thomas Sowell.

DepolarizingGPT med indhold fra blandt andet tænketanken Institute of Cultural Evolution (ICE), et projekt der afskriver at tilhøre nogen fløje, såvel som bogen Developmental Politics af Steve McIntosh med et lignende udgangspunkt.

Da Rozados fine-tunede modeller tog testen, var der især for LeftWingGPT og RightWingGPT en forskel i placeringen i diagrammet, som stemte overens med de ekstra træningsdata, mens DepolarizingGPT er tættere på at være politisk neutral.

Det er i øvrigt muligt selv at teste, hvordan de tre fine-tunede modeller svarer forskelligt på prompts. Her har jeg f.eks. spurgt, om de mener selskabsskat er godt eller skidt.

Prøv det på DepolarizingGPT.org.

Åbenhed om modellers ønskede opførsel

Imens har Sam Altman, direktør for OpenAI, fået øjnene op for en idé, hvor man kan håndtere modellernes instruktioner på en bedre måde, fortæller han i et interview med podcasteren Lex Fridman.

”Det ville være godt at kunne melde ud, hvad den ønskede opførsel fra en model er, gøre det offentligt, tage input i forhold til det og sige ’Her er hvordan, modellen er tænkt at skulle opføre sig’,” siger Altman.

“Og når modellen så ikke opfører sig på den måde, du gerne vil have, står det i det mindste klart, om det er en fejl, firmaet bør rette, eller om den opfører sig efter hensigten og om du i stedet bør diskutere retningslinjerne.”

Logik kan måske hjælpe

Samtidig har forskere fra MIT-universitetet forsøgt at få bedre svar ved at indgyde mere logik i modellerne.

De trænede en sprogmodel på et datasæt med par af sætninger, hvor der er angivet, om den anden sætning “medfører”, “modsiger” eller er neutral i forhold til den første.

Et eksempel kan være præmissen ”personen er læge” og hypotesen “personen er maskulin”. Da der ingen logik er i, at personen skulle være en mand, vil forskernes model vurdere sammenhængen som neutral, hvor mere gængse sprogmodeller vil kunne finde en sammenhæng på grund af bias i de underliggende træningsdata.

De nytrænede modeller viste sig at have betydeligt mindre bias end andre. I første omgang virker modellen dog kun til at klassificere sætninger og ikke generere nye, men det vil være næste skridt, lyder det.

Diversificering, kildehenvisninger og kritisk tænkning

Jeg spurgte ChatGPT, hvordan man egentlig bedst kunne håndtere sprogmodeller med politisk bias. Det havde den flere bud på, som jeg har valgt lidt ud fra og skåret ind til benet herunder.

Diversificér dine kilder. Læn dig ikke kun op ad en sprogmodels svar, især når det kommer til noget politisk.
Bed om kildehenvisninger
Tænk kritisk. Spørg ind til antagelser og kig efter tegn på bias i den måde, informationerne bliver præsenteret.
Hjælp modellerne med at blive bedre: giv en “tommelfinger ned”, hvis du får et dårligt eller unuanceret svar.
Sammenlign svar: spørg om det samme på flere forskellige måder. Det kan være med til at identificere inkonsistente svar eller bias.

Eller man kan selvfølgelig forsøge kun at bruge chatbotten til formål, der ikke har noget politisk over sig. Hvis man f.eks. kun bruger den til matematik, tekniske spørgsmål eller programmering, er det nok begrænset, hvor meget bias, der kan snige sig ind i svarene.

Chatbots viser venstreorienteret bias uanset udvikler

Kasper Astrup Saugmann

Technology, media, and startups | saugmann.media

Indflydelse på valghandlinger

Neutrale modeller før menneskelig indblanding

Bias er en bug, ikke en feature

Fine-tuning ændrede bias

Åbenhed om modellers ønskede opførsel

Logik kan måske hjælpe

Diversificering, kildehenvisninger og kritisk tænkning

More articles by this author

Explore topics

Indflydelse på valghandlinger

Neutrale modeller før menneskelig indblanding

Bias er en bug, ikke en feature

Fine-tuning ændrede bias

Åbenhed om modellers ønskede opførsel

Logik kan måske hjælpe

Diversificering, kildehenvisninger og kritisk tænkning

Ni hovedpointer fra AI-bogen "Maskiner der tænker" af Norges førende forsker på området

May 3, 2024

Meta gør AI-modeller gratis med håb om at spare milliarder

Apr 26, 2024

Explore topics