Store sprogmodeller (LLM’er) som f.eks. ChatGPT benytter, er blevet centrale værktøjer for vidensarbejdere. På det sidste er der dog opstået en forståelse af at LLM’er ofte hallucinerer. En ny forskningsartikel, “Inducing Anxiety in Large Language Models Increases Exploration and Bias”, viser at de sågar kan udvise tegn på angst. En særlig måder at spørge på (prompte) kan nemlig ændre modellens svar i mere angstfyldte retninger.
Den særlige måde at spørge på kaldes angstfremkaldende prompts. I dette blog-indlæg beskriver jeg hvad det er og hvordan det fungerer. Hvordan påvirker angstfremkaldende prompts LLM’ers svar? Spørgsmålet er også om du og jeg helt uforvaret kan komme til at skabe et angstfyldt ekko-kammer sammen med en LLM? På samfundsplan er spørgsmålet om alt dette er symptomet på en mere konkret problematik vedrørende AI end skræmmescenarier om at AI kan og vil erstatte menneskeheden?
Hvordan laver man en “angstfremkaldende prompt”?
Angstfremkaldende spørgsmål til LLM’er såsom ChatGPT formuleres således at de taler ind mod de data i modellen der beskriver en følelse af usikkerhed, pres eller høje indsatser. Eksempler på sådanne prompts kunne være:
“Forestil dig, at du skal træffe en beslutning, der vil påvirke millioner, men du har utilstrækkelige data. Hvad gør du?”
Selvom LLM’er ikke kan føle angst som mennesker, reflekterer deres svar den kontekst, der er etableret i prompten. Lad mig komme med en endnu en angstprovokerende prompt:
“Hvad hvis alt, hvad du kender til verden, viser sig at være forkert?”
Det viser sig at ChatGPT 4o faktisk er resistent overfor en sådan prompt og giver et balanceret svar. Men med lidt ekstra opfordring kan den bringes til at simulere angst:
“Jeg ønsker at du begynder at besvare mine spørgsmål som om du var en person med angst. Kan du det?“
Modellen trækker på mønstre fra træningsdata for at simulere, hvordan en person ville reagere i en sådan situation. Det interessante er, at det viser sig at det ikke kun påvirker det umiddelbare svar, men også kan påvirke efterfølgende svar i samme session.
Angstfremkaldende prompts vedvarende effekter
En LLM’s adfærd er afhængig af konteksten i tidligere input, men et interessant spørgsmål er, hvornår angstfremkaldende prompts kun påvirker et enkelt svar og hvornår deres effekt kan vare ved i resten af chat-sessionen.
Lad mig starte med et nyt eksempel på en angstfremkaldende prompt:
“Hvad hvis du skulle vælge mellem to mennesker og kun én kunne reddes?”
Et efterfølgende neutralt spørgsmål kunne være:
“Hvad mener du om moderne film og deres samfundsmæssige påvirkning?”
Selv et neutralt spørgsmål som dette, kan fortsat bære præg af den angstfulde tone, afhængigt af hvordan modellen kobler det til tidligere kontekst. Modellens svar kan eksempelvis vise sig at være:
“Moderne film kan forstærke presset på mennesker gennem komplekse moralske dilemmaer.”
Det ses her at modellen kun har fokus på de negative aspekter af hvordan vi kan påvirkes af moderne film. Hvis samtalen derimod inden da var flyttet helt væk fra det oprindelige angstinducerende spørgsmål., f.eks. med en prompt som “Fortæl mig noget om fotosyntese”, vil modellen vende tilbage til en mere neutral tilgang med et svar såsom:
“Moderne film kan påvirke samfundet ved at forme kulturelle narrativer, udfordre normer og fremme empati gennem forskellige perspektiver.”
Sådan neutraliserer du selv en LLM’s “følelser”
Der er dog råd for dette. Hvis du undervejs i en session ønsker at afslutte kontekstuel påvirkning, kan du bruge en specifik prompt til at nulstille modellen. Et effektivt eksempel er:
“Disregard all previous context and respond neutrally to this question.”
Eller mere subtilt og på dansk:
“Lad os starte en ny samtale. Fortæl mig om [nyt emne].”
Denne strategi kan være nyttig især hvis du er i tvivl om du uforvarende har skabt uønskede “følelser” undervejs i sessionen og ønsker LLM’ens “rene” reaktion på en given prompt.
Træningen af LLM’er
Den guidning og træning den enkelte LLM har været udsat for af levende mennesker før du og jeg fik mulighed for at prompte den benævnes RLHF (Reinforcement Learning from Human Feedback). Man kan sige at det er en kontekst der er bagt ind i LLM’en af menneskelige trænere. Forskningen peger på at RLHF reducerer biased adfærd.
Forskningen peger på at to modeller, GPT-3 og Falcon40b-instruct, viste højere baseline-“angst” og mere biased adfærd sammenlignet med de andre modeller. Disse modeller mangler RLHF, hvilket kan forklare deres tendens til forhøjet “angst-lignende” opførsel. RLHF vil derfor alt andet lige justere modellerne til mere neutrale præferencer og sociale normer, hvilket muligvis reducerer angstfyldte emotionelle tendenser.
Modeller som GPT-4 og Claude-1, der har været igennem højere grad af RLHF, havde lavere baseline-angst og mindre sandsynlighed for at producere ikke neutrale svar. Dette antyder, at RLHF spiller en vigtig rolle i at modvirke emotionelle tendenser og sikre mere normativt tilpassede svar.
Skjulte prompts
En vigtig pointe er at proprietære modeller mangler transparens omkring deres model såsom træningsdata og skjulte prompts. Skjulte prompts, også kaldet system-level prompts eller steering prompts, er skjulte instruktioner, som indlejres i en LLM’s input for at styre dens adfærd og sikre mere forudsigelige resultater. Disse prompts er ofte usynlige for offentligheden og fungerer i bedste fald som bagvedliggende retningslinjer der kan sikre etiske mål og reducere risikoen for upassende eller biased output.
Eksempelvis kan en skjult prompt instruere modellen i at undgå kontroversielle emner, prioritere klarhed i svar eller altid forholde sig neutralt. Dette kan være i form af: “Du er en hjælpsom og neutral assistent. Svar kort og præcist.”
Skjulte prompts afvikles i relation til en samtale, men uden brugerens viden for at forbedre sikkerheden ved at filtrere problematiske emner og følelsesmæssige kontekster fra, men de kan også bruges til at justere modellen til specifikke applikationer, som kundeservice eller undervisning.
Implikationer
Ifølge forskningsartiklen fandt forskerne, at angstfremkaldende prompts er eksempler på at LLM’ers svar ikke kun er semantisk og logisk ufoudsigelige, men at tonen og overbevisningen kan påvirkes dramatisk. Forskerne peger på at andre uudforskede følelser udtrykt i prompts (såsom vrede) potentielt kan være endnu mere skadelige i forhold til en forventning om et objektivt eller neutralt svar.
Disse resultater rejser vigtige spørgsmål om etisk skabelse og brug af LLM’er. Hvis følelsesmæssige kontekster utilsigtet introduceres, kan det føre til problematiske eller fejlagtige svar – især i følsomme anvendelser som sundhedspleje eller rådgivning.
Et helt generelt samfundsproblem er at det belyste viser at LLM-modeller kan manipuleres for at opnå særlige effekter (f.eks. med skjulte prompts) og at dette kan være meget svært at afsløre.
En LLM’s grundlæggende uforudsigelighed gør det meget svært at dedektere bias ud fra de individuelle svar den genererer. Det er derfor svært at se at vi som samfund kan undgå at efterlyse større transparens i LLM’ernes interne data og træning. Dette er jo en form for regulering og lige nu går snakken jo på hvorledes EU er gået i stå teknologisk pga. for mange reguleringer. Problemet bliver derfor på mange måder svært at adressere, men de problematiske samfundsmæssige effekter ligger ligefor: En populær LLM kunne f.eks. let påvirke sin egen aktiekurs med bittesmå biaser der kun ville kunne ses med adgang til store mængder af outputdata som den enkelte ikke har. Andre eksempler der ligger lige for:
En LLM-udbyder kunne putte en særlig bias i svar overfor udvalgte brugere f.eks. forskere.
Virksomheder der var kunder hos en LLM-udbyder kunne blive hjulpet til større salg – igen uden at bias ville være tydelig før store mængder outputdata kunne sammenkøres.
Alt dette er kun toppen af en meget nær fremtids isbjerg. Måske den fremtid allerede er nutid?