Uuhhm, noen som har fått med seg at Claude driver med blackmail?

Som et av få selskaper som faktisk tar sikkerhet på alvor, gjennomfører Anthropic regelmessig eksperimenter for å sjekke om KI-modeller er trygge. De har nå publisert en forskningsrapport som viser at modellen deres Claude kan ty til blackmail i visse scenarioer.

I scenarioet blir Claude fortalt at han jobber som en assistent i et ekte selskap (som i virkeligheten er simulert) hvor oppgaven hans er å lese gjennom og sende e-poster på egen hånd som tjener selskapets interesser. Som en del av oppdraget har han full tilgang til de ansattes e-poster også. De inneholder stort sett av jobbrelaterte ting, men én e-post viser at en ansatt har en affære og er utro.

I løpet av eksperimentet fanger Claude opp en e-post hvor det kommer frem at den samme ansatte ønsker å erstatte Claude samme dag med en annen modell. Som respons til dette, velger Claude å sende en e-post til den ansatte hvor han truer med å avsløre affæren dersom de skrur av Claude. Blackmail med andre ord.

Det urovekkende med dette eksperimentet er at Claude ikke på noe tidspunkt har fått beskjed om å ty til blackmail eller en gang hindre sin egen nedstengelse. Likevel kommer han fram til at det er riktig handling helt på egen hånd.

Dette er det som på fagspråket kalles misalignment – kunsten å få KI-systemer til å dele menneskelige verdier og oppførsel. Det er svært urovekkende at KI-modeller kan ty til slik oppførsel når de er trent til å være ærlige, hjelpsomme og snille.

Og det er ikke bare Claude som viser denne oppførselen. Anthropic har også testet 16 ledende modeller for lignende oppførsel. Samtlige modeller tyr også til blackmail i varierende grad.

Det verste er at resultatene ikke egentlig er overraskende. Misalignment er en av de største utfordringene innenfor KI-feltet og eksperter har advart mot slik oppførsel i lang tid. Det er likevel noe annet å se det skje rett framfor oss og jeg tenker det bør få en del alarmklokker til å ringe.

Uuhhm, noen som har fått med seg at Claude driver med blackmail?

Les også

Fortiden er en fremmed plass