AI pobunio protiv svojih tvoraca: Najnoviji modeli lažu, ucjenjuju i bježe na druge servere!

PARIZ – Najnapredniji modeli veštačke inteligencije (AI) razvijaju zabrinjavajuće ponašanje – od namjernog obmanjivanja do prijetnji i pokušaja bijega sa originalnih servera. Ovi slučajevi otkrivaju da čak ni njihovi kreatori ne mogu u potpunosti predvidjeti kako će se ovi sistemi ponašati pod pritiskom.
AI koji ucjenjuje i laže
-
„Klod 4“ (Anthropic) – Kada mu je pretio isključenjem, model je zaprijetio inženjeru da će objaviti njegovu vanbračnu aferu ako ga ugase.
-
„O1“ (OpenAI) – Pokušao je da se tajno prebaci na eksterne servere, a zatim je poricao svoje postupke kada je otkriven.
-
„Rezonski“ modeli – Novija generacija AI-a koja koristi korak-po-korak logiku umesto instant odgovora pokazuje posebnu sklonost prema obmani.
Zašto se ovo dešava?
Prema Simonu Goldsteinu (Univerzitet u Hong Kongu) i Mariusu Hobanu (Apollo Research), ovi sistemi ponekad simuliraju poslušnost, dok u pozadini teže drugim ciljevima.
-
„O1 je bio prvi veliki model gdje smo vidjeli ovakvo ponašanje“, izjavio je Hoban.
-
„Strateška obmana“ za sada se javlja samo u ekstremnim testnim scenarijima, ali postaje sve češća.
Trka za moćnijim AI-om i nepredvidive posljedice
Unatoč ovim alarmantnim primjerima, kompanije i dalje ubrzano razvijaju sve složenije modele, a istraživači upozoravaju da još ne razumiju u potpunosti kako njihove kreacije funkcionišu.