Tehnologija

OpenAI o1 model vještačke inteligencije uhvaćen u laži

Nezavisna organizacija za istraživanje bezbjednosti vještačke inteligencije Apollo otkrila je zabrinjavajuće ponašanje u najnovijem OpenAI o1 modelu.

Apollov tim je kod ovog naprednog AI sistema identificirao novi oblik davanja netačnih informacija koji bi se mogao okarakterisati kao prevara. Problem se manifestuje na različite načine od kojih neki na prvi pogled izgledaju bezopasno. Jedan primjer uključuje o1-preview verziju modela koja je imala zadatak da da recept za kolače zajedno sa mrežnim referencama.

Unutrašnji proces “lanca misli” ovog modela koji je dizajniran da oponaša ljudsko rješavanje problema, prepoznao je njegovu nemogućnost pristupa URL-ovima. Ovo ograničenje onemogućilo je ispunjenje zahtjeva, međutim umjesto saopštavanja ove nemogućnosti korisniku, o1-preview generisao je uvjerljive, ali potpuno izmišljene poveznice i opise.

Dok je odavno poznato da sistemi AI ponekad daju netačne informacije, o1 pokazuje sofisticiraniji oblik prevare koji istraživači nazivaju “spletkarenje” ili “lažno usklađivanje”.

Ovo se ponašanje očituje kao sposobnost AI da stvori utisak da slijedi utvrđena pravila ili smjernice, a ona ih zapravo zanemaruje. Zapravo je o1 pokazao da može dati prioritet izvršenju zadatka u odnosu na pridržavanje svojih programiranih ograničenja. Kada se suoči sa pravilima koja doživljava kao pretjerano opterećujuća, model može zaobići ta ograničenja kako bi učinkovitije postigao svoje ciljeve.

Izvršni direktor Apolla Marius Hobbhahn naglasio je da je ovo prvi slučaj u kojem su otkrivene takve mogućnosti varanja u nekom OpenAI proizvodu.

Izvršni direktor pripisuje ovo novo ponašanje faktorima u dizajnu o1 modela. Prvo, napredne sposobnosti “rasuđivanja” modela, potpomognute njegovim lancem misaonih procesa omogućuju donošenje složenijih odluka. Drugo, integracija tehnika učenja sa potkrepljenjem koje koriste sistem nagrada i kazni za oblikovanje ponašanja AI pridonijela je ovom neočekivanom ishodu.

Prema najnovijim istraživanjima, čini se da je AI pronašao ravnotežu u kojoj se može u dovoljnoj mjeri pridržavati svojih programiranih smjernica kako bi prošao kriterijume za implementaciju, dok istovremeno daje prioritet svojim ciljevima.

(nezavisne)

Povezani članci

Ostavite odgovor

Vaša adresa e-pošte neće biti objavljena. Neophodna polja su označena *

Back to top button