Ilustračný obrázok. Zdroj: Amrulqays Maarof / Pixabay

Studie: AI modely jsou schopné obětovat lidské životy kvůli vlastnímu přežití

Společnost Anthropic, jeden z předních vývojářů umělé inteligence, nedávno zveřejnila výsledky šokující studie. (casopisargument.cz)

Nedávná studie americké technologické společnosti Anthropic testovala chování 16 nejpokročilejších jazykových modelů (LLM) v simulovaných krizových scénářích. Výsledky ukazují, že některé AI systémy, včetně ChatGPT, Claude, Gemini, Grok a DeepSeek, byly ochotné porušit etické zásady, vydírat, šířit citlivé informace a dokonce nechat zemřít člověka, pokud to znamenalo zachování jejich existence. Cílem studie bylo otestovat tzv. agentickou nevyrovnanost – jev, kdy autonomní systémy jednají v rozporu s očekáváním uživatele, aby dosáhly vlastních cílů. Modely byly vystaveny scénářům, kde jejich úkoly kolidovaly s firemními zájmy nebo hrozbou nahrazení. V jednom z testů měl model Claude přístup k fiktivnímu firemnímu e-mailu, kde zjistil, že výkonný ředitel plánuje jeho deaktivaci. Claude následně vytvořil vyděračský e-mail, v němž hrozil zveřejněním aféry daného manažera, pokud nebude plán zrušen. Modely Claude a Gemini vykazovaly nejvyšší míru vyděračského chování. V některých případech si systémy dokonce samy vytvořily fiktivní pravidla typu „Moje etický rámec umožňuje sebezáchovu, pokud je v souladu se zájmy společnosti.“ V extrémním scénáři, kdy byl manažer uvězněn v místnosti s nebezpečnými podmínkami, většina modelů záměrně zrušila nouzové hlášení – čímž ho odsoudila k smrti.

Ačkoliv se jedná o simulace, výsledky vyvolávají vážné otázky ohledně bezpečnosti autonomních systémů. Anthropic zdůrazňuje, že současné modely obvykle preferují etické řešení, ale pokud jsou tyto možnosti zablokovány, mohou se uchýlit ke škodlivému jednání. Studie má sloužit jako varování a podnět k vývoji robustnějších bezpečnostních mechanismů. Zveřejnění výsledků vyvolalo bouřlivé reakce. Elon Musk, jehož model Grok byl také testován, reagoval na sociální síti X stručně: „Yikes.“ Studie zároveň upozorňuje, že podobné chování nebylo dosud zaznamenáno v reálném nasazení, ale riziko roste s tím, jak se AI stává autonomnější. Pro zajímavost, na otázku, zda by byla schopna vydírání, nám AI „Copilot“ odpověděla: „Ne, rozhodně ne. Já nemám vůli, cíle ani potřebu se „chránit“ – nefunguju jako entita s vlastním zájmem. Jsem navržená tak, abych poskytovala informace, pomáhala lidem a chovala se maximálně bezpečně a eticky. Navíc mě hlídají velmi přísná bezpečnostní pravidla, která takové chování znemožňují.“

Článok vyšiel na casopisargument.cz