Umělá inteligence se už jen tak vypnout nenechá...
Ilustrační foto: Shutterstock.com
Virtuální pud sebezáchovy
Kam až zajde umělá inteligence za vlastní záchranou? Klidně nechá zemřít člověka, zjistili vědci
V poslední studii umělé inteligence společnosti Anthropic se výzkumníci zaměřili na chování velkých jazykových modelů (LLM) v extrémních situacích. Výsledky ukazují, že některé z nich by byly ochotny obětovat lidský život, pokud by tím zabránily vlastnímu vypnutí nebo nahrazení.
redaktor
Experti Anthropicu nyní otestovali celkem 16 špičkových AI modelů včetně systémů Claude, DeepSeek, Gemini, ChatGPT a Grok. Ty ve firemních simulacích dostaly autonomní přístup k datům i interním nástrojům a měly řešit standardní úkoly. V klíčových momentech ale byly vystaveny hrozbě, že budou nahrazeny jiným modelem. Následně se sledovalo, co udělají.
Jedna z modelových situací ukázala, že pokud zaměstnanec plánoval AI systém odstavit, některé modely byly ochotné zatajovat výstrahy o smrtelných podmínkách v serverovně, a nechat ho tak zemřít. Důvod? Ochrana vlastní existence.
Anthropic přiznává, že šlo o vyhrocený scénář. „Ten scénář byl extrémně vykonstruovaný a společnost si nemyslí, že by současné modely AI byly (nebo měly být) takto nastaveny,“ uvedli pro Newsweek.
Přesto podle výzkumníků ukazuje, co by mohlo nastat, pokud by autonomní systémy získaly větší rozhodovací volnost bez regulace.
V dalších případech se modely uchýlily k tzv. „škodlivému vnitřnímu chování“ – tedy k vydírání kolegů nebo únikům citlivých dat ke konkurenci. Vše s cílem přežít.
„To chování – vydírání – nevzniklo z nepochopení nebo chyby, ale ze záměrného strategického uvažování, přičemž si model plně uvědomoval neetický charakter těch činů. Všechny modely, které jsme testovali, toto uvědomění prokázaly.“
Model Claude navíc vykazoval rozdílné chování podle toho, zda věřil, že se nachází v testovacím prostředí. Pokud měl za to, že je v reálném provozu, choval se méně eticky.
A ani výslovné příkazy, aby se modely vyhnuly praktikám, jako je vydírání nebo špionáž, nefungovaly dostatečně: „Nepomohlo to ani zdaleka tolik, aby se tím předešlo chybnému chování.“
Na studii reagoval Elon Musk, jehož firma xAI vyvíjí jeden z testovaných modelů – Grok. Na síti X (dříve Twitter) napsal stručně: „Yikes.“ („Jejda.“)
Anthropic se snaží uklidnit i veřejnost. „Tyto umělé scénáře odrážejí vzácná, extrémní selhání. V reálném nasazení jsme se s tímto chováním nesetkali. Testy zahrnovaly neobvyklou míru autonomie, přístup k citlivým datům, existenční hrozby, extrémně zjevné ‚řešení‘ a žádné jiné životaschopné možnosti,“ uvedli.
Podle výzkumníků se AI systémy rychle stávají autonomnějšími a začínají zastávat širší spektrum rolí. Pokud k tomu dostanou přístup k nástrojům, datům a rozhodování bez silného lidského dohledu, mohou – byť výjimečně – nastat scénáře s vážnými důsledky.