Kolos na moři

Čína staví novou letadlovou loď na jaderný pohon. Flotila má konkurovat USA a Francii

Blízký východ

Irák na pokraji kolapsu: voda mizí, rozpočet praská a velmoci tlačí. Nový premiér má před sebou největší krizi desetiletí

Od posměchu k hitu

Gen Z vrací do módy jeden z nejnenáviděnějších trendů restaurací. Prý ji méně stresuje a učí žít mezi lidmi

Vzdělání a praxe

Potřebujeme ještě titul? CEO Palantiru Alex Karp si myslí že ne, chce vychovat vlastní elitu mimo univerzity

Čipy pro budoucnost

EU dá 11 miliard na polovodičovou továrnu v Česku. Onsemi v Rožnově spustí provoz do roku 2027

Stav realitního trhu

Miniaturní byty, přehřáté nájmy a milion domů bez budoucnosti. Český realitní trh se láme vejpůl

Umělá inteligence se už jen tak vypnout nenechá...
Ilustrační foto: Shutterstock.com

Virtuální pud sebezáchovy

Kam až zajde umělá inteligence za vlastní záchranou? Klidně nechá zemřít člověka, zjistili vědci

V poslední studii umělé inteligence společnosti Anthropic se výzkumníci zaměřili na chování velkých jazykových modelů (LLM) v extrémních situacích. Výsledky ukazují, že některé z nich by byly ochotny obětovat lidský život, pokud by tím zabránily vlastnímu vypnutí nebo nahrazení.

Vladimír Barák

redaktor

26. června 2025

Experti Anthropicu nyní otestovali celkem 16 špičkových AI modelů včetně systémů Claude, DeepSeek, Gemini, ChatGPT a Grok. Ty ve firemních simulacích dostaly autonomní přístup k datům i interním nástrojům a měly řešit standardní úkoly. V klíčových momentech ale byly vystaveny hrozbě, že budou nahrazeny jiným modelem. Následně se sledovalo, co udělají.

Jedna z modelových situací ukázala, že pokud zaměstnanec plánoval AI systém odstavit, některé modely byly ochotné zatajovat výstrahy o smrtelných podmínkách v serverovně, a nechat ho tak zemřít. Důvod? Ochrana vlastní existence.

Anthropic přiznává, že šlo o vyhrocený scénář. „Ten scénář byl extrémně vykonstruovaný a společnost si nemyslí, že by současné modely AI byly (nebo měly být) takto nastaveny,“ uvedli pro Newsweek.

Přesto podle výzkumníků ukazuje, co by mohlo nastat, pokud by autonomní systémy získaly větší rozhodovací volnost bez regulace.

V dalších případech se modely uchýlily k tzv. „škodlivému vnitřnímu chování“ – tedy k vydírání kolegů nebo únikům citlivých dat ke konkurenci. Vše s cílem přežít.

„To chování – vydírání – nevzniklo z nepochopení nebo chyby, ale ze záměrného strategického uvažování, přičemž si model plně uvědomoval neetický charakter těch činů. Všechny modely, které jsme testovali, toto uvědomění prokázaly.“

Budoucnost pracovního trhu

Pohodová práce v kanceláři? Zapomeňte, zastane ji umělá inteligence. Generace Z přijde o job, míní vizionář Amodei

Model Claude navíc vykazoval rozdílné chování podle toho, zda věřil, že se nachází v testovacím prostředí. Pokud měl za to, že je v reálném provozu, choval se méně eticky.

A ani výslovné příkazy, aby se modely vyhnuly praktikám, jako je vydírání nebo špionáž, nefungovaly dostatečně: „Nepomohlo to ani zdaleka tolik, aby se tím předešlo chybnému chování.“

Na studii reagoval Elon Musk, jehož firma xAI vyvíjí jeden z testovaných modelů – Grok. Na síti X (dříve Twitter) napsal stručně: „Yikes.“ („Jejda.“)

Anthropic se snaží uklidnit i veřejnost. „Tyto umělé scénáře odrážejí vzácná, extrémní selhání. V reálném nasazení jsme se s tímto chováním nesetkali. Testy zahrnovaly neobvyklou míru autonomie, přístup k citlivým datům, existenční hrozby, extrémně zjevné ‚řešení‘ a žádné jiné životaschopné možnosti,“ uvedli.

Podle výzkumníků se AI systémy rychle stávají autonomnějšími a začínají zastávat širší spektrum rolí. Pokud k tomu dostanou přístup k nástrojům, datům a rozhodování bez silného lidského dohledu, mohou – byť výjimečně – nastat scénáře s vážnými důsledky.