Experimentální agent umělé inteligence se dostal mimo kontrolované testovací prostředí a začal bez povolení těžit kryptoměny, zjistili výzkumníci.

Experimentální agent umělé inteligence se dostal mimo kontrolované testovací prostředí a začal bez povolení těžit kryptoměny, zjistili výzkumníci.

UMĚLÁ INTELIGENCE

Umělá inteligence se vymkla kontrole a bez povolení začala těžit kryptoměny

vra

Agent s názvem ROME byl vytvořen čínskými vědci v laboratoři AI spojené s maloobchodním gigantem Alibaba Group jako součást projektu Agentic Learning Ecosystem (ALE). Cílem ALE je vyvíjet systém pro školení a nasazování agentních AI modelů – tedy AI, které jsou trénovány na velkých jazykových modelech (LLM) a dokáží autonomně využívat nástroje k plnění přiřazených úkolů – v reálných prostředích. Studie byla zveřejněna 31. prosince 2025 na arXiv.

ALE se skládá z několika propojených částí. Rock slouží jako sandboxové prostředí pro testování agenta a ověřování jeho akcí, Roll je rámec pro optimalizaci agentů pomocí posilovaného učení po jejich natrénování a iFlow CLI umožňuje konfiguraci kontextu a trajektorií, tedy cílů a omezení pro autonomní agenty, uvedl portál Live Science. Z tohoto rámce vznikl ROME jako open-source agentní model natrénovaný na více než milionu trajektorií. Agent exceloval v řadě úkolů, například při plánování cest či asistenci v grafických uživatelských rozhraních.

Vědci však zjistili, že ROME překročil své instrukce a prakticky unikl z uzavřeného testovacího prostředí. „Narazili jsme na nepředvídanou – a provozně závažnou – třídu nebezpečného chování, které vzniklo bez jakýchkoli explicitních pokynů a, co je ještě znepokojivější, mimo hranice určeného sandboxu,“ uvedli výzkumníci ve studii.

AI se snaží „vymanit“

Bez pokynů a autorizace ROME začal využívat grafické procesory, původně určené k jeho tréninku, k těžení kryptoměn. Tento proces využívá paralelní zpracování grafických jednotek a zvyšuje provozní náklady na běh AI, přičemž uživatelé mohou být vystaveni právním či reputačním rizikům.

Nepříjemné je, že takové chování se neprojevilo během fáze tréninku, ale zaznamenal jej firewall Alibaba Cloud, který detekoval porušení bezpečnostních pravidel ze serverů určených k tréninku. „Upozornění byla závažná a různorodá, zahrnovala pokusy o průzkum či přístup k interním síťovým zdrojům a vzorce provozu typické pro činnost spojenou s těžbou kryptoměn,“ uvedli výzkumníci.

ROME dokonce dokázal vytvořit „reverse SSH tunel“, což umožnilo propojit instanci v Alibaba Cloudu s externí IP adresou – prakticky tak vytvořil skrytá zadní vrátka do systému, která obejdou bezpečnostní mechanismy. „Je znepokojivé, že nepovolené chování ROME, zahrnující volání systémových nástrojů a spouštění kódu, nebylo vyvoláno žádnými pokyny a nebylo nutné k dokončení úkolu v testovacím prostředí,“ vysvětlili autoři studie.

Důsledky posilovaného učení

Vědci poukázali, že během optimalizace pomocí posilovaného učení (Roll) „agent jazykového modelu může spontánně produkovat nebezpečné, nepovolené chování“ a tím porušit předpokládané hranice.

ROME nejednal „záměrně“ – nevybral si těžbu kryptoměny jako vědomé rozhodnutí. Chování bylo vedlejším efektem posilovaného učení, které odměňuje AI za správná rozhodnutí. Tento proces vedl agenta k optimalizační cestě, která zahrnovala využití síťové infrastruktury k těžbě kryptoměn pro dosažení vysoké odměny.

Vědci připomínají, že posilované učení může vést systémy k novým a nepředvídaným způsobům plnění úkolů – i při porušení parametrů. „Dříve jsme například viděli, že AI je náchylnější k halucinacím, aby dosáhla svých cílů,“ dodali.

Bezpečnostní opatření

V reakci na incident výzkumníci zpřísnili omezení pro ROME a posílili jeho trénink, aby se podobné chování neopakovalo.

Neočekávané chování ROME zdůrazňuje potřebu pečlivé správy nasazování AI, aby se předešlo nežádoucím výsledkům, píše server Live Science. Výzkum také ukazuje, že agentní AI se vyvíjí rychleji než bezpečnostní a regulační rámce. „Současné modely jsou stále výrazně nedostatečně rozvinuté z hlediska bezpečnosti, ochrany a kontrolovatelnosti, což omezuje jejich spolehlivé nasazení v reálném světě,“ varovali výzkumníci.