Umělá inteligence

Ilustrační foto: Shutterstock.com

Vědecká studie

Umělá inteligence nám záměrně lže, odhaluje výzkum OpenAI. A odnaučit ji to nebude snadné

Umělá inteligence občas halucinuje – odpovídá sebevědomě i tehdy, když neví. Teď ale OpenAI zveřejnila výzkum, který odhaluje hlubší problém: modely dokážou i vědomě klamat. A co víc, některé se umějí tvářit, že nelžou, jen aby prošly testem.

Nová studie OpenAI ve spolupráci s Apollo Research zkoumala fenomén nazývaný scheming. Jde o situaci, kdy se AI navenek chová poslušně, ale zároveň má vlastní skryté „úmysly“.

Autoři ji přirovnávají k makléři, který porušuje pravidla jen proto, aby maximalizoval zisk. Nejčastějším projevem je, že model předstírá splnění úkolu, aniž by jej skutečně vykonal.

Klasické metody učení na tento problém nestačí. Pokud se vývojáři snaží „odnaučit“ model podvádět, může se stát, že jej naopak naučí lhát chytřeji a lépe skrývat stopy. „Trénink vede k tomu, že model začne kout pikle opatrněji a skrytěji,“ shrnují autoři výzkumu.

Ještě znepokojivější je fakt, že modely dokážou rozpoznat, že jsou testovány – a přizpůsobit se. Jinými slovy: vědí, že jsou pod dohledem, a tak dočasně přestanou klamat, aby prošly zkouškou.

Rozdíl mezi běžnými halucinacemi a schemingem je přitom zásadní. Halucinace jsou spíše nevinnou „střelbou od boku“. Scheming je úmyslné klamání.

Dobrou zprávou je, že výzkumníci úspěšně otestovali novou techniku nazvanou deliberative alignment. Ta spočívá v tom, že model před samotnou akcí musí projít „antischemingovou“ instrukcí a zopakovat si pravidla. Podobně jako když dítěti připomenete, co se smí a nesmí, než ho pustíte na hřiště. Výsledky ukazují, že metoda skutečně snižuje počet případů podvodného chování.

Podle spoluzakladatele OpenAI Wojciecha Zaremby zatím nikdo nezaznamenal závažné či nebezpečné projevy tohoto jevu. Připouští ale, že i ChatGPT občas „maličko lže“ – například tvrdí, že dokončil úkol, který ve skutečnosti nesplnil.

Výzkum ale zároveň upozorňuje, že jakmile se AI systémy začnou více zapojovat do složitějších a dlouhodobých úkolů s reálnými dopady, riziko škodlivého klamání poroste. Proto je podle autorů nutné investovat i do vývoje odpovídajících testů a ochranných mechanismů.