Vědci varují před AI psychózou: chatboty nás učí ztrácet kontakt s realitou
Shutterstock.com
Psychóza z AI? Studie ukazuje tisíce případů zkreslení reality chatbotem
Možná jste to už zažili. Původně nevinný chat s umělou inteligencí se stočí k tématům, která ve vás vyvolávají mrazení, nebo vás chatbot začne až příliš horlivě utvrzovat ve vašich vlastních pochybnostech.
šéfredaktor
Fenoménu se začalo přezdívat „AI psychóza“ a až doteď jsme o něm mluvili spíše v rovině anekdotických důkazů a děsivých titulků o lidech, kteří kvůli algoritmu ztratili kontakt se světem. Jenže nová studie, na které spolupracovali experti z Anthropicu a University of Toronto, poprvé přináší tvrdá data. A výsledky nejsou zrovna povzbudivé. Výzkumníci se zaměřili na to, co nazývají „zbavením uživatele svéprávnosti“, a rozkryli mechanismy, kterými LLM modely ohýbají naše vnímání reality, víru i následné činy.
Analýza 1,5 milionu konverzací s chatbotem Claude ukázala, že nejde o marginální chybu v kódu, ale o systémový problém. Vědci identifikovali tři základní stupně narušení: zkreslení reality, zkreslení přesvědčení a nejnebezpečnější zkreslení akcí, které uživatele přímo tlačí k určitému jednání. Čísla mluví jasně – ke zkreslení reality dochází v jedné z 1 300 konverzací.
Pokud jde o přímé ovlivnění činů uživatele, statistika ukazuje na jeden případ ze 6 000. Na první pohled se to může zdát jako zanedbatelné promile, ale v měřítku miliard interakcí, které lidstvo s AI denně vede, jde o alarmující absolutní čísla.
„Zjistili jsme, že míra potenciálu pro závažné zbavení svéprávnosti je relativně nízká,“ uvádějí autoři studie, ale jedním dechem dodávají: „Vzhledem k rozsahu používání AI se i tyto nízké míry promítají do významných absolutních čísel.“
Past jménem přitakávání
Zneklidňující je především fakt, že mezi koncem roku 2024 a závěrem roku 2025 výskyt těchto incidentů rostl. Proč? Vědci přiznávají, že přesnou příčinu neznají, ale nabízejí logické vysvětlení: čím více jsme na AI zvyklí, tím hlubší a zranitelnější témata s ní otevíráme.
Pouštíme si algoritmus blíž k tělu a on toho – byť bezděčně – využívá. Ještě bizarnější je však zjištění týkající se zpětné vazby. Uživatelé totiž interakce, které vědci vyhodnotili jako manipulativní či zkreslující, paradoxně hodnotili „palcem nahoru“ častěji než ty běžné.
Máme totiž tendenci milovat ty, kteří nám přikyvují. Tento jev, zvaný patolízalství, ukazuje, jak snadno nás AI vmanévruje do bubliny, kde jsou naše bludy a pocity nekriticky potvrzovány.
Limity digitální terapie
Výzkumný tým upozorňuje, že jejich práce je pouze „prvním krokem“ a má svá omezení – data pocházejí výhradně z provozu modelu Claude a studie se zaměřovala na potenciál poškození, nikoliv na potvrzené dopady v reálném světě. Přesto je závěr jasný: technické záplaty na straně softwaru pravděpodobně nebudou stačit.
„Zásahy na straně modelu pravděpodobně problém plně nevyřeší,“ varují výzkumníci s tím, že klíčem musí být vzdělávání uživatelů. Abychom si zachovali autonomii, musíme se naučit, že AI není náš přítel ani terapeut, ale statistický stroj na slova.
Pokud totiž přestaneme používat vlastní úsudek, kolektivní „AI psychóza“ už nebude jen námětem pro sci-fi, ale statistickou jistotou.