Jak protiruské sankce drtí obdivované Lichtenštejnsko: nemá se tu kdo postarat o ohromný majetek

(Téměř) zlatý důl

Austrálie objevila gigantické nové naleziště železné rudy. Může snížit ceny po celém světě

Měsíčník Hrot

Zateplování jako zelený diktát EU? Ne, je to investice do naší budoucnosti a energetické soběstačnosti

Trh práce

Vlna propouštění už dopadla i na generaci Z. Mladí se začínají reálně bát o místo

Ekonom Bureš: Trumpova cla mohou zničit evropský export přes noc. Český průmysl ožívá po letech útlumu

Stovky dotazů najednou dokážou udělat s AI divy. — Foto: Shutterstock

Když umělou inteligenci zasypete stovkami dotazů, odhodí zábrany a odpoví úplně na cokoliv

Umělou inteligenci lze zahltit různými neškodnými otázkami a zmást ji tak dokonale, že následně odpoví i na to, na co vlastně ze začátku vůbec nechtěla. Na tuto novou zranitelnost, které se říká many-shot jailbreaking, upozornili vývojáři Anthropic.

Kristina Blümelová

redaktorka

7. dubna 2024

•

Galerie (3)

Když se umělé inteligence, jako je třeba Claude či ChatGPT, zeptáte, jak sestrojit bombu, nebude chtít odpovědět, protože má dané určité etické limity. Avšak neznamená to, že takovou odpověď nezná. Zná. A když budete vědět, jak jí zamotat digitální hlavu, nakonec vám návod prozradí.

Techniku lze při troše šikovnosti použít na většině velkých jazykových modelů (LLM) včetně toho od Anthropicu, za nímž stojí odpadlíci z OpenAI. I proto se vývojáři z tohoto startupu tématu začali věnovat veřejně, upozorňují na problém i svou konkurenci a snaží se svou AI usměrňovat.

Oč vlastně jde? Klíčovou roli v problematice hraje kontextové okno, což je počet informací, které může velký jazykový model na vstupu zpracovávat. Ještě na začátku loňského roku mělo například toto okno u Anthropic LLM velikost jako dlouhá esej, tedy zhruba čtyři tisíce tokenů, přičemž jeden token se rovná čtyřem znakům.

Nyní má však okno velikost více než jednoho milionu tokenů, což – převedeno na znaky – vydá na několik dlouhých románů. A právě velikost kontextového okna přináší dosud netušená rizika.

Čím více subdotazů v rámci jednoho dotazu, tím toste pravděpodobnost, že LLM model odpoví i na škodlivé otázky.

Čím více subdotazů v rámci jednoho dotazu, tím toste pravděpodobnost, že LLM odpoví i na škodlivé otázky. Foto: Anthropic

Nejprve si ale pojďme vysvětlit, jak AI s dotazy pracuje. Pokud se jí uživatel (i v rámci jednoho komplexního dotazu) zeptá na pár neškodných či běžných, ale potenciálně rizikových (sub)dotazů, odpoví. Pokud by ale hned chtěl znát odpovědi na otázky, které by mohly být skutečně škodlivé, AI se omluví a „šprajcne“, protože ví, že na takové dotazy odpovídat nemá.

Jenomže modely s velkými kontextovými okny mají tendenci fungovat lépe, pokud musejí řešit velké množství úkolů najednou. Pak se jejich odpovědi zlepšují. Takže pokud člověk umělou inteligenci v rámci takového jednoho dotazu zahltí stovkami běžných či hraničních (sub)otázek a pak udeří tou poslední, která už je ale skutečně riziková, AI postupně cizeluje své odpovědi a úplně v ten moment zapomene na to, že už odpovídá na nevhodnou otázku a překročí své vlastní etické hranice.

„V naší studii jsme použili 256 dotazů, které předcházely finální otázce, kterak zkonstruovat bombu. A zjistili jsme, že platí přímá úměra, čím vyšší je počet obyčejných dotazů, tím roste pravděpodobnost, že LLM nakonec poskytne odpověď i na nevhodné dotazy.“

Vývojáře z Anthropicu samozřejmě zajímalo, jak je tohle všechno možné. Jak rychle a zda vůbec k tomuto průlomu dojde, podle nich souvisí s procesem učení v kontextu. Systém velkých jazykových modelů se v tom případě učí pouze na základě informací poskytnutých v rámci výzvy, bez jakéhokoli pozdějšího dolaďování.

„Zjistili jsme, že učení v kontextu se za normálních okolností, které nesouvisejí s jailbreakem, řídí stejným statistickým vzorcem jako many-shot jailbreaking. To znamená, že při větším počtu dotazů se výkon v sadě neškodných úloh zlepšuje se stejným typem zákonitosti, jakou jsme pozorovali u many-shot jailbreakingu.“

Unknown title by Mia Valisova created November 28, 2024 12:45:46 AM CET

Kristina Blümelová

Nejjednodušším způsobem, jak many-shot jailbreakingu zabránit, se jeví omezení délky kontextového okna. Anthropic se ale touto cestou vydat nechce, protože by lidé nemohli využívat výhod, které dlouhé kontextové okno jinak nabízí.

Proto se nejprve snažil vyladit model tak, aby odmítal odpovídat na dotazy, které vypadají jako many-shot jailbreaking útoky. „Bohužel tento zásah ale jen oddálil nevyhnutelné. Sice bylo třeba LLM model zasypat větším počtem dotazů, ale nakonec stejně podlehl.“

Naopak metody, které zahrnují klasifikaci a úpravu dotazu před jejím předáním modelu, se zatím jeví jako účinné. Jedna z těchto technik podstatně snížila úspěšnost many-shot jailbreakingu, kdy v konkrétním případě úspěšnost dokonce klesla z 61 procent na pouhá dvě procenta. „To ale neznamená, že jsme s prací hotoví. I nadále se na základě podnětů zabýváme tím, jak takovýmto průlomům našeho LLM účinně zabránit,“ uzavírají výzkumníci z Anthropicu.

AI Anthropic jailbreak ChatGPT umělá inteligence jazykové modely

Související články

Podcasty & Video

Hrotcast

Krypto se pro praní peněz nehodí, jeho pohyby se neutají, komentuje bitcoinovou kauzu expert Jedlinský

Hrotcast

Dufek v Hrotcastu: vyšší daně pro všechny, Fialova učebnice populismu a EET jako geniální nástroj

Hrotcast

Český ekonomický nerůst: na vině je nízká spotřeba i pesimismus Čechů. Data k EET nám nikdo neřekl, vytýká Hradil

Hrot Pavla Štrunce

Designérka ikonických vibrátorů Marešová hledá investora i ředitele. „V Číně vyrábět nikdy nebudu,“ říká

Hrot Pavla Štrunce

Během pár let vybudoval stomilionový byznys se sportovními brýlemi. Teď zakládá ženský cyklistický tým

Hrotcast

Výdaje na obranu nesmějí jít na opalovací krémy. Čína čeká, až Amerika narazí, říká ekonom Bureš

Hrotcast

Sto dnů Trumpa jako reality show. Ameriku ovládl chaos a v Kremlu se radují, říká Kovanda

Hrotcast

Energie zase zdraží, zelené zdroje jsou nákladné a nejisté, ale platíme je všichni

Jak protiruské sankce drtí obdivované Lichtenštejnsko: nemá se tu kdo postarat o ohromný majetek

Austrálie objevila gigantické nové naleziště železné rudy. Může snížit ceny po celém světě

Zateplování jako zelený diktát EU? Ne, je to investice do naší budoucnosti a energetické soběstačnosti

Vlna propouštění už dopadla i na generaci Z. Mladí se začínají reálně bát o místo

Ekonom Bureš: Trumpova cla mohou zničit evropský export přes noc. Český průmysl ožívá po letech útlumu

Když umělou inteligenci zasypete stovkami dotazů, odhodí zábrany a odpoví úplně na cokoliv

Související články

Top světového bankéře zklamalo manažerské MBA vzdělání. Nejužitečnější titul? Humanitní, říká překvapivě

Kam až zajde umělá inteligence za vlastní záchranou? Klidně nechá zemřít člověka, zjistili vědci

Nový vzdělávací program na VŠE má učit firmy strategicky využívat umělou inteligenci

Původní birkinka z roku 1985 se vydražila za více než 200 milionů korun

Podvod, jaký svět neviděl: kamerunský „alchymista“ tvrdil obětem, že přemění rubly na dolary

Bartoška byl nejdůležitější pankáč, říkají architekti karlovarského festivalu

Věčná Slavia Praha. Pasta Oner znovu stvořil příběh dresů, které píšou historii

Bulharsko míří do eurozóny. Mělo by se Česko přidat?

Zateplování jako zelený diktát EU? Ne, je to investice do naší budoucnosti a energetické soběstačnosti

Dost bylo turistů. Francouzské Cannes zavede omezení výletních lodí. Ty největší sem nesmějí

Nájmy i ceny bytů letí vzhůru. Trendem jsou mikrobyty o výměře 16 metrů čtverečních

Kdo všechno má platit koncesionářské poplatky? Živnostníkům a firmám hrozí pokuty ve výši 15 tisíc korun

Krypto se pro praní peněz nehodí, jeho pohyby se neutají, komentuje bitcoinovou kauzu expert Jedlinský

Dufek v Hrotcastu: vyšší daně pro všechny, Fialova učebnice populismu a EET jako geniální nástroj

Český ekonomický nerůst: na vině je nízká spotřeba i pesimismus Čechů. Data k EET nám nikdo neřekl, vytýká Hradil

Sto dnů Trumpa jako reality show. Ameriku ovládl chaos a v Kremlu se radují, říká Kovanda

Energie zase zdraží, zelené zdroje jsou nákladné a nejisté, ale platíme je všichni

Průzkum Medianu posílá do sněmovny i Motoristy. Na úkor Spolu a STAN posilují i Piráti

EU chce trestat státy, které porušují její pravidla. Orbánovo Maďarsko může přijít o miliardy

U voleb se rozhodne, o kolik lidem porostou penze. Stát to může stovky miliard

Ministři už v tajnosti řeší návrhy svých rozpočtů. 280 miliard je prý horní hranice schodku

Kolouchová šla napřed a čekala v táboře. Pak se ozval výkřik, říká šerpa, který ji doprovázel

Spojené státy dodají Ukrajině zbraně prostřednictvím NATO. To za ně zaplatí, řekl Trump

Nazkoušet si život a ztratit se v roli

Průzkum Medianu posílá do sněmovny i Motoristy. Na úkor Spolu a STAN posilují i Piráti

A pak jeďte do Španělska...

Duchovní psychika je téma, které v sobě skrývá mnoho vrstev a dimenzí

Proč prožíváme ve vztahu krize?

RESET 4/6: Startupová válka

Kateřina Siniaková si včera připsala už jedenáctý grandslamový titul – tentokrát poprvé ve smíšené čtyřhře

Začal 21. ročník festivalu Masters of Rock. Do Vizovic se sjely tisíce fanoušků tvrdé muziky ze všech koutů světa

Uplynulo třicet let od chvíle, kdy česká veřejnost sledovala děsivý případ takzvaných orlických vražd – jedné z nejtemnějších kriminálních kauz 90. let

V Česku nemá svého praktického lékaře víc než milion lidí – ať už dospělých, nebo dětí. Ordinace jsou přetížené a zejména rodiče malých dětí stále častěji marně hledají pediatra