Během několika málo let se umělá inteligence změnila z technologické kuriozity na hnací sílu transformace v mnoha oblastech. Její obrovský potenciál však s sebou nese i rizika a jedním z nejzávažnějších – a pro širokou veřejnost méně viditelných – je možné zneužití těchto systémů k usnadnění vývoje zbraní, a to díky demokratizaci přístupu k informacím o něm.
V kontextu, kdy informace znamená moc, by pokročilé jazykové modely mohly teoreticky vést zločince a teroristické organizace k technickým aspektům souvisejícím s šířením jaderných zbraní. Tato obava dala vzniknout průkopnickému projektu: partnerství mezi společností Anthropic, vývojářem jazykového modelu Claude, a Národním úřadem pro jadernou bezpečnost (NNSA) amerického ministerstva energetiky s cílem vytvořit systém ochranných opatření proti zneužití umělé inteligence v jaderné oblasti.
Dvojsečný problém
Jaderná technologie je ze své podstaty duální. Stejné principy, které umožňují vyrábět elektřinu v reaktoru, lze použít i při výrobě atomových zbraní. Tato dvojznačnost činí z jaderných informací mimořádně citlivý materiál.
V případě umělé inteligence je tento problém ještě větší: jazykové modely vycvičené na velkých objemech dat by nakonec mohly odpovídat na technické otázky nebezpečným způsobem. Ačkoli jsou případy takových konverzací vzácné, riziko má velký dopad, protože přímo ovlivňuje národní a globální bezpečnost.
Experiment Anthropic-NNSA
K řešení této výzvy vyvinuly Anthropic a NNSA společně specializovaný klasifikátor, nástroj umělé inteligence, který funguje podobně jako spamové filtry v elektronické poště. Namísto detekce nežádoucí reklamy tento klasifikátor rozlišuje mezi neškodnými konverzacemi o jaderné energii, medicíně nebo politice a těmi, které by mohly naznačovat pokusy o získání citlivých informací o jaderných zbraních.
Projekt byl založen na procesu týmové spolupráce v rámci sítě: v průběhu jednoho roku testovali odborníci NNSA model Claude na hypotetických otázkách a scénářích a zjišťovali rizikové vzorce. Na základě těchto informací a generováním stovek syntetických příkladů byl klasifikátor vycvičen. Výsledky byly slibné: v předběžných testech dosáhl přesnosti přes 96 % a odhalil téměř 95 % nebezpečných dotazů, aniž by produkoval falešně pozitivní výsledky.

Zdroj: Youtube.com
Tato rovnováha je klíčová: pokud by byl systém příliš přísný, mohl by blokovat legitimní studenty jaderného inženýrství; pokud by byl příliš laxní, hrozilo by riziko usnadnění šíření jaderných zbraní.
V každém případě si připomeňme, že 5,2 % škodlivých konverzací bylo označeno jako neškodné.
Testování účinnosti v reálném světě
Klasifikátor již byl experimentálně nasazen na části Claudova provozu a první výsledky ukazují, že funguje i mimo laboratoře. V reálném prostředí se však objevily nečekané nuance: například během nárůstu napětí na Blízkém východě bylo několik legitimních konverzací o jaderných aktualitách zpočátku označeno jako „rizikové“.
Problém odstranil systém hierarchické sumarizace, který společně přezkoumává více konverzací, aby určil jejich kontext, a tím rozlišil mezi novinářským nebo akademickým zájmem a skutečným záměrem šíření jaderných zbraní. Toto zjištění odráží klíčovou skutečnost: bezpečnost umělé inteligence nezávisí na jediném nástroji, ale na kombinaci více vzájemně se posilujících vrstev.
Ale i když vytvoření protijaderného klasifikátoru představuje milník v oblasti bezpečnosti AI, vyvolává větší otázku: Mohou se zmírňující opatření vyvíjet stejným tempem jako technologický vývoj? Koneckonců jazykové modely se vyvíjejí rychle, každá nová generace je výkonnější a všestrannější – a to znásobuje jak jejich výhody, tak rizika.
Naštěstí z tohoto úsilí nebude mít prospěch jen Claude: Anthropic plánuje sdílet svůj výzkum s Frontier Models Forum, koalicí velkých společností, kterou spoluzaložil s Amazonem, Meta, OpenAI, Microsoftem a Googlem, a staví ji do pozice reference pro modely AI v průmyslu.