CENTRUM.CZ > Techzpravy.cz > dnes, 03:00

Anthropic přidal do chatbota Claude bezpečnostní pojistku, která může ukončit chat

Sdílet

Nová funkce ilustruje jak nebezpečí demokratizace přístupu ke znalostem, tak obtíže při zohledňování kontextu při filtrování.

Zdroj: Sashkinw / iStock

Nová funkce ilustruje jak nebezpečí demokratizace přístupu ke znalostem, tak obtíže při zohledňování kontextu při filtrování.

Během několika málo let se umělá inteligence změnila z technologické kuriozity na hnací sílu transformace v mnoha oblastech. Její obrovský potenciál však s sebou nese i rizika a jedním z nejzávažnějších – a pro širokou veřejnost méně viditelných – je možné zneužití těchto systémů k usnadnění vývoje zbraní, a to díky demokratizaci přístupu k informacím o něm.

V kontextu, kdy informace znamená moc, by pokročilé jazykové modely mohly teoreticky vést zločince a teroristické organizace k technickým aspektům souvisejícím s šířením jaderných zbraní. Tato obava dala vzniknout průkopnickému projektu: partnerství mezi společností Anthropic, vývojářem jazykového modelu Claude, a Národním úřadem pro jadernou bezpečnost (NNSA) amerického ministerstva energetiky s cílem vytvořit systém ochranných opatření proti zneužití umělé inteligence v jaderné oblasti.

Mohlo by vás zajímat: Duolingo má konkurenci. A přichází z míst, kde byste ji nečekali

Dvojsečný problém

Jaderná technologie je ze své podstaty duální. Stejné principy, které umožňují vyrábět elektřinu v reaktoru, lze použít i při výrobě atomových zbraní. Tato dvojznačnost činí z jaderných informací mimořádně citlivý materiál.

Today’s Global AI Native Industry Insights include:
1. ElevenLabs Launches Eleven v3 (Alpha) API for Advanced Text-to-Speech

2. Anthropic and DOE Partner to Develop Nuclear Safeguards for AI

3. Google Expands AI Mode in Search with Agentic Features Globally

Dive into… pic.twitter.com/nl5qFzSONy
— AI Native Foundation (@AINativeF) August 22, 2025

V případě umělé inteligence je tento problém ještě větší: jazykové modely vycvičené na velkých objemech dat by nakonec mohly odpovídat na technické otázky nebezpečným způsobem. Ačkoli jsou případy takových konverzací vzácné, riziko má velký dopad, protože přímo ovlivňuje národní a globální bezpečnost.

Experiment Anthropic-NNSA

K řešení této výzvy vyvinuly Anthropic a NNSA společně specializovaný klasifikátor, nástroj umělé inteligence, který funguje podobně jako spamové filtry v elektronické poště. Namísto detekce nežádoucí reklamy tento klasifikátor rozlišuje mezi neškodnými konverzacemi o jaderné energii, medicíně nebo politice a těmi, které by mohly naznačovat pokusy o získání citlivých informací o jaderných zbraních.

Projekt byl založen na procesu týmové spolupráce v rámci sítě: v průběhu jednoho roku testovali odborníci NNSA model Claude na hypotetických otázkách a scénářích a zjišťovali rizikové vzorce. Na základě těchto informací a generováním stovek syntetických příkladů byl klasifikátor vycvičen. Výsledky byly slibné: v předběžných testech dosáhl přesnosti přes 96 % a odhalil téměř 95 % nebezpečných dotazů, aniž by produkoval falešně pozitivní výsledky.

Video k článku ZDE

Zdroj: Youtube.com

Tato rovnováha je klíčová: pokud by byl systém příliš přísný, mohl by blokovat legitimní studenty jaderného inženýrství; pokud by byl příliš laxní, hrozilo by riziko usnadnění šíření jaderných zbraní.

V každém případě si připomeňme, že 5,2 % škodlivých konverzací bylo označeno jako neškodné.

Testování účinnosti v reálném světě

Klasifikátor již byl experimentálně nasazen na části Claudova provozu a první výsledky ukazují, že funguje i mimo laboratoře. V reálném prostředí se však objevily nečekané nuance: například během nárůstu napětí na Blízkém východě bylo několik legitimních konverzací o jaderných aktualitách zpočátku označeno jako „rizikové“.

Problém odstranil systém hierarchické sumarizace, který společně přezkoumává více konverzací, aby určil jejich kontext, a tím rozlišil mezi novinářským nebo akademickým zájmem a skutečným záměrem šíření jaderných zbraní. Toto zjištění odráží klíčovou skutečnost: bezpečnost umělé inteligence nezávisí na jediném nástroji, ale na kombinaci více vzájemně se posilujících vrstev.

Ale i když vytvoření protijaderného klasifikátoru představuje milník v oblasti bezpečnosti AI, vyvolává větší otázku: Mohou se zmírňující opatření vyvíjet stejným tempem jako technologický vývoj? Koneckonců jazykové modely se vyvíjejí rychle, každá nová generace je výkonnější a všestrannější – a to znásobuje jak jejich výhody, tak rizika.

Naštěstí z tohoto úsilí nebude mít prospěch jen Claude: Anthropic plánuje sdílet svůj výzkum s Frontier Models Forum, koalicí velkých společností, kterou spoluzaložil s Amazonem, Meta, OpenAI, Microsoftem a Googlem, a staví ji do pozice reference pro modely AI v průmyslu.

Zdroje článku: axios.com, Autorský text, www.techzpravy.cz

DALŠÍ ČLÁNKY z Techzpravy.cz

Vybrali jsme pro vás MAGAZÍNY A ZAJÍMAVOSTI

Pokusil se Trumpův tým podrazit Zelenského? Věrný zůstal ten, od kterého to nečekal

Zprávy - Aktuálně.cz|

dnes, 19:08

Pokusil se Trumpův tým podrazit Zelenského? Věrný zůstal ten, od kterého to nečekal

J. D. Vance se pokoušel najít alternativu k Zelenskému v případě politické krize na Ukrajině. Oslovil jeho...

Kam se bude nově létat z Brna? Ve hře je prozatím Amsterdam

Brněnská Drbna|

dnes, 19:00

Kam se bude nově létat z Brna? Ve hře je prozatím Amsterdam

Zástupci Brna, Jihomoravského kraje a brněnského letiště v těchto dnech čekají na detaily nabídek leteckých...

Jak upéct fantastický koláč s ostružinami plný zdraví? Zkuste recept krok za krokem

Vaření.cz|

dnes, 19:00

Jak upéct fantastický koláč s ostružinami plný zdraví? Zkuste recept krok za krokem

Šťavnaté ostružiny si přímo říkají o křehké těsto a křupavou ovesnou drobenku. Jak ovoce připravit, aby...

"Překvapení" pod mostem. Ukrajinci s drony nemilosrdně využili ruské zbrklosti

Zprávy - Aktuálně.cz|

dnes, 19:00

"Překvapení" pod mostem. Ukrajinci s drony nemilosrdně využili ruské zbrklosti

Pozoruhodné na celé akci je především to, že drony obránců napadeného státu cílily na ruské miny umístěné...

Pittsburgh na prodej. Miliardáři z Chicaga chtějí přepsat historii slavného klubu

SportWin|

dnes, 18:40

Pittsburgh na prodej. Miliardáři z Chicaga chtějí přepsat historii slavného klubu

Pittsburgh Penguins se ocitají v hledáčku nového kupce. Podle Elliottea Friedmana ze Sportsnet chce klub...

Brno se otepluje. Průměrná teplota poprvé přesáhla 12 stupňů

Brněnská Drbna|

dnes, 18:30

Brno se otepluje. Průměrná teplota poprvé přesáhla 12 stupňů

Průměrná roční teplota v Brně poprvé překročila hranici 12 stupňů Celsia. Zatímco do roku 1990 se držela...

Kvíz: Tvary zájmena já aneb Psaní mě/mne/mně. Máte v tom jasno?

NESPECHEJ.cz|

dnes, 18:30

Kvíz: Tvary zájmena já aneb Psaní mě/mne/mně. Máte v tom jasno?

Český jazyk se svými vyjmenovanými slovy, interpunkcí, skloňováním a časováním patří mezi nejnáročnější...

Dobrá práce. Jihlavští kriminalisté dopadli během pár dní dva drogové dealery

Jihlavská Drbna|

dnes, 18:23

Dobrá práce. Jihlavští kriminalisté dopadli během pár dní dva drogové dealery

Velmi úspěšní jsou jihlavští kriminalisté poslední dobou v boji proti drogovým dealerům na Jihlavsku. V...

Stát se znovu pokouší o prodej zámku po zločinci, chce za něj aspoň 52 milionů

Plzeňská Drbna|

dnes, 18:20

Stát se znovu pokouší o prodej zámku po zločinci, chce za něj aspoň 52 milionů

Úřad pro zastupování státu ve věcech majetkových (ÚZSVM) se počtvrté pokouší o prodej barokního zámku...

Hyperloop: Revoluční doprava prozatím jen ve fázi testování

MotoGuru|

dnes, 18:17

Hyperloop: Revoluční doprava prozatím jen ve fázi testování

Vize kabin letících vakuovou trubkou stovky kilometrů za hodinu fascinuje. Slibuje letecké časy mezi městy...

Doporučujeme

Právě u nás vyšlo

Krutý debakl na závěr kariéry. Rozlučka Kvitové na US Open netrvala ani hodinu

Anthropic přidal do chatbota Claude bezpečnostní pojistku, která může ukončit chat

Krutý debakl na závěr kariéry. Rozlučka Kvitové na US Open netrvala ani hodinu

Zelenskyj se usmál a vyvolal bouři. Otevřená hrozba, přestaňte, zuří Maďaři

Mladý muž v noci zmizel z kempu a od té doby ho už nikdo neviděl

Tragická srážka vlaků u Spálova: strojvůdce obětoval život, lidé umírali v plamenech

Hlasatelka Dagmar Dvořáčková: Nadějnou kariéru ukončila vážná nemoc