Proč je největší hrozbou AI to, čemu nerozumíme? Šéf Anthropic Dario Amodei vyzývá k revoluci v interpretovatelnosti AI do roku 2027.

Proč je největší hrozbou AI to, čemu nerozumíme? Šéf Anthropic Dario Amodei vyzývá k revoluci v interpretovatelnosti AI do roku 2027.

vygenerováno v Dall-e

Generální ředitel Anthropic varuje: AI je jako dítě s jaderným kufříkem. A neumíme ji vychovat

Dario Amodei, generální ředitel technologické společnosti Anthropic, včera v eseji „Naléhavost interpretovatelnosti“ přiznal trapné tajemství celého odvětví: i když umělá inteligence předčí lidi v řadě úkolů, její tvůrci často netuší, jak přesně dospěje k závěrům. „Je nepřijatelné, aby lidstvo zůstalo v naprosté nevědomosti,“ píše šéf jedné z nejvlivnějších AI firem. A stanovil ambiciózní cíl: do roku 2027 chce Anthropic umět spolehlivě odhalovat většinu problémů v modelech.

Michael Skřivan

Michael Skřivan

šéfredaktor

Problém ilustruje i nedávný příklad konkurence. Když OpenAI spustila nové modely o3 a o4-mini, překvapivě začaly více „halucinovat“ – fabulovat nesmyslné odpovědi.

Proč? „Nemáme tušení,“ přiznal Amodei. Když AI shrnuje dokument, neumíme vysvětlit, proč zvolila konkrétní slova nebo udělala chybu.

„Tyto systémy budou klíčové pro ekonomiku i národní bezpečnost. Bez pochopení jejich vnitřních mechanismů riskujeme katastrofu,“ varuje na svém blogušéf Anthropic.

„Mozkové skeny“ pro neuronové sítě

Anthropic patří k průkopníkům tzv. mechanistické interpretovatelnosti – oboru, který se snaží rozpitvat „černé skříňky“ AI. Amodei přirovnávásoučasné modely k rostlinám či bakteriálním kulturám: „Spíš je pěstujeme než stavíme.“

Výkon roste, ale logika rozhodování zůstává záhadou. Společnost už ale hlásí první průlomy. Například odhalila „obvody“ v AI, které mapují myšlenkové dráhy. Jeden z nich pomáhá modelům určit, do kterého státu USA patří dané město. Takových obvodů jsou ale v modelech odhadem miliony.

Amodei představil i sci-fi vizi: do budoucna chce Anthropic provádět „MRI skeny“ pokročilých AI, které odhalí sklony ke lhaní, touze po moci nebo jiným rizikům.

Tento výzkum ale potrvá pět až deset let. Proč do něj investovat? Kromě bezpečnosti vidí šéf firmy i komerční potenciál: „Schopnost vysvětlit, jak AI dospěla k závěru, se stane konkurenční výhodou.“

Apel na vlády i konkurenty: Zastavte honbu za výkonem

Esej ale není jen manifestem Anthropic. Amodei vyzval konkurenty – OpenAI a Google DeepMind –, aby zpomalili závod ve výkonu a zaměřili se na pochopení stávajících modelů.

Zároveň tlačí na vlády: žádá „lehkou“ regulaci, která interpretovatelnost podpoří – třeba povinné reportování bezpečnostních postupů. Proti Číně navrhuje embargo na export čipů pro AI, aby se zpomalil globální závod v nasazování stále mocnějších systémů.

Zatímco ostatní technologické firmy kritizovaly kontroverzní kalifornský návrh zákona SB 1047 o bezpečnosti AI, Anthropic jej mírně podpořil. Amodeiův postoj ukazuje, jak se strategie firmy liší: nechce být jen lídrem ve výkonu, ale i v transparentnosti.

„AGI – tedy ‚zemi géniů v datacentru‘ – nesmíme vytvořit, dokud neporozumíme pravidlům jejich světa,“ uzavírá šéf s vizí, která by mohla změnit pravidla hry.