AI Evals: Nový Bottleneck ve Vývoji Umělé Inteligence

Společnost Google DeepMind nedávno zveřejnila data, která naznačují, že náklady na vyhodnocování (evaluace) velkých jazykových modelů (LLM) mohou přesáhnout náklady na jejich trénink. Zatímco trénink modelu Gemini Ultra stál odhadem 100 milionů dolarů, průběžné evaluace, které zajišťují jeho bezpečnost a výkon, představují nečekaně vysokou zátěž. Jak se tato dynamika promítne do budoucího vývoje AI?

Tradičně se za největší překážku ve vývoji AI považovaly výpočetní zdroje, tedy takzvaný compute bottleneck. Obrovské množství GPU, jako jsou NVIDIA H100, bylo zapotřebí k tréninku modelů na gigantických datových sadách. Nyní se však zdá, že po fázi tréninku přichází ještě náročnější etapa: ověřování, že model skutečně funguje tak, jak má, a že neprodukuje toxický nebo nebezpečný obsah.

Evaluace fungují jako digitální kontrola kvality, neustále prověřující model na nespočet scénářů a potenciálních chyb. Tento proces zahrnuje generování tisíců, někdy i milionů, dotazů a následné vyhodnocení odpovědí. Ať už jde o detekci halucinací, ověřování faktické správnosti nebo zajištění etického chování, každá dílčí zkouška spotřebovává drahocenný výpočetní čas.

Proč se evaluace stávají tak nákladnými? Jedním z důvodů je komplexita moderních modelů. S rostoucí velikostí a schopnostmi LLM exponenciálně narůstá i prostor pro potenciální chyby a zranitelnosti. Každá nová verze modelu vyžaduje rozsáhlé testování, které se neomezuje pouze na technické parametry, ale zahrnuje i sociální, etické a bezpečnostní aspekty.

Dalším faktorem je potřeba neustálé aktualizace evaluačních sad. Svět se mění, a s ním i kontext, ve kterém AI operuje. Co bylo včera považováno za bezpečnou odpověď, může být zítra problematické. To vyžaduje dynamický a neustále se vyvíjející systém hodnocení, který je sám o sobě náročný na zdroje.

Firmy jako Anthropic s modelem Claude 3 nebo OpenAI s GPT-4 investují obrovské prostředky do red-teamingových cvičení a automatizovaných evaluačních frameworků. Tyto týmy se snaží modely