V posledním roce se na platformách jako GitHub a Stack Overflow objevuje stále více diskusí o fenoménu zvaném „tokenmaxxing“. Jde o snahu vývojářů maximalizovat využití kontextového okna velkých jazykových modelů (LLM) tím, že do promptů vměstnávají co nejvíce informací, často na úkor srozumitelnosti a přirozenosti. Cílem je snížit počet interakcí a tím i náklady na API volání, které se typicky účtují za tokeny.

Paradoxně, tato snaha o optimalizaci nákladů a efektivity se často obrací proti sobě. Výzkumníci z Google DeepMind a OpenAI opakovaně poukazují na to, že modely podávají nejlepší výkon, když jsou dotazy jasné, stručné a dobře strukturované, nikoli nutně co nejdelší. Představte si LLM jako mimořádně inteligentního, ale doslovného asistenta: čím jasněji a srozumitelněji mu zadáte úkol, tím lépe a rychleji jej splní.

„Tokenmaxxing“ často vede k vytváření složitých, mnohovrstevnatých promptů, které jsou pro model obtížněji interpretovatelné. Model pak tráví více času snahou pochopit kontext a prioritu informací, což se projevuje delší dobou odezvy a častějšími chybami. Je to jako snažit se nacpat do jednoho e-mailu všechny detaily projektu za poslední rok a očekávat okamžitou, přesnou odpověď.

Vývojáři tak tráví cenný čas optimalizací promptů, které by s menším úsilím a efektivnějším přístupem mohly být vyřešeny několika kratšími, navazujícími dotazy. Namísto soustředění se na samotné programování a řešení problémů, se stávají architekty komplexních promptů. Není to plýtvání lidským potenciálem, který by mohl být využit jinde?

Průměrná doba strávená laděním jednoho „tokenmaxxingového“ promptu se podle interních průzkumů u některých firem pohybuje kolem 15–30 minut, což je výrazně více než u iterativního přístupu. Celkově to může vést k poklesu produktivity týmu o 10–20 % v závislosti na intenzitě využívání LLM. Tato skrytá daň za zdánlivé úspory je alarmující.

Klíčem k efektivní práci s LLM není snaha o nacpání co nejvíce informací do jednoho promptu, ale spíše umění klást správné otázky a vést s modelem dialog. Iterativní přístup, kde se model ptá na doplňující informace a postupně upřesňuje zadání, se ukazuje jako mnohem účinnější. Modely jako GPT-4o nebo Claude 3 Opus jsou navrženy pro konverzaci, nikoli pro jednorázové, přetížené vstupy.

Jak se bude vyvíjet přístup k prompt engineeringu v době, kdy se kontextová okna modelů neustále zvětšují a náklady klesají? Bude „tokenmaxxing“ jen přechodnou anomálií, nebo se z něj stane zakořeněný zlozvyk, který brzdí inovace?