Začalo to chatGPT a záhy se začali přidávat další a další chatboti, generativní nástroje založené na AI a jiné programy nebo jazykové modely běžící na umělé inteligenci. Samsung přispěchal se svou Galaxy AI, Google s Gemini a Apple zase s Apple Intelligence. A uživatelům už z toho jde skoro hlava kolem. I pro výrobce, vývojáře a firmy je ale čím dál těžší rozhodnout se, na jaký model se mají spolehnout. A možná i proto Samsung vytvořil novou platformu TRUEBench.
Slovo Bench jasně odkazuje na směřování tohoto projektu – bude hodnotit nějaká zařízení a bude je navzájem porovnávat, aby uživatelé i profesionálové věděli, které je výkonnější, schopnější, produktivnější a tak dále. Ale slovo TRUE, které v překladu znamená PRAVDA, je hodně mnohoznačné. Co tedy Samsung chce popravdě testovat?
Umělou inteligenci. Tak prosté a zároveň tak neuvěřitelně složité to je. TRUEBench má sloužit k měření toho, jak si velké jazykové modely vedou v reálných aplikacích. A tedy jak zvyšují produktivitu práce uživatelů. Porovnávat si je přitom mohou sami uživatelé a srovnávat lze až 5 LLM naráz. TRUEBench je dokáže ohodnotit z hlediska běžných úkolů jako generování obsahu, analýza dat, sumarizace nebo překlad.
TRUEBench obsahuje 10 kategorií a 46 podkategorií. Celkem má k dispozici 2 485 testovacích sad ve 12 jazycích. A mělo by jít především o vodítko pro firmy, které zvažují využití AI ke zvýšení produktivity. Díky benchmarkům AI by se mohly snadněji rozhodnout, který model zvolit.
Kritéria pro vyhodnocování přitom byla nastavena lidmi, takže by mohla odpovídat skutečným potřebám. Jak dobře ale bude TRUEBench fungovat a jaký bude mít ohlas, na to si musíme počkat.