Modely Claude si najlepšie poradia s nezmyselnými otázkami
Datum publikování: 25. 3. 2026
Bullshit Benchmark je netradičný testovací rámec pre veľké jazykové modely (LLM), ktorý vytvoril Peter Gostev. Na rozdiel od bežných benchmarkov, ktoré merajú vedomosti alebo logiku, tento sa zameriava na schopnosť AI rozpoznať nezmysel a odmietnuť naň odpovedať.






