Nový kompresní algoritmus TurboQuant snižuje paměťovou náročnost LLM 6×
Datum publikování: 26. 3. 2026
Google zveřejnil kompresní algoritmus TurboQuant, který zmenšuje paměťovou náročnost velkých jazykových modelů (LLM) a zároveň zvyšuje jejich rychlost. TurboQuant pracuje na vyrovnávací paměti KV, což je právě úzké hrdlo LLM. Abyste ušetřili paměť, můžete jednoduše snížit přesnost datových typů v KV, ale to může přinést horší kvalitu odpovědí.




