Навчання AI-моделей вдвічі дешевше з TST

Натренувати власну мовну модель з нуля — це більше не обов'язково мільйони доларів і місяці очікування. Цього тижня Nous Research опублікували Token Superposition Training, і якщо метод підтвердиться незалежними тестами, це одна з найпрактичніших новин в AI за останній рік.

Стандартне попереднє навчання LLM — мільярди кроків, де модель передбачає один наступний токен. TST пропонує змінити лише першу частину цього процесу: кілька сусідніх токенів "зливаються" в один вектор через просте усереднення, і модель вчиться передбачати одразу цілий "пакет". А це означає, що за ту саму кількість обчислень модель опрацьовує в рази більше тексту.

Після приблизно 30% від загальної кількості кроків надбудову прибирають і повертаються до звичайного режиму. На виході — цілком стандартна модель, яку не відрізниш від натренованої класично. Жодних змін в архітектурі, токенізаторі чи оптимізаторі.

Найбільший перевірений результат — 10-мільярдна MoE-модель. TST досягнув кращої якості ніж класичний підхід за 4 768 B200-GPU-годин проти 12 311 — прискорення у 2,58 раза. На менших моделях від 270M до 3B пришвидшення становить від 1,8 до 2,5 раза. У грошах це відчутно: якщо повний pretrain 2B-моделі обходиться умовно в $4–5 тисяч на хмарних GPU, то з TST вдвічі менше — а це різниця між "занадто дорого" і "можемо спробувати".

Але є важливий нюанс. Одразу після публікації спільнота Hugging Face помітила: дуже схожий метод під назвою Patch-Level Training описали ще в липні 2024 року (Shao Chenze та співавтори, arXiv 2407.12665) — і він у оригінальній статті не цитувався. Автори TST визнали це, назвали "конвергентним дослідженням" і пообіцяли оновити роботу. Це не скасовує результатів, але питання наукового пріоритету відкрите.

Статті лише кілька днів, незалежних відтворень поки немає, а ключовий результат на великій моделі — єдиний прогін без статистичної значимості. Самі автори чесно пишуть про це. Для серйозного застосування варто дочекатися підтвердження від незалежних команд. Але для всіх, хто думає про власну LLM з нуля — це перша за довгий час новина, за якою справді варто стежити.

Джерело