Мікроблог Довгі лонгріди з детальними дослідженнями Лонгріди Головна
Тест, який створювали так, щоб ШІ його не міг скласти — щойно склав ШІ. Humanity's Last Exam: 2 500 запитань від майже тисячі науковців з 50 країн, і правило одне — якщо будь-яка модель відповідала правильно, питання видаляли. Результат: бар'єр на межі людського знання. І цей бар'єр впав.

Коли HLE з'явився на початку 2025-го, GPT-4o набрав 2,7%, Claude 3.5 Sonnet — 4,1%, найпотужніший тоді o1 — лише 8%. Для порівняння: на стандартному MMLU ті самі моделі давно перевалили за 90%. HLE задумувався саме як те, що ШІ ще не може, а це означає — його провал мав бути доказом, що людська експертиза поки недосяжна.

Дослідники показали результат 53% на HLE без доступу до інтернету — використовуючи метод Best-of-N: модель генерує багато варіантів відповіді, потім відбирається найкращий. Вартість — близько $3 за питання, час — до 5 хвилин. Це не один геніальний запит, а перебір з відсівом — ближче до «дати сотні спроб», ніж до «зрозуміти з першого разу».

Паралельно лідерборд живе своїм життям: Gemini і GPT-5 вже штурмують позначку 40%+. Але чи означає це наближення до людського інтелекту? Ні — це означає, що моделі стали кращими саме на типах запитань із цього тесту. Бенчмарк перетворюється на мішень для оптимізації, а не на дзеркало розуму.

Серед завдань HLE — переклад давніх пальмірських написів, ідентифікація мікроскопічних анатомічних структур у птахів, аналіз фонетики біблійної іврит. Це не «загальна ерудиція» — це межа, де навіть профільний експерт вагається. І саме тому результат 53% більше говорить про потужність перебору, ніж про появу справжнього розуміння.

14 переглядів