Коли HLE з'явився на початку 2025-го, GPT-4o набрав 2,7%, Claude 3.5 Sonnet — 4,1%, найпотужніший тоді o1 — лише 8%. Для порівняння: на стандартному MMLU ті самі моделі давно перевалили за 90%. HLE задумувався саме як те, що ШІ ще не може, а це означає — його провал мав бути доказом, що людська експертиза поки недосяжна.
Дослідники показали результат 53% на HLE без доступу до інтернету — використовуючи метод Best-of-N: модель генерує багато варіантів відповіді, потім відбирається найкращий. Вартість — близько $3 за питання, час — до 5 хвилин. Це не один геніальний запит, а перебір з відсівом — ближче до «дати сотні спроб», ніж до «зрозуміти з першого разу».
Паралельно лідерборд живе своїм життям: Gemini і GPT-5 вже штурмують позначку 40%+. Але чи означає це наближення до людського інтелекту? Ні — це означає, що моделі стали кращими саме на типах запитань із цього тесту. Бенчмарк перетворюється на мішень для оптимізації, а не на дзеркало розуму.
Серед завдань HLE — переклад давніх пальмірських написів, ідентифікація мікроскопічних анатомічних структур у птахів, аналіз фонетики біблійної іврит. Це не «загальна ерудиція» — це межа, де навіть профільний експерт вагається. І саме тому результат 53% більше говорить про потужність перебору, ніж про появу справжнього розуміння.