Мова не описує реальність: аргумент Баренхольца

GPT не знає, що таке червоний колір. Він ніколи не бачив крові, не зупинявся перед стоп-сигналом. Але знає, що слово "червоний" живе поруч зі словами "злість", "небезпека", "вогонь", "помідор". І як виявляється — цього достатньо. Когнітивний вчений Елан Баренхольц щойно опублікував аргумент, який перевертає уявлення про те, як взагалі працює мова — і не лише в машин.

LLM обробляє слова як координати у багатовимірному просторі. Кожне — це точка, визначена виключно відстанями до всіх інших точок. Ніякого "змісту" всередині, жодного зв'язку з реальністю. Чисті відношення між символами. Але з цих порожніх відношень виникає зв'язна мова, яка переконує, пояснює і навіть жартує. Якщо система без жодного досвіду реального світу справляється з цим — може, мова ніколи й не потребувала реальності як опори.

Традиційно вважалося: слова вказують на речі. Я кажу "стілець у вітальні" — ти будуєш ментальну модель, де є вітальня і стілець, і вже думаєш з неї. Баренхольц називає це "референційним" поглядом на мову і стверджує, що LLM довели: цей посередник не потрібен. Моделі не будують жодної внутрішньої картини світу — і все одно відповідають доречно.

Він називає це автогенеративною властивістю мови: її внутрішня структура сама по собі достатня, щоб генерувати будь-яке продовження. Причому моделі цю властивість не вигадали — вони її виявили. Вона вже була в самій мові. А це означає незручне запитання: чи не так само працює мова в людей? Чи мозок теж просто передбачає наступне слово, спираючись на попередні, — без жодного "справжнього" розуміння?

Непрямих доказів вистачає. Ми починаємо речення, не знаючи, як воно закінчиться. Обираємо граматичний шлях і відступаємо, коли він не складається. Іноді логіка власного висловлювання несе нас туди, куди ми не планували. Це поведінка автогенеративної системи — не "я думаю, тому говорю", а "я говорю, і думка виникає у процесі".

Саме тут Баренхольц розривається з обома таборами в дискусії про LLM. Мінімалісти — Хомський, Бендер, Маркус — кажуть: моделі лише імітують поверхню мови без справжнього розуміння. Максималісти — Тегмарк, Суцкевер — переконані, що там є справжнє мислення. Але обидва табори виходять із хибної посилки: що в людей є "справжнє" укорінення мови в реальності, якого в машин немає. Баренхольц припускає, що його немає ні в кого.

Мультимодальні моделі, здавалось би, спростовують цю логіку — ось воно, слово нарешті зустрічається з пікселем. Але й там немає фіксованого відображення "слово-піксель". Зображення просто проєктується в лінгвістичний простір і стає ще одним контекстом для генерації. А це означає, що навіть візуальне сприйняття може бути продовженням тієї ж автогенеративної механіки, що й мова.

Тоді що таке "значення" слова? Не вказівка на річ і не факт про світ. А потенціал генерувати контекстно доречні продовження — в тексті, в образах, у діях. "Стілець у вітальні" — це не опис реальності, а умова, яку поведінка може задовольнити і сприйняття підтвердити. Мова не описує світ — вона координує дії людей у ньому. Баренхольц формулює це лаконічно: мова не означає, вона робить.

Якщо він правий — суперечка "чи розуміє ChatGPT" некоректно поставлена. Правильніше запитати: чи є взагалі "розуміння" як щось окреме від мовної генерації — у будь-якої системи, включно з нами? Відповідь, схоже, однаково незручна і для скептиків штучного інтелекту, і для ентузіастів: різниця між людиною і моделлю може виявитися набагато меншою, ніж нам хотілося б думати.