Премію Тюрінга – 2025 отримали засновники ШІ та машинного навчання
Ендрю Барто та Річард Саттон своїми роботами уможливили створення чат-ботів ChatGPT та DeepSeek

У 1977 році Ендрю Барто, дослідник Массачусетського університету, що в Амхерсті, почав розробляти тези нової теорії, яка стверджувала, що нейрони в головному мозку людини поводяться гедоністично. У фундаменті цієї теорії лежало твердження про те, що кожна з мільярдів нервових клітин, що управляють людським мозком, намагається збільшити задоволення та уникнути болі. За рік до нього долучився молодий дослідник Річард Саттон. Разом вони працювали над поясненням людського інтелекту через призму нової теорії задля використання цього пояснення у справі розвитку штучного інтелекту. В результаті з’явилося «навчання з підкріпленням» (reinforcement learning) – спосіб навчання систем штучного інтелекту за допомогою цифрових еквівалентів задоволення та болю.
5 березня поточного року Асоціація обчислювальних машин, найстарша та найвпливовіша міжнародна організація в галузі комп’ютерних наук, оголосила доктора Барто й доктора Саттона лауреатами Премії Тюрінга. Премію було започатковано 1966 року і її вважають Нобелівською премією з комп’ютерних наук. Двоє вчених, окрім звання, поділять щорічний призовий фонд в $1 млн, який спонсорується корпорацією Google.
Що саме дослідили вчені?
В останнє десятиліття навчання з підкріпленням відігравало ключову роль у сході штучного інтелекту, дозволивши створити такі проривні продукти, як AlphaGo від Google та ChatGPT від OpenAI. Технології, на яких ґрунтуються ці системи, стали можливими саме завдяки роботам доктора Барто та доктора Саттона.
«Вони безспірні засновники навчання з підкріпленням, – прокоментував вручення Орен Еціоні, почесний професор комп’ютерних наук в Університеті Вашингтону та виконавчий директор-засновник Інституту штучного інтелекту Аллена. – Вони створили наріжні ідеї – і написали книгу на цю тему».
Їхня книга «Навчання з підкріпленням: Введення», яка побачила світ 1998 року, досі лишається найбільш впливовим і повномасштабним дослідженням ідеї, що, на думку багатьох експертів, лише починає розкривати свій потенціал. Цей труд має понад 70 000 цитувань в інших академічних працях.

Психологи тривалий час вивчали, як люди та тварини навчаються на основі свого досвіду. У 1940-х роках Алан Тюрінг, один із перших дослідників комп’ютерних наук, запропонував гіпотезу, що машини мають навчатися так само.
Проте лише доктори Барто та Саттон почали розробляти математичні засади теорії, яку свого часу висунув А. Гаррі Клопф, вчений-комп’ютерник, що працював на уряд США. Вони зайшли доволі далеко у своїх дослідженнях: Барто створив лабораторію в університеті UMass Amherst, його колега д-р Саттон – аналогічну лабораторію в Університеті Альберти в Канаді.
«Це здається цілком зрозумілим та логічним, коли йдеться про людей і звірів. Ми переосмислили її для машин», – прокоментував свою роботу доктор Саттон, який окрім цього працює дослідником у ШІ-стартапі Keen Technologies та Інституті машинного навчання Альберти (одна з трьох канадських національних лабораторій розвитку технології штучного інтелекту).
«Коли ми починали, працювати над цим було дуже не модно, – згадує Барто у спільному інтерв’ю. – Багато хто відкинув цінність і практичність нашої роботи. Часом ми не могли знайти фінансування, оскільки не працювали над модними на той момент речами й не копирсалися в тому, що було на слуху».
Дослідники вважають премію «особливо приємною», оскільки саме Алан Тюрінг був автором ідеї про навчання на власному досвіді, але із сумом зауважував, що протягом багатьох років відтоді комп’ютерам не вистачатиме для цього потужностей.
Яке прикладне використання досліджень?
Тривалий час ці дослідження носили виключно теоретичний характер, аж допоки їхні висновки не були використані для створення ШІ-системи AlphaGo у 2016 році. Більшість експертів вважали, що має минути щонайменше 10 років до того моменту, як штучний інтелект переможе найкращих гравців у го у світі.
Проте під час матчу в південнокорейському Сеулі AlphaGo перемогла Лі Седоля, кращого гравця десятиліття. Механіка навчання була побудована на тому, що система зіграла мільйони партій у го проти самої себе, навчаючись методом проб і помилок. Вона визначила та запам’ятала ходи, які приводять до успіху (задоволення), а які – до провалу (біль).

Команду, яка створила систему для Google, очолював Девід Сільвер – дослідник, який вивчав навчання з підкріпленням під керівництвом доктора Саттона в Університеті Альберти.
Багато експертів відтоді ставили собі питання, чи діє підкріплення за межами ігор, адже ігровий процес прив’язаний до очок – переможних чи штрафних, що дозволяє машині робити різницю між успіхом і провалом.
Відповідь вони отримали, коли навчання з підкріпленням зіграло ключову роль у створенні чат-ботів.
Готуючись до запуску ChatGPT восени 2022 року, компанія OpenAI найняла сотні людей, які перевіряли ранню версію чат-бота й надавали свої рекомендації стосовно того, що має бути зроблено. Вони навчили чат-бот відповідати на деякі запитання, оцінили його відповіді за рейтингом і виправили помилки. Проаналізувавши коментарі та зауваження, ChatGPT навчився бути кращим чат-ботом.
Дослідники називають такі процеси «навчання з підкріпленням від людини». І це – одна з причин, чому відповіді чат-ботів схожі на людські.
Згодом компанії на кшталт OpenAI або китайського стартапу DeepSeek, що наробив галасу, поліпшили це навчання з підкріпленням, навчивши своїх чат-ботів навчатися від самих себе – як це робила AlphaGo. Намагаючись розв'язати різні математичні проблеми, чат-бот, наприклад, дізнається, які методи дають правильний результат, які – хибний.
Повторяючи цей процес незчисленну кількість разів і намагаючись розв'язати різні проблеми, чат-бот вчиться імітувати шлях людських роздумів – принаймні в деяких аспектах. Внаслідок цього створюються так звані міркувальні системи – на кшталт o1 від OpenAI чи R1 від DeepSeek.

Доктор Барто й доктор Саттон вважають, що ці системи натякають нам на те, як у майбутньому навчатимуться машини. Зрештою, вважають вони, роботи з вбудованим штучним інтелектом навчатимуться на спробах і помилках так само, як люди та тварини.
«Вчитися керувати тілом через навчання з підкріпленням – цілком природна річ», – каже доктор Барто.
Чи загрожує людству ШІ?
Обидва дослідники погоджуються, що поточні страхи щодо технології штучного інтелекту надмірні, хоча й сходяться на думці, що високоінтелектуальна система може спричинити значні суспільні зміни.
Зокрема, Річард Саттон вважає появу загального штучного інтелекту (AGI) «поворотним моментом для нашої планети», адже це дозволить створювати нові «уми» без потреби в їх біологічному вирощуванні. Ендрю Барто погоджується: «Я вважаю, існує безліч можливостей, як ці системи поліпшать багато аспектів нашого життя й суспільства, якщо ставитися до них з особливою обережністю».
Якщо ви дочитали цей матеріал до кінця, ми сподіваємось, що це значить, що він був корисним для вас.
Ми працюємо над тим, аби наша журналістська та аналітична робота була якісною, і прагнемо виконувати її максимально компетентно. Це вимагає і фінансової незалежності.
Станьте підписником Mind всього за 196 грн на місяць та підтримайте розвиток незалежної ділової журналістики!
Ви можете скасувати підписку у будь-який момент у власному кабінеті LIQPAY, або написавши нам на адресу: [email protected].