«Революційна та найкраща модель», «корисно та дивовижно», «бомбічно», «фільм «Вона» став реальністю». Все це – про GPT-4o – нову флагманську модель генеративного штучного інтелекту від OpenAI. Компанія презентувала новинку 13 травня і поступово робить її доступною для користувачів, починаючи з тих, хто використовує free-плани. За тиждень, що минув, Mind був серед охочих протестувати розробку й тепер ділиться своїми враженнями.
Напередодні презентації хтось запустив «качку» про те, що OpenAI готується представити нову пошукову систему, яка конкуруватиме з Google – на це «повелися» навіть Bloomberg і Daily Mail. Мовляв, штучний інтелект здійснюватиме пошук в інтернеті й на основі знайденого генеруватиме результати, і це може дозволити користувачам ставити ChatGPT запитання й отримувати докладні відповіді з посиланнями на онлайн-ресурси, наприклад Вікіпедію. Google пророкували через це великі проблеми. Але ні.
Головне, на чому акцентує OpenAI, представляючи свою модель, – це її здатність у реальному часі працювати з літерами, звуками та зображеннями – статичними й рухомими. Тобто вона приймає та обробляє запит у будь-якому форматі: текстовому, голосовому, візуальному. На це натякає «о» в назві – це означає omni, що в перекладі з латини значить «все», а у контексті GPT-4o – «всебічний» або «універсальний».
За тиждень, що минув від презентації, можливості GPT-4o випробувала велика кількість людей у найрізноманітніших професійних сферах. Більшість єдина у своїй думці: цей інструмент може стати ідеальним персональним помічником і здатен перевершити всі наявні моделі.
Сем Альтман, СЕО OpenAI, зрозуміло, у захваті від нового дітища своєї компанії:
our new model: GPT-4o, is our best model ever. it is smart, it is fast,it is natively multimodal (!), and…
– Sam Altman (@sama) May 13, 2024
Наша нова модель, GPT-4o – це наша найкраща модель за всю історію. Він розумний, швидкий, мультимодальний (!) і…
Він не приховує, що натхненням для його команди став фільм «Вона» 2013 року з Хоакіном Феніксом і голосом Скарлетт Йоханссон у головних ролях. Один з його х-ів (твітів) містить лише одне слово:
her
– Sam Altman (@sama) May 13, 2024
Вона
Після прямого ефіру презентації Альтман написав блог, у якому з великою гордістю і захопленням розповів про GPT-4o. «Я дуже пишаюся тим, що ми зробили найкращу у світі модель штучного інтелекту безплатно доступною в ChatGPT, без реклами чи чогось подібного, – пише він. – Ми – бізнес, і ми ще знайдемо багато речей, за які можна брати гроші, що допоможуть нам безплатно пропонувати видатні ШІ-сервіси мільярдам (сподіваємося) людей. Оригінальний ChatGPT прочинив завісу, що можна робити з мовними інтерфейсами. Ця нова річ – кардинально інша. Вона швидка, розумна, весела, природна та корисна».
Ілон Маск, як «баба-яга», – проти. Презентацію новинки він розкритикував:
Demo made me cringe
– Elon Musk (@elonmusk) May 13, 2024
Демо [GPT-4o] – це якийсь кринж.
Наступного дня після презентації OpenAI свою ШІ-новинку представила Google. Це помічник Project Astra на базі моделі Gemini, який, як переконують у компанії, зробить штучний інтелект «справді корисним у повсякденному житті». На обидві презентації Маск відреагував у своєму дусі:
Now imagine if the extinctionist philosophy is programmed into AI.
– Elon Musk (@elonmusk) May 14, 2024
No need to imagine – this is already the case with Gemini and ChatGPT.
А тепер уявіть, що філософія добровільного вимирання людства запрограмована у штучний інтелект.
Хоча ні, не уявляйте – це вже зроблено у Gemini та ChatGPT.
Марк Цукерберг нічого не сказав про GPT-4o, а ось нова модель про нього вже висловилася. Видання Business Insider завантажило їй декілька останніх «луків» Цукерберга та попросило проаналізувати його стиль. Вердикт ChatGPT: Цукербергу слід попрацювати над тим, щоб одягатися більш доречно для своєї ролі СЕО.
Можливості GPT-4o впроваджуються поступово. З першого ж дня його текстові й графічні функції стали доступні free-користувачам, але в обрізаному форматі – лише 20 чат-повідомлень кожні 3 години, після чого користувач повертається до версії GPT-3.5. У плані ChatGPT Plus теж є обмеження щодо кількості повідомлень із GPT-4o – 50 на кожні 3 години.
Юзери з усього світу випробовують нову модель і дивуються її можливостям. Ось лише деякі відгуки про те, що вона вміє:
GPT-4o is truly remarkable on 18th handwriting. I gave it the following letter and asked it for a transcription. A couple of very minor errors…amazing! pic.twitter.com/3JevZvd5p5
– Generative History (@HistoryGPT) May 14, 2024
GPT-4o реально чудовий із рукописом XVIII століття. Я дав йому цей лист і попросив розшифрувати. Лише пара незначних помилок… неймовірно!
● GPT-4o робить синхронний переклад декількома мовами.
● Один із користувачів за допомогою GPT-4o за лічені секунди успішно створив відеогру, спираючись виключно на скріншот.
Mind теж протестував головні заявлені функції GPT-4o – вдосконалений чат-бот, голосову взаємодію та роботу із зображеннями.
GPT-4o – дійсно більш емпатійний і людяний. Як і заявляли розробники, вчиться розпізнавати сарказм. Але «сарказм на сарказм» ще не вміє:
Голосові й візуальні функції наразі працюють лише в мобільній версії ChatGPT. Тембр голосу користувач може обирати з-поміж п’яти різних патернів. Один з голосів – Sky – вже став предметом жартів і скандалів, бо надто вже схожий на голос Скарлетт Йоханссон. Хоча OpenAI переконає, що голос Sky не мав нагадувати «Її», але у компанії прийняли рішення припинити його використання. Першим запитанням було, чи спілкується модель українською. Вона «думала» приблизно 30 секунд, після чого впевнено, із ледь уловимим акцентом відповіла: «Так, я розумію українську і можу спілкуватися нею. Як я можу допомогти?»
Він реально веде розмову. Може сам її ініціювати, запитавши, наприклад: «Як проходить твій день?» Його можна перебити й уточнити запитання. Він уловлює емоційні інтонації та може намагатися заспокоїти. Треба зізнатися, це трохи дивно…
GPT-4o прекрасно аналізує фото. Він детально описує зображення, а також класифікує їх за спільними рисами. Так, моделі були запропоновані декілька зображень, зроблених у тому самому інтер’єрі, і вона самостійно зазначила це, вказавши на те, які предмети є спільними для всіх фото. Вона також «бачить» відео та розповідає не лише сюжет, а й особливості сцени.
Залишається лише здогадуватися, якими функціями поповниться платна версія, якщо безплатна вміє все це. Хоча деякі користувачі, здається, знають відповідь:
Немає сумнівів, що передові мовні моделі штучного інтелекту мають величезний потенціал у багатьох сферах. Користувачі вже почали розмірковувати, які професії зникнуть з їх поширенням. Втім GPT-4o в таке не вірить. Його попросили проаналізувати думки Білла Гейтса, який вважає, що лише три професійні сфери мають «імунітет» до штучного інтелекту – це здоров’я, енергетика та власне розробка штучного інтелекту. GPT-4o називає освіту, мистецтво і розваги, соціальні і гуманітарні науки, а також сфери обслуговування і персональні послуги – тому що в усіх них забагато «людського», яке машини не зможуть ефективно замінити.
Очевидно, ми почуємо й побачимо багато дивовижних речей, які будуть зроблені, винайдені або підтверджені завдяки моделі GPT-4o. Але, експериментуючи, не забуваймо про те, що сам ChatGPT не дає забути, повторюючи в кожному чаті кожного свого продукту: «ChatGPT може помилятися. Перевіряйте важливу інформацію».