Сарказм, спілкування українською та розпізнавання спільних рис зображень: Mind протестував основні функції GPT-4o
Перший тиждень використання показав величезні можливості нової флагманської ШІ-моделі OpenAI
«Революційна та найкраща модель», «корисно та дивовижно», «бомбічно», «фільм «Вона» став реальністю». Все це – про GPT-4o – нову флагманську модель генеративного штучного інтелекту від OpenAI. Компанія презентувала новинку 13 травня і поступово робить її доступною для користувачів, починаючи з тих, хто використовує free-плани. За тиждень, що минув, Mind був серед охочих протестувати розробку й тепер ділиться своїми враженнями.
Очікували на пошуковик, а отримали універсального помічника
Напередодні презентації хтось запустив «качку» про те, що OpenAI готується представити нову пошукову систему, яка конкуруватиме з Google – на це «повелися» навіть Bloomberg і Daily Mail. Мовляв, штучний інтелект здійснюватиме пошук в інтернеті й на основі знайденого генеруватиме результати, і це може дозволити користувачам ставити ChatGPT запитання й отримувати докладні відповіді з посиланнями на онлайн-ресурси, наприклад Вікіпедію. Google пророкували через це великі проблеми. Але ні.
Головне, на чому акцентує OpenAI, представляючи свою модель, – це її здатність у реальному часі працювати з літерами, звуками та зображеннями – статичними й рухомими. Тобто вона приймає та обробляє запит у будь-якому форматі: текстовому, голосовому, візуальному. На це натякає «о» в назві – це означає omni, що в перекладі з латини значить «все», а у контексті GPT-4o – «всебічний» або «універсальний».
За тиждень, що минув від презентації, можливості GPT-4o випробувала велика кількість людей у найрізноманітніших професійних сферах. Більшість єдина у своїй думці: цей інструмент може стати ідеальним персональним помічником і здатен перевершити всі наявні моделі.
Від «ідеалу» до «кринжу»
Сем Альтман, СЕО OpenAI, зрозуміло, у захваті від нового дітища своєї компанії:
our new model: GPT-4o, is our best model ever. it is smart, it is fast,it is natively multimodal (!), and…
– Sam Altman (@sama) May 13, 2024
Наша нова модель, GPT-4o – це наша найкраща модель за всю історію. Він розумний, швидкий, мультимодальний (!) і…
Він не приховує, що натхненням для його команди став фільм «Вона» 2013 року з Хоакіном Феніксом і голосом Скарлетт Йоханссон у головних ролях. Один з його х-ів (твітів) містить лише одне слово:
her
– Sam Altman (@sama) May 13, 2024
Вона
Після прямого ефіру презентації Альтман написав блог, у якому з великою гордістю і захопленням розповів про GPT-4o. «Я дуже пишаюся тим, що ми зробили найкращу у світі модель штучного інтелекту безплатно доступною в ChatGPT, без реклами чи чогось подібного, – пише він. – Ми – бізнес, і ми ще знайдемо багато речей, за які можна брати гроші, що допоможуть нам безплатно пропонувати видатні ШІ-сервіси мільярдам (сподіваємося) людей. Оригінальний ChatGPT прочинив завісу, що можна робити з мовними інтерфейсами. Ця нова річ – кардинально інша. Вона швидка, розумна, весела, природна та корисна».
Ілон Маск, як «баба-яга», – проти. Презентацію новинки він розкритикував:
Demo made me cringe
– Elon Musk (@elonmusk) May 13, 2024
Демо [GPT-4o] – це якийсь кринж.
Наступного дня після презентації OpenAI свою ШІ-новинку представила Google. Це помічник Project Astra на базі моделі Gemini, який, як переконують у компанії, зробить штучний інтелект «справді корисним у повсякденному житті». На обидві презентації Маск відреагував у своєму дусі:
Now imagine if the extinctionist philosophy is programmed into AI.
– Elon Musk (@elonmusk) May 14, 2024
No need to imagine – this is already the case with Gemini and ChatGPT.
А тепер уявіть, що філософія добровільного вимирання людства запрограмована у штучний інтелект.
Хоча ні, не уявляйте – це вже зроблено у Gemini та ChatGPT.
Марк Цукерберг нічого не сказав про GPT-4o, а ось нова модель про нього вже висловилася. Видання Business Insider завантажило їй декілька останніх «луків» Цукерберга та попросило проаналізувати його стиль. Вердикт ChatGPT: Цукербергу слід попрацювати над тим, щоб одягатися більш доречно для своєї ролі СЕО.
Перший тиждень роботи
Можливості GPT-4o впроваджуються поступово. З першого ж дня його текстові й графічні функції стали доступні free-користувачам, але в обрізаному форматі – лише 20 чат-повідомлень кожні 3 години, після чого користувач повертається до версії GPT-3.5. У плані ChatGPT Plus теж є обмеження щодо кількості повідомлень із GPT-4o – 50 на кожні 3 години.
Юзери з усього світу випробовують нову модель і дивуються її можливостям. Ось лише деякі відгуки про те, що вона вміє:
- GPT-4o може обробляти електронні таблиці та проводити аналіз даних всього за 30 секунд, для чого йому достатньо лише однієї підказки. Також він може створювати діаграми, графіки й робити підсумки.
- GPT-4o генерує 3D-моделі з текстових підказок менш ніж за 30 секунд. Це означає, що він може швидко створювати прототипи, візуалізувати детальні моделі, і все це без спеціального програмного забезпечення або великих технічних знань.
- Ресурс Generative History показав, як GPT-4o транскрибує старовинні історичні тексти:
GPT-4o is truly remarkable on 18th handwriting. I gave it the following letter and asked it for a transcription. A couple of very minor errors…amazing! pic.twitter.com/3JevZvd5p5
– Generative History (@HistoryGPT) May 14, 2024
GPT-4o реально чудовий із рукописом XVIII століття. Я дав йому цей лист і попросив розшифрувати. Лише пара незначних помилок… неймовірно!
● GPT-4o робить синхронний переклад декількома мовами.
● Один із користувачів за допомогою GPT-4o за лічені секунди успішно створив відеогру, спираючись виключно на скріншот.
Mind теж протестував головні заявлені функції GPT-4o – вдосконалений чат-бот, голосову взаємодію та роботу із зображеннями.
GPT-4o – дійсно більш емпатійний і людяний. Як і заявляли розробники, вчиться розпізнавати сарказм. Але «сарказм на сарказм» ще не вміє:

Голосові й візуальні функції наразі працюють лише в мобільній версії ChatGPT. Тембр голосу користувач може обирати з-поміж п’яти різних патернів. Один з голосів – Sky – вже став предметом жартів і скандалів, бо надто вже схожий на голос Скарлетт Йоханссон. Хоча OpenAI переконає, що голос Sky не мав нагадувати «Її», але у компанії прийняли рішення припинити його використання. Першим запитанням було, чи спілкується модель українською. Вона «думала» приблизно 30 секунд, після чого впевнено, із ледь уловимим акцентом відповіла: «Так, я розумію українську і можу спілкуватися нею. Як я можу допомогти?»
Він реально веде розмову. Може сам її ініціювати, запитавши, наприклад: «Як проходить твій день?» Його можна перебити й уточнити запитання. Він уловлює емоційні інтонації та може намагатися заспокоїти. Треба зізнатися, це трохи дивно…
GPT-4o прекрасно аналізує фото. Він детально описує зображення, а також класифікує їх за спільними рисами. Так, моделі були запропоновані декілька зображень, зроблених у тому самому інтер’єрі, і вона самостійно зазначила це, вказавши на те, які предмети є спільними для всіх фото. Вона також «бачить» відео та розповідає не лише сюжет, а й особливості сцени.
Залишається лише здогадуватися, якими функціями поповниться платна версія, якщо безплатна вміє все це. Хоча деякі користувачі, здається, знають відповідь:

Немає сумнівів, що передові мовні моделі штучного інтелекту мають величезний потенціал у багатьох сферах. Користувачі вже почали розмірковувати, які професії зникнуть з їх поширенням. Втім GPT-4o в таке не вірить. Його попросили проаналізувати думки Білла Гейтса, який вважає, що лише три професійні сфери мають «імунітет» до штучного інтелекту – це здоров’я, енергетика та власне розробка штучного інтелекту. GPT-4o називає освіту, мистецтво і розваги, соціальні і гуманітарні науки, а також сфери обслуговування і персональні послуги – тому що в усіх них забагато «людського», яке машини не зможуть ефективно замінити.
Очевидно, ми почуємо й побачимо багато дивовижних речей, які будуть зроблені, винайдені або підтверджені завдяки моделі GPT-4o. Але, експериментуючи, не забуваймо про те, що сам ChatGPT не дає забути, повторюючи в кожному чаті кожного свого продукту: «ChatGPT може помилятися. Перевіряйте важливу інформацію».
Якщо ви дочитали цей матеріал до кінця, ми сподіваємось, що це значить, що він був корисним для вас.
Ми працюємо над тим, аби наша журналістська та аналітична робота була якісною, і прагнемо виконувати її максимально компетентно. Це вимагає і фінансової незалежності.
Станьте підписником Mind всього за 196 грн на місяць та підтримайте розвиток незалежної ділової журналістики!
Ви можете скасувати підписку у будь-який момент у власному кабінеті LIQPAY, або написавши нам на адресу: [email protected].