Сарказм, спілкування українською та розпізнавання спільних рис зображень: Mind протестував основні функції GPT-4o

Перший тиждень використання показав величезні можливості нової флагманської ШІ-моделі OpenAI

Катерина Соболева, 21 травня 2024, 09:45

«Революційна та найкраща модель», «корисно та дивовижно», «бомбічно», «фільм «Вона» став реальністю». Все це – про GPT-4o – нову флагманську модель генеративного штучного інтелекту від OpenAI. Компанія презентувала новинку 13 травня і поступово робить її доступною для користувачів, починаючи з тих, хто використовує free-плани. За тиждень, що минув, Mind був серед охочих протестувати розробку й тепер ділиться своїми враженнями.

Очікували на пошуковик, а отримали універсального помічника

Напередодні презентації хтось запустив «качку» про те, що OpenAI готується представити нову пошукову систему, яка конкуруватиме з Google – на це «повелися» навіть Bloomberg і Daily Mail. Мовляв, штучний інтелект здійснюватиме пошук в інтернеті й на основі знайденого генеруватиме результати, і це може дозволити користувачам ставити ChatGPT запитання й отримувати докладні відповіді з посиланнями на онлайн-ресурси, наприклад Вікіпедію. Google пророкували через це великі проблеми. Але ні.

Головне, на чому акцентує OpenAI, представляючи свою модель, – це її здатність у реальному часі працювати з літерами, звуками та зображеннями – статичними й рухомими. Тобто вона приймає та обробляє запит у будь-якому форматі: текстовому, голосовому, візуальному. На це натякає «о» в назві – це означає omni, що в перекладі з латини значить «все», а у контексті GPT-4o – «всебічний» або «універсальний».

За тиждень, що минув від презентації, можливості GPT-4o випробувала велика кількість людей у найрізноманітніших професійних сферах. Більшість єдина у своїй думці: цей інструмент може стати ідеальним персональним помічником і здатен перевершити всі наявні моделі.

Від «ідеалу» до «кринжу»

Сем Альтман, СЕО OpenAI, зрозуміло, у захваті від нового дітища своєї компанії:

our new model: GPT-4o, is our best model ever. it is smart, it is fast,it is natively multimodal (!), and…
– Sam Altman (@sama) May 13, 2024

Наша нова модель, GPT-4o – це наша найкраща модель за всю історію. Він розумний, швидкий, мультимодальний (!) і…

Він не приховує, що натхненням для його команди став фільм «Вона» 2013 року з Хоакіном Феніксом і голосом Скарлетт Йоханссон у головних ролях. Один з його х-ів (твітів) містить лише одне слово:

her
– Sam Altman (@sama) May 13, 2024

Вона

Після прямого ефіру презентації Альтман написав блог, у якому з великою гордістю і захопленням розповів про GPT-4o. «Я дуже пишаюся тим, що ми зробили найкращу у світі модель штучного інтелекту безплатно доступною в ChatGPT, без реклами чи чогось подібного, – пише він. – Ми – бізнес, і ми ще знайдемо багато речей, за які можна брати гроші, що допоможуть нам безплатно пропонувати видатні ШІ-сервіси мільярдам (сподіваємося) людей. Оригінальний ChatGPT прочинив завісу, що можна робити з мовними інтерфейсами. Ця нова річ – кардинально інша. Вона швидка, розумна, весела, природна та корисна».

Ілон Маск, як «баба-яга», – проти. Презентацію новинки він розкритикував:

Demo made me cringe
– Elon Musk (@elonmusk) May 13, 2024

Демо [GPT-4o] – це якийсь кринж.

Наступного дня після презентації OpenAI свою ШІ-новинку представила Google. Це помічник Project Astra на базі моделі Gemini, який, як переконують у компанії, зробить штучний інтелект «справді корисним у повсякденному житті». На обидві презентації Маск відреагував у своєму дусі:

Now imagine if the extinctionist philosophy is programmed into AI.

No need to imagine – this is already the case with Gemini and ChatGPT.
– Elon Musk (@elonmusk) May 14, 2024

А тепер уявіть, що філософія добровільного вимирання людства запрограмована у штучний інтелект.

Хоча ні, не уявляйте – це вже зроблено у Gemini та ChatGPT.

Марк Цукерберг нічого не сказав про GPT-4o, а ось нова модель про нього вже висловилася. Видання Business Insider завантажило їй декілька останніх «луків» Цукерберга та попросило проаналізувати його стиль. Вердикт ChatGPT: Цукербергу слід попрацювати над тим, щоб одягатися більш доречно для своєї ролі СЕО.

Перший тиждень роботи

Можливості GPT-4o впроваджуються поступово. З першого ж дня його текстові й графічні функції стали доступні free-користувачам, але в обрізаному форматі – лише 20 чат-повідомлень кожні 3 години, після чого користувач повертається до версії GPT-3.5. У плані ChatGPT Plus теж є обмеження щодо кількості повідомлень із GPT-4o – 50 на кожні 3 години.

Юзери з усього світу випробовують нову модель і дивуються її можливостям. Ось лише деякі відгуки про те, що вона вміє:

GPT-4o може обробляти електронні таблиці та проводити аналіз даних всього за 30 секунд, для чого йому достатньо лише однієї підказки. Також він може створювати діаграми, графіки й робити підсумки.

GPT-4o генерує 3D-моделі з текстових підказок менш ніж за 30 секунд. Це означає, що він може швидко створювати прототипи, візуалізувати детальні моделі, і все це без спеціального програмного забезпечення або великих технічних знань.

Ресурс Generative History показав, як GPT-4o транскрибує старовинні історичні тексти:

GPT-4o is truly remarkable on 18th handwriting. I gave it the following letter and asked it for a transcription. A couple of very minor errors…amazing! pic.twitter.com/3JevZvd5p5
– Generative History (@HistoryGPT) May 14, 2024

GPT-4o реально чудовий із рукописом XVIII століття. Я дав йому цей лист і попросив розшифрувати. Лише пара незначних помилок… неймовірно!

● GPT-4o робить синхронний переклад декількома мовами.

● Один із користувачів за допомогою GPT-4o за лічені секунди успішно створив відеогру, спираючись виключно на скріншот.

Mind теж протестував головні заявлені функції GPT-4o – вдосконалений чат-бот, голосову взаємодію та роботу із зображеннями.

GPT-4o – дійсно більш емпатійний і людяний. Як і заявляли розробники, вчиться розпізнавати сарказм. Але «сарказм на сарказм» ще не вміє:

Сарказм, українська мова спілкування та розпізнавання спільних рис зображень: Mind протестував основні функції GPT-4o

Голосові й візуальні функції наразі працюють лише в мобільній версії ChatGPT. Тембр голосу користувач може обирати з-поміж п’яти різних патернів. Один з голосів – Sky – вже став предметом жартів і скандалів, бо надто вже схожий на голос Скарлетт Йоханссон. Хоча OpenAI переконає, що голос Sky не мав нагадувати «Її», але у компанії прийняли рішення припинити його використання. Першим запитанням було, чи спілкується модель українською. Вона «думала» приблизно 30 секунд, після чого впевнено, із ледь уловимим акцентом відповіла: «Так, я розумію українську і можу спілкуватися нею. Як я можу допомогти?»

Він реально веде розмову. Може сам її ініціювати, запитавши, наприклад: «Як проходить твій день?» Його можна перебити й уточнити запитання. Він уловлює емоційні інтонації та може намагатися заспокоїти. Треба зізнатися, це трохи дивно…

GPT-4o прекрасно аналізує фото. Він детально описує зображення, а також класифікує їх за спільними рисами. Так, моделі були запропоновані декілька зображень, зроблених у тому самому інтер’єрі, і вона самостійно зазначила це, вказавши на те, які предмети є спільними для всіх фото. Вона також «бачить» відео та розповідає не лише сюжет, а й особливості сцени.

Залишається лише здогадуватися, якими функціями поповниться платна версія, якщо безплатна вміє все це. Хоча деякі користувачі, здається, знають відповідь:

Немає сумнівів, що передові мовні моделі штучного інтелекту мають величезний потенціал у багатьох сферах. Користувачі вже почали розмірковувати, які професії зникнуть з їх поширенням. Втім GPT-4o в таке не вірить. Його попросили проаналізувати думки Білла Гейтса, який вважає, що лише три професійні сфери мають «імунітет» до штучного інтелекту – це здоров’я, енергетика та власне розробка штучного інтелекту. GPT-4o називає освіту, мистецтво і розваги, соціальні і гуманітарні науки, а також сфери обслуговування і персональні послуги – тому що в усіх них забагато «людського», яке машини не зможуть ефективно замінити.

Очевидно, ми почуємо й побачимо багато дивовижних речей, які будуть зроблені, винайдені або підтверджені завдяки моделі GPT-4o. Але, експериментуючи, не забуваймо про те, що сам ChatGPT не дає забути, повторюючи в кожному чаті кожного свого продукту: «ChatGPT може помилятися. Перевіряйте важливу інформацію».

Стежте за актуальними новинами бізнесу та економіки у нашому Telegram-каналі Mind.ua та стрічці Google NEWS

Штучний інтелект

За темою

Онлайн потопає у «ШІ-помиях»: як головний тренд «зомбі-інтернету» у 2025 році шкодить суспільству

Nvidia відкриває код для розробки безпілотних авто

Революція штучного інтелекту, яку очолює Nvidia, ризикує спричинити обвал енергетичних ринків

Уроки вторгнення рф в Україну: як латвійська Tet будує «суверенну хмару» дата-центрів та пробує потиснути Amazon, Microsoft і Google

Elit-Web проводить благодійний вебінар про вплив ШІ-видачі на пошук