Криве дзеркало: чому штучний інтелект теж може бути расистом

І як убезпечити людину від машинного суб'єктивізму

Фото Shutterstock

Під час 48-го Всесвітнього економічного форуму (WEF 2018), що проходив минулого тижня у швейцарському Давосі, дуже багато уваги було приділено технологічним перспективам людства. Зокрема, дискусії велися навколо можливостей та ризиків штучного інтелекту (АІ). Присутні наголошували на тому, що штучний інтелект будь-що має залишатися під контролем людини. «АІ – це те, що ми повинні осягнути та обережно ставитись до маніпулювання людьми. Це дуже потужний інструмент. І він більше не має бути магією – це не чорний ящик. Ми повинні мати змогу до нього зазирнути», – зазначила дослідниця Єан Янг з університету Карнегі-Меллона у ході роботи панелі «Майбутні потрясіння: Кібервійни без правил» 26 січняЯких ще каверз можна очікувати від штучного інтелекту і як їм протистояти на законодавчому та ментальному рівні? Спеціально для Mind над цими питаннями розмірковує юрист Влад Некрутенко.

Здається, що людина вже готова довірити машинам своє життя – як це і відбувається у випадку з самокерованим автомобілем. Багато з таких інновацій стали можливими завдяки алгоритмам машинного навчання – штучний інтелект «самонавчається» приймати рішення і робити прогнози на підставі даних, які до нього завантажуються. Можливості машини дозволяють виконувати ці операції дешевше і швидше, щоправда, поки недостатньо точно.

«Учень» успадкував і погану рису свого «вчителя» – необ'єктивність. Хоча, як раз-таки на штучний інтелект і покладається надія прибрати упереджений людський фактор із ситуацій, коли необхідна об'єктивність. Це особливо важливо, коли ми довіряємо програмі прийняття рішень по відношенню до людини. Проте, АІ сьогодні може приймати рішення на підставі расової чи іншої дискримінуючої ознаки. Наприклад, при виборі міри покарання для засудженого.

Чому це відбувається? «Ми є те, що ми їмо» – не втомлюються повторювати дієтологи і доктори. Як не комічно, але зі штучним інтелектом це працює схожим чином: в програму завантажують величезні масиви даних для того, щоб вона їх обробляла і виробляла «звичку» – критерії, за якими в подальшому прийматиме рішення в певній ситуації.

Наприклад, при визначенні ймовірності рецидивізму від засудженого (на кшталт американського програмного забезпечення COMPAS, яким користується судова система США), АІ спочатку тренується на підставі реальних судових кейсів, і тільки після цього програму запускають для прийняття рішень. За схожим принципом працюють усі алгоритми машинного навчання: спочатку вчиться, потім працює. В результаті, програма на поганих прикладах може навчитися робити прогноз, грунтуючись на расі, статі тощо.

Людина не позбавлена упередженості, і судова система США – не виняток. Рішення багатьох суддів у кримінальних справах можна прогнозувати з великою ймовірністю (до 80%), грунтуючись в більшості випадків на расовій ознаці. В результаті, АІ, який вчиться на рішеннях суддів, теж стає упередженим. Схожі приклади можна знайти в області фінансів, реклами, безпілотних автомобілів, розпізнавання облич – сфери різні, проблема залишається та ж сама.

Відповідно, корінь проблеми криється в матеріалі, на якому навчається АІ – програма відображає критерії прийняття рішень, середні по всій отриманій інформації. Характер даних і їхня неповнота (недостатня різноманітність) – основна причина лінійності програми, відсутність гнучкості в ухваленні рішення і необ'єктивності. Втім, з людською свідомістю це працює так само: як нас виховують, що ми читаємо і як вчимося, так і робимо. І якщо garbage in – то garbage out.

Як можна вирішити цю проблему? Якщо ми хочемо від машин справедливих і неупереджених рішень або прогнозів, то потрібні якісні, ґрунтовні й аргументовані дані для їх навчання. За допомогою якісної інформації можна коригувати алгоритм АІ, доповнювати дані, на яких він тренується.

На жаль, досить різноманітні відомості у великих кількостях важко зібрати в єдине ціле. Якісні дані часто охороняються авторським правом або ж є персональними даними, що теж ускладнює процес вибірки. Відповідно, якщо законодавче регулювання та судова система в країні недостатньо гнучкі (як це буває в Україні), може виявитися, що за кожну копію захищеного матеріалу і її завантаження в алгоритм доведеться платити правовласнику, або дані зовсім не можна буде використовувати. Хочеш розвиватися? Доведеться платити.

Хто платити не хоче – використовує інформацію у відкритому доступі, яка не завжди може похвалитися своєю якістю. Наприклад, може бути застарілою для сучасних цінностей, або не відповідати критеріям, необхідним для прийняття об'єктивних рішень. Ніхто не хотів би, що б його судила машина, навчена на середньовічних історіях про інквізицію. Може, звичайно, дані беруться і не з часів Середньовіччя, але тим не менше: термін охорони авторського права, після якого можна вільно використовувати дані, може варіювати від 50 до 100 років, і то після смерті автора. А погляди на справедливість, мораль і етику змінюються постійно – і чим далі, тим швидше. Крім того, важко контролювати якість безкоштовних даних з відкритими ліцензіями. Вікіпедія, як відомо багатьом, не виняток з цього правила.

Альтернативою може бути Facebook, коли алгоритми програм будуються на самостійно зібраних даних з користувачів, причому у величезних кількостях – більше 2 млрд користувачів, які за замовчанням дають згоду на збір відомостей про себе, залишених у соцмережі. При цьому, проблема неповноти інформації все одно залишається актуальною для країн, населення яких не користується масово сервісом Facebook.

Ще одним прикладом може слугувати багаторічний лідер патентування технологій IBM, що просто купує компанії, які володіють необхідним паззлом – тематичними даними, на підставі яких програма може побудувати алгоритм. На жаль, такий шлях лише зміцнює монополію IT-монстрів у цьому сегменті ринку, оскільки такі моделі можуть собі дозволити лише великі корпорації, залишаючи малий і середній бізнес поза грою.

До слова про гнучкість. У США, де правила гри в основному встановлюються судовими рішеннями, а закон відіграє швидше роль орієнтиру, заснованого на практиці судів, копіювання захищеного авторським правом матеріалу для його завантаження в АІ судом може бути визнано правомірним. Причина криється в тому, що таке використання просто не відповідає меті захисту авторського права («to promote the progress of useful arts and science») і несе в собі іншу мету, ніж отримання фінансової вигоди з фотографії, книги, відео або іншого об'єкта. Головна мета – навчити програму розпізнавати мову, текст, риси обличчя, причинно-наслідкові зв'язки. В результаті використання таких даних для машинного навчання не вважатиметься правопорушенням, а, відповідно, і компанія, яка розробляє АІ, почуватиметься вільніше.

Однак не скрізь судове рішення є правилом поведінки для всього населення – в основному рішення стосується лише сторін судового спору, а в більшості європейських країн і в Україні схожі питання, в першу чергу, вирішуються законом. Для адекватного регулювання в цій ситуації, можливо, варто внести обмеження охорони авторського права для машинного навчання, щоб копіювання даних для навчання АІ не було порушенням авторських прав. Мета використання не йде в розріз із самою ідеєю охорони авторського права: використання не завдає шкоди правовласнику, не має на увазі прямої комерційної вигоди з об'єкта, сприяє розвитку мистецтва і науки.

На рівні Європейського Союзу вже було запропоновано ввести легалізацію (copyright exception) використання об'єктів авторського права при машинному навчанні. На жаль, ця обмовка поки що призначається лише для досліджень і в навчальних цілях – для університетів та інститутів, і ще не була прийнята ЄС.

Що ж до тих, щодо кого приймаються несправедливі рішення? Поки якість прогнозів АІ залишається невисокою, потрібен ретельний контроль за ними. Незабаром набирає чинності відоме багатьом Європейське Регулювання щодо захисту персональних даних (General Data Protection Regulation). Крім усього іншого, воно розширює права користувачів послуг, у яких використовується АІ. Регулювання вводить право на заборону прийняття машиною рішень з приводу себе в різних сервісах, а також право вимагати людського втручання в діяльність такого робота.

Чи все настільки сумно? Людина завжди буде далекою від об'єктивності, оскільки ми за своєю природою дивимося на світ і приймаємо рішення у рамках власного світогляду. Але коли ми розцінюємо людей як рівних між собою, то розуміємо, що і ставлення до них має бути об'єктивним, справедливим, і в цьому штучний інтелект може нам допомогти. Залишилося лише правильно навчати машину, і не ставити на шляху до цього непотрібних перешкод, щоб роботи служили на благо людства, а не створювали додаткові проблеми.

Стежте за актуальними новинами бізнесу та економіки у нашому Telegram-каналі Mind.ua та стрічці Google NEWS