Кривое зеркало: почему искусственный интеллект тоже может быть расистом
И как обезопасить человека от машинного субъективизма

Во время 48-го Всемирного экономического форума (WEF 2018), который проходил на прошлой неделе в швейцарском Давосе, очень много внимания было уделено технологическим перспективам человечества. В частности, дискуссии велись вокруг возможностей и рисков искусственного интеллекта (AI). Присутствующие говорили о том, что искусственный интеллект во что бы то ни стало должен оставаться под контролем человека. «АІ – это то, что мы должны понять и осторожно относиться к манипулированию людьми. Это очень мощный инструмент. И он больше не должен быть магией – это не черный ящик. Мы должны иметь возможность в него заглянуть», – отметила исследовательница Еан Янг из Университета Карнеги-Меллона в ходе работы панели «Будущие потрясения: Кибервойны без правил» 26 января. Каких еще подвохов можно ожидать от искусственного интеллекта и как им противостоять на законодательном и ментальном уровне? Специально для Mind над этими вопросами размышляет юрист Влад Некрутенко.
Кажется, что человек уже готов доверить машинам свою жизнь – собственно, как это и происходит в случае с самоуправляемым автомобилем. Многие из таких инноваций стали возможными благодаря алгоритмам машинного обучения – искусственный интеллект «самообучается» принимать решения и делать прогнозы на основании данных, которые в него загружаются. Возможности машины позволяют делать это дешевле и быстрее, правда, пока недостаточно точно.
«Ученик» унаследовал и плохое качество своего «учителя» – необъективность. Хотя, как раз-таки на искусственный интеллект и полагается надежда убрать предвзятый человеческий фактор из ситуаций, когда необходима объективность. Это особенно важно, когда мы доверяем программе принятие решений по отношению к человеку. Тем не менее, ИИ сегодня может принимать решения на основании расового или другого дискриминирующего признака. Например, при выборе степени наказания для осужденного.
Почему это происходит? «Мы есть то, что мы едим» – не устают повторять диетологи и доктора. Как ни комично, но с искусственным интеллектом это работает похожим образом: в программу загружают огромные массивы данных для того, чтобы она их обрабатывала и вырабатывала «привычку» – критерии, по которым в дальнейшем будет принимать решение в определенной ситуации.
Например, при определении вероятности рецидивизма от осужденного (в пример американского программного обеспечения COMPAS, которым пользуется судебная система США), ИИ сначала тренируются на основании реальных судебных кейсов, и только после этого программу запускают для принятия решений. По похожему принципу работают все алгоритмы машинного обучения: сначала учится, потом работает. В результате, программа на плохих примерах может научиться делать прогноз, основываясь на расе, поле и других дискриминирующих признаках.
Человек не лишен предвзятости, и судебная система США – не исключение. Решения многих судей в уголовных делах можно предсказывать с большой вероятностью (до 80%), основываясь в большинстве случаев на расовом признаке. В результате, ИИ, который учится на решениях судей, тоже становится предвзятым. Похожие примеры можно найти в области финансов, рекламы, беспилотных автомобилей, распознавания лиц – сферы разные, проблема остается та же.
Соответственно, корень проблемы кроется в материале, на котором учится ИИ – программа отображает критерии принятия решений, средние по всей полученной информации. Характер информации и ее неполнота (недостаточная разнообразность) – основная причина линейности программы, отсутствия гибкости в принятии решения и необъективности. Впрочем, с человеческим сознанием это работает так же: как нас воспитывают, что мы читаем и как учимся, так и поступаем. И если garbage in – то garbage out.
Как можно решить эту проблему? Если мы хотим от машин справедливых и непредвзятых решений или прогнозов, то нужны качественные, основательные и аргументированные данные для их обучения. С помощью качественной информации можно корректировать алгоритм ИИ, дополнять сведения, на которых он тренируется.
К сожалению, достаточно разнообразную информацию в больших объемах тяжело собрать в единое целое. Качественные сведения часто охраняются авторским правом или же являются персональными данными, что тоже усложняет процесс подборки. Соответственно, если законодательное регулирование и судебная система в стране недостаточно гибкие (как это бывает в Украине), может оказаться, что за каждую копию защищенного материала и ее загрузку в алгоритм придется платить правообладателю, либо данные вовсе нельзя будет использовать. Хочешь развиваться? Придется платить.
Кто платить не хочет – использует информацию в открытом доступе, которая не всегда может похвастаться своим качеством. Например, сведения могут быть слишком старыми для современных ценностей, либо не соответствовать критериям, необходимым для принятия объективных решений. Никто не хотел бы, что бы его судила машина, обучена на средневековых историях об инквизиции. Может, конечно, данные берутся и не со времен Средневековья, но тем не менее: срок охраны авторского права, после которого можно свободно использовать информацию, может варьировать от 50 до 100 лет, и это после смерти автора. А взгляды на справедливость, мораль и этику меняются постоянно, и чем дальше, тем быстрее. Кроме того, тяжело контролировать качество бесплатных данных с открытыми лицензиями. Википедия, как известно многим, не исключение из этого правила.
Альтернативой может быть Facebook, когда алгоритмы программ строятся на самостоятельно собранных сведений от пользователей, причем в огромных количествах – более 2 млрд пользователей, которые по умолчанию дают согласие на сбор информации о себе, оставленной в соцсети. При этом, проблема неполноты данных все равно остается актуальной для стран, население которых не пользуется массово сервисом Facebook.
Еще одним примером может послужить многолетний лидер патентирования технологий IBM, которые просто покупают компании, владеющие необходимым паззлом – тематическими данными, на основании которых программа может построить алгоритм. К сожалению, такой путь только утверждает монополию IT-монстров в этом сегменте рынка, поскольку такие модели могут себе позволить лишь большие корпорации, оставляя малый и средний бизнес вне игры.
К слову о гибкости. В США, где правила игры в основном устанавливаются судебными решениями, а закон играет скорее роль ориентира, основанного на практике судов, копирование защищенного авторским правом материала для его загрузки в ИИ судом может быть признано правомерным. Причина кроется в том, что такое использование просто не соответствует самой цели защиты авторского права («to promote the progress of useful arts and science») и несет в себе иную цель, нежели получение финансовой выгоды с фотографии, книги, видео или другого объекта. Главная цель – научить программу распознавать речь, текст, черты лица, причинно-следственные связи. В результате использование таких сведений для машинного обучения не будет считаться правонарушением, а, соответственно, и компания, которая разрабатывает ИИ, будет чувствовать себя свободнее.
Однако не везде судебное решение является правилом поведения для всего населения – в основном решение касается только сторон судебного спора, а в большинстве Европейских стран и в Украине похожие вопросы, в первую очередь, решаются законом. Для адекватного регулирования в этой ситуации, возможно, стоит внести ограничение охраны авторского права для машинного обучения, чтобы копирование информации для обучения ИИ не было нарушением авторских прав. Цель использования не идет в разрез с самой идеей охраны авторского права: использование не несет вред правообладателю, не подразумевает прямой коммерческой выгоды с объекта, способствует развитию искусства и науки.
На уровне Европейского Союза уже было предложено ввести легализацию (copyright exception) использования объектов авторского права при машинном обучении. К сожалению, эта оговорка пока что предназначается только для исследований и в обучающих целях – для университетов и институтов, и еще не была принята ЕС.
Что же до тех, о ком принимаются несправедливые решения? Пока качество прогнозов ИИ может оставлять желать лучшего, нужен тщательный контроль за ними. В скором времени в действие входит известное многим Европейское Регулирование по защите персональных данных (General Data Protection Regulation). Помимо прочего, оно расширяет объем прав пользователей услуг, в которых используется ИИ. Регулирование вводит право на запрет принятия машиной решений по поводу себя в различных сервисах, а также право требовать человеческого вмешательства в деятельность такого робота.
Так ли все печально? Человек всегда будет далек от объективности, так как мы по своей природе смотрим на мир и принимаем решения под углом нашего мировоззрения. Но когда мы расцениваем людей как равных между собой, мы понимаем, что и отношение к ним должно быть объективным, справедливым, и в этом Искусственный Интеллект может нам помочь. Осталось только правильно обучать машину, и не ставить на пути к этому ненужных преград, чтобы роботы служили на благо человечества, а не создавали дополнительные проблемы.
Авторы материалов OpenMind, как правило, внешние эксперты и специалисты, которые готовят материал по заказу редакции. Но их точка зрения может не совпадать с точкой зрения редакции Mind.
В то же время редакция несёт ответственность за достоверность и соответствие реальности изложенной мысли, в частности, осуществляет факт-чекинг приведенных утверждений и первичную проверку автора.
Mind также тщательно выбирает темы и колонки, которые могут быть опубликованы в разделе OpenMind, и обрабатывает их в соответствии со стандартами редакции.