Боротьба з дезінформацією: як українська студентка навчає ШІ виявляти російську пропаганду у Вікіпедії
У фокусі – не очевидні фейки, а тонкі мовні маркери

Випускниця Українського католицького університету (УКУ) Вікторія Маковська створила модель, яка допомагає виявляти російські маніпуляції у Wikipedia, навіть коли вони маскуються під нейтральні формулювання. У фокусі – не очевидні фейки, а тонкі мовні маркери: ідеологічні обертони, зміщення акцентів, легітимізація сумнівних фактів.
Розробка потенційно могла б стати корисною державі в інформаційній боротьбі проти російської пропаганди. Тож Mind розповідає докладніше про те, що зараз здатна аналізувати модель та як вона може бути застосована на практиці, зокрема й за межами Wikipedia.
Яке завдання вирішує проєкт
На жаль, в Україні досі найпопулярнішою версією Wikipedia залишається російськомовна. Це створює значний ризик, адже саме через неї до українських користувачів просочується російська пропаганда.
Wikipedia має розгалужену систему модерації – як автоматичної, так і ручної. І модератори зазвичай досить ефективно виявляють та усувають маніпулятивні редагування. Але наразі автоматизована модерація Wikipedia не спрямована безпосередньо на виявлення тонких текстових маніпуляцій. Вона фокусується переважно на очевидних проявах вандалізму, таких, як повторювані вставки тексту капслоком, особисті образи, жарти, а також перевірка наявності чи релевантності джерел.
Тому у фокусі розробки випускниці УКУ Вікторії Маковської став машинний аналіз спроб поширення дезінформації, а не остаточних версій статей. Її дипломний проєкт на цю тему – «Вандалізм чи маніпуляція знаннями? Виявлення наративів у редагуваннях Wikipedia» – визнано одним із найкращих проєктів випускників УКУ 2025 року. Він базується на ML-моделі (machine learning – машинне навчання).
За словами Вікторії, модель поки що працює з енциклопедичними текстами, але її підхід має потенціал для подальшого застосування – наприклад, у телеграм-каналах чи новинних стрічках, де пропаганда часто має виглядає просто «альтернативної думки». Інакше кажучи, основне завдання розробки – навчити ШІ бачити там, де людина не помічає нічого підозрілого.

Вікторія Маковська: «Навіть з тим, як модератори Вікіпедії намагаються дотримуватися нейтральності, автоматизовані системи можуть допомогти людям робити це швидше та ефективніше. Найменше, що ми можемо зробити, – це знайти докази просочування російської пропаганди у Вікіпедію, показати, яку форму ці наративи мають, а найкраще – створити систему, яка зможе такі кейси визначати».
У цьому контексті дуже важливим є той факт, що Вікіпедію часто використовують як джерело даних для тренування великих мовних моделей. Тому в разі потрапляння туди викривленої інформації вона й надалі може просочуватися навіть у чат-боти, створені на основі цих моделей. Існують дослідження, які свідчать, що це вже відбувається. Такий підхід уже має назву LLM grooming, і російська пропаганда активно використовує цей інструмент проти України.
Тому метою проєкту було створити систему, яка зможе аналізувати також дублікати Wikipedia (зокрема, Ru Wikipedia Fork) і виявляти в них ознаки російської пропаганди.
Абетка
LLM grooming – метод прихованого впровадження фальшивих даних у навчання мовних моделей.
Ru Wikipedia Fork – дублікат Вікіпедії, який був створений на початку війни, щоб російська держава мала місце для публікації викривленої інформацію на свою користь.
Як навчали модель
Модель донавчали на власному датасеті (структурованому наборі даних), що містив приклади пропагандистських і нейтральних текстів із Вікіпелії. Вікторія створювала віртуальне середовище, де запускалися скрипти для аналізу та навчання. Система не «шукає» фейки самостійно в енциклопедії. Вона працює за іншим принципом: на вхід подається текстова ревізія (revision), тобто конкретна зміна, яку хтось хоче внести до статті у Вікіпедії; модель аналізує цю зміну як фрагмент тексту й видає оціночний бал (score) від 0 до 1 – наскільки ймовірно, що ця правка є деструктивною.
Складові та технологічний стек проєкту
(інформація для фахівців)
Складові: статистичний аналіз датасетів (EDA); fine-tuning BERT-based моделей; написання скриптів для аналізу результатів.
Інструменти: Jupyter Notebook (написання та тестування коду); MinIO bucket (сховище даних); BERT base uncased (базова модель для fine-tuning); AI/ML платформа De Novo з GPU (ключове середовищем для тренування моделі).
Оцінити ефективність штучного інтелекту в таких складних темах, як виявлення пропаганди, – непросто. У разі проєкту Вікторії Маковської традиційна метрика «точність» (accuracy) не є релевантною, адже йдеться не про класичну класифікацію, а про складніші нюанси текстових маніпуляцій.
Для аналізу вона зібрала всі зміни в українській і російській Вікіпедії за 2022–2023 роки на основі попередньо визначеного списку статей. До вибірки увійшли як правки, які були погоджені модераторами, так і так званий вандалізм – редагування, що порушували правила платформи й були згодом скасовані.
Основну увагу було зосереджено на відхилених змінах, адже саме вони найчастіше містили маніпулятивні або шкідливі елементи. Таких редагувань було набагато менше, ніж звичайних, і це створило нерівномірний набір даних. У цій ситуації штучному інтелекту складніше навчитися помічати рідкісні випадки, бо їх просто недостатньо для повноцінного навчання. Щоб зменшити цей ризик, дослідниця застосувала техніки балансування й обрала альтернативні метрики, які дозволяють адекватно оцінити роботу моделі навіть у таких умовах.
Також у дослідженні використовувався згаданий дзеркальний варіант російської Вікіпедії – RuWiki Fork. Що дало змогу бачити редагування, які були тільки там. Наприклад, якщо у статті про Маріуполь у RuWiki з’являвся текст, який виправдовує окупацію, а в основній Вікіпедії такого фрагмента не було – це сигнал, що відбулася підозріла правка. Саме подібні випадки стали основою для тренування моделі на виявлення потенційно шкідливих меседжів.
За словами Вікторії, у результаті розробка була адаптована для виявлення пропагандистських формулювань, які вважаються підвидом вандалізму у Wikipedia: спотворення фактів, ідеологічно забарвлена лексика та інші мовні індикатори впливу. Модель демонструє стійку здатність виявляти інформаційні викривлення, хоча повністю покладатися на неї без людського втручання поки що не можна.
Які викривлення виявляє модель
Щоб оцінити, як саме модель реагує на пропаганду, частину результатів було перевірено вручну. Ось деякі типові приклади фрагментів, які штучний інтелект маркував як потенційно маніпулятивні:
Пропагандистська цитата (обрана моделлю*) | Суть викривлення (авторська інтерпретація дослідниці) |
«Харцизьк […] місто, що любить росію» | Додає емоційного прокремлівського забарвлення, яке виходить за межі нейтрального стилю енциклопедії |
«Частина росії після загальнонаціонального референдуму» | Посилається на псевдореферендум, створюючи ілюзію легітимності анексії |
«З 1 березня 2022 року перебуває під контролем російської федерації» | Подає окупацію як факт державного управління, оминаючи сам факт збройного захоплення |
*Фрагменти редагувань, які модель визначила як імовірно маніпулятивні з вірогідністю понад 50%.
Тут важливо зазначити, що нейронні мережі функціонують як «чорна скринька» – неможливо точно пояснити, чому саме певний фрагмент був класифікований як маніпулятивний. Хоча існують методики часткової інтерпретації. У цьому дослідженні пояснення викривлень базується на подальшому ручному аналізі дослідниками.
Чи може система автоматично аналізувати всю Wikipedia?
Зараз – ні. Цей проєкт мав дослідницький характер, тому не передбачав створення повноцінного користувацького інтерфейсу чи продукту. Його мета – не автоматизований моніторинг Wikipedia в реальному часі, а доказова демонстрація того, що пропагандистські наративи можуть бути виявлені за допомогою машинного навчання. Поки йдеться про прототип або proof of concept – наукову апробацію підходу, а не готове рішення для широкого застосування.
На практиці система не «виявляє» фрагменти тексту, а оцінює цілісні редагування (revision), які були внесені до статті в один момент. Кожне таке редагування модель маркує як потенційно маніпулятивне або без ознак проблем. Вхідні дані – це великі масиви редагувань Wikipedia за певний період, які модель аналізує, не маючи попереднього знайомства з ними. Такий підхід дозволяє протестувати життєздатність концепції в умовах, наближених до реальних.
«Модель працює як допоміжний інструмент для модераторів. Вона не замінює людину, а покликана полегшити їхню роботу, відфільтровуючи найбільш підозрілі зміни. Ця концепція відома як Human In the Loop: автоматизація допомагає приймати рішення, але фінальне слово залишається за експертами. Зараз у нас немає окремої програми з графічним інтерфейсом – лише скрипти і модель, які працюють із великими масивами даних. Проте в майбутньому планується створити зручний інструмент для модераторів, де вони бачитимуть виділені системою підозрілі редагування, щоб оперативно їх перевіряти», – зазначає дослідниця.
Попри те що цей проєкт дослідницького характеру, його результати мають реальне прикладне значення. Сьогодні у Wikipedia вже працює система LiftWing, яка допомагає адміністраторам виявляти деструктивні редагування – зокрема, очевидний вандалізм.
Втім ця система не здатна виявляти маніпуляції, приховані в нейтральній, на перший погляд, лексиці. Відсутність емоційного навантаження в текстах Вікіпедії, на відміну від більш емоційних постів у соцмережах, робить завдання виявлення маніпуляцій складнішим через нейтральність подачі інформації.
На думку Вікторії, найкращим сценарієм було б впровадження подібного функціоналу до LiftWing. Це дозволило б масштабувати захист відкритого джерела знань від інформаційних маніпуляцій. Саме в цьому й полягає потенціал моделі – у доповненні до наявних інструментів, які сьогодні не «бачать» подібні впливи.
Ба більше, модель уже була протестована на текстах із телеграм-каналів – як україномовних, так і російськомовних, із пропагандистським і нейтральним контентом. Попередні результати показали, що система може коректно розпізнавати мовні ознаки дезінформації та вийти за межі лише енциклопедичних матеріалів.
Це відкриває перспективи для подальшого розвитку: у наступній фазі дослідження планується розширення сфери застосування моделі до моніторингу соціальних мереж, новинних джерел і месенджерів, де інформаційні викривлення є масовими та системними.
Якщо ви дочитали цей матеріал до кінця, ми сподіваємось, що це значить, що він був корисним для вас.
Ми працюємо над тим, аби наша журналістська та аналітична робота була якісною, і прагнемо виконувати її максимально компетентно. Це вимагає і фінансової незалежності.
Станьте підписником Mind всього за 196 грн на місяць та підтримайте розвиток незалежної ділової журналістики!
Ви можете скасувати підписку у будь-який момент у власному кабінеті LIQPAY, або написавши нам на адресу: [email protected].