П’ять головних помилок бізнесу при роботі з великими даними

П’ять головних помилок бізнесу при роботі з великими даними

Ефективна стратегія роботи з даними починається з чіткого розуміння бізнес-цілей

П’ять головних помилок бізнесу при роботі з великими даними

За оцінками аналітиків, компанії у світі щороку втрачають мільйони доларів через помилки у даних: неправильні висновки, хибні рішення та збої в аналітичних системах. Низька якість даних – лише одна з типових помилок, які поступово з’їдають прибуток компанії.

Працюючи понад десять років у галузі аналітики даних, я бачив, як навіть великі компанії стикаються з неочевидними, але дорогими помилками у роботі з інформацією.

На основі досвіду роботи з Big Data я виокремив 5 основних помилок, яких бізнес припускається на старті роботи з даними. В цій колонці я приведу ці помилки і дам поради, як їм запобігти.

Невизначений термін зберігання даних

Бізнес часто не вміє чи не хоче визначати, як довго варто зберігати дані, через що інфраструктура перевантажується, а витрати зростають. Зазвичай час зберігання активних даних (так званий TTL) складає 1-2 роки, а архівних – 5 років. Кожна компанія може встановлювати його відповідно до вимог бізнесу.

Якщо дані зберігаються довше, ніж потрібно для бізнес-аналітики, це уповільнює роботу систем і збільшує вартість обробки. Навіть при запиті лише за останні 6 місяців, базі доводиться сканувати зайві обсяги інформації, особливо, якщо дані не архівовані. Крім цього, тривале зберігання неактуальних даних – це зайві витрати на інфраструктуру.

Скоротити витрати на зберігання допомагає архівування й стиснення даних. Але, щоб прочитати архіви, потрібно більше обчислювальних ресурсів. Тож ключове завдання бізнесу – знайти баланс між швидкістю доступу до даних і витратами на їх утримання.

Низька якість даних та відсутність стандартизації

У 2022 році компанія Unity Software, яка розробляє рушій для відеоігор, запустила власну рекламну систему, бо традиційні моделі втратили ефективність через зміну політики Apple (IDFA). Вона працювала на основі власних даних компанії про взаємодію користувачів. Попри сильну ідею, ефективність реклами падала. Виявилось, що якість даних була низькою, що призводило до хибного таргетингу. У результаті клієнти почали йти до конкурентів і компанія втратила $5 млрд капіталізації.

Щоб уникнути подібних ситуацій, слід запровадити єдиний стандарт для зберігання й обробки даних на етапі проєктування, чітко задокументувати його і забезпечити синхронізацію між різними командами.

Бізнесу варто регулярно перевіряти якість даних: видаляти дублікати, узгоджувати формати й стежити за повнотою інформації.

Непередбачені витрати під час пікових навантажень

У кожної компанії є періоди підвищеного навантаження: свята, сезонні акції, запуск нового продукту. Ми працюємо з виробничими компаніями й в подібні пікові періоди спостерігаємо збільшення обсягу даних та кількості запитів в 5-10 разів. Інфраструктура має бути готова до такого навантаження.

Автоматичне масштабування хмарної інфраструктури здається ідеальним рішенням, але без контролю може обернутися фінансовою пасткою. Якщо не обмежити максимальні межі масштабування, система може автоматично збільшити кількість серверів без реальної потреби. Я був свідком випадку, коли за ніч кількість серверів зросла вдесятеро. За місяць компанія отримала рахунок на декілька сотень тисяч доларів. Клієнти були задоволені, бо все працювало швидко, але бізнес – ні, бо міг отримати такий результат і без надлишкових витрат.

Щоб цього уникнути, компанії мають не лише налаштовувати ліміти масштабування, а й уважно стежити за тим, що відбувається. Вирішити проблему допоможе постійний моніторинг інфраструктури та обмеження автоматичного масштабування.

Іноді проблему сезонних сплесків можна вирішити не за рахунок масштабування інфраструктури, а шляхом оптимізації: змінити формат даних, структуру бази чи розподілити навантаження між кількома серверами. Оптимізація інфраструктури потребує часу, але зрештою економить ресурси й робить систему стійкішою.

Зайві витрати через надлишок даних

Часто компанії, крім метрик, які потрібні для прийняття рішень, починають збирати й технічну інформацію про користувача, яку навіть не аналізують. Згідно з дослідженням Snowflake, лише 6 % компаній досягли високої ефективності у роботі з даними й отримують з цього реальні бізнес-переваги. І лише 38 % компаній використовують дані як основу для прийняття рішень.

Невеликі компанії, які зберігають до мільйона записів, можуть довго не відчувати проблему з надлишком даних. Але коли йдеться про мільярди чи трильйони, це починає з’їдати бюджет: зростають витрати на інфраструктуру, стають потрібні додаткові розробники, ускладнюється інтеграція між системами, а швидкість їх роботи падає.

У промисловій аналітиці датчики, крім параметрів стану обладнання, таких як рівень вібрації чи температури, які регулярно оновлюються, передають також технічні параметри, які рідко змінюються. Це може бути версія пристрою чи тип звіту. Якщо зберігати їх в кожному записі, обсяг даних виросте в 10-20 разів. Тому ми зберігаємо технічну інформацію лише тоді, коли вона змінюється. Це економить місце, знижує витрати на зберігання та пришвидшує обробку.

Ще на старті слід чітко визначити, які саме дані впливають на бізнес-рішення, а що лише створює зайвий шум.

Неправильний вибір бази даних

Універсальних інструментів у роботі з даними не існує. Кожен бізнес має власні сценарії використання даних – від зберігання історії покупок до моніторингу клієнтських дій у реальному часі. Для різних завдань потрібні різні підходи: одні рішення добре працюють із великими обсягами “історичних” даних, інші – з потоком актуальної інформації. Якщо обрати не ту базу даних, аналітика сповільниться, дані стануть фрагментованими, а витрати на підтримку – зростуть у рази.

У своїй практиці я бачив, як компанії втрачали тижні на спроби використовувати технологію, яка не відповідає їхнім реальним потребам. Наприклад, система, створена для швидких запитів, виявлялася неефективною для глибокої аналітики, або навпаки – аналітична база не справлялася зі щохвилинними оновленнями даних.

Перед вибором бази даних варто поставити прості запитання:

  • які саме дані ми обробляємо?
  • як часто вони оновлюються?
  • хто буде з ними працювати – аналітики, менеджери, чи система автоматично?

Ці відповіді допоможуть уникнути зайвих витрат і забезпечити те, щоб аналітична інфраструктура не гальмувала, а підтримувала зростання бізнесу.

Ефективна стратегія роботи з даними починається не зі збору інформації, а з чіткого розуміння бізнес-цілей: які рішення ви хочете приймати і які дані для цього справді потрібні.


П’ять головних помилок бізнесу при роботі з великими даними

Про автора

Ілля Смолієнко, European Operations Waites. Спеціалізується на розробці рішень у сфері прогнозного обслуговування промислового обладнання та індустріального інтернету речей (IIoT) і має понад десять років практичного досвіду в цій галузі. Для платформи Waites з нуля зі своєю командою побудував екосистему з 12 інтегрованих клієнтських сервісів та керував упровадженням IIoT-рішень для моніторингу стану обладнання у глобальних компаніях, зокрема DHL, Michelin, Nike, Nestlé та Tesla.

У випадку, якщо ви знайшли помилку, виділіть її мишкою і натисніть Ctrl + Enter, щоб повідомити про це редакцію. Або надішліть, будь-ласка, на пошту [email protected]
Проєкт використовує файли cookie сервісів Mind. Це необхідно для його нормальної роботи та аналізу трафіку.ДетальнішеДобре, зрозуміло