Сайєнтист – не сайєнтолог: як опанувати найперспективнішу професію для роботи з великими даними
Корисний досвід українських розробників, що спеціалізуються на Big Data

Data scientist – одна з найгарячіших IT-професій нашого часу. Зарплати за верхньою планкою, перегрітий ринок вакансій і поки ще незначна конкуренція при великому виборі напрямків. Чи це ж не мрія для початківця-здобувача? У спецпроекті з «Київстар» Big Data School Mind.ua розбирається з тим, наскільки легко стати дата-сайентистом студенту, IT-фахівцю середнього рівня або професіоналу з суміжних сфер. А також – чим доведеться займатися й які базові навички потрібні кандидату.
Логіка – передусім
Хоча робота з великими даними – це багато в чому математика, ґрунтовні знання з цього предмета необов'язкові для здобувачів. Як розповіли на мітапі для майбутніх студентів ментори Big Data School, перш за все важлива мотивація. Не до грошей, тому що саме це зазвичай спонукає тих, хто вирішив переключитися на дата-сайєнс, а до вивчення предмета. Без цього буде складно, а результат, швидше за все, буде посередній. Мотиваційний лист – це те, з чого починається подача заявки на курс, і саме на нього будуть дивитися з особливою увагою.
Якщо говорити про конкретні навички, то, з досвіду Миколи Микитенка – випускника третього набору Big Data School, потрібно або бути сильним у вищій математиці, або відмінно розбиратися в логіці. Тобто або знати формулу, або розуміти, як йти до потрібного результату.
Бекґраунд Микитенка – робота з аналітичними інструментами (BI), базами даних і використання мов SQL. На його думку, коли з перерахованим вище все нормально, то для опанування нової професії буде досить навіть вміння програмувати на початковому рівні. «Якщо людина знає основи хоча б однієї мови, вона зможе інтерпретувати будь-яку. Я писав вступне завдання на R, далі практикував у навчанні Python. Без проблем переключився з однієї мови на іншу», – розповідає він.
Микитенко говорить, що йшов до Big Data School, усвідомлюючи прогалини у знаннях Machine Learning. Свій рівень оцінював на 20%, школа додала ще 20-30% до рівня впевненого володіння в предметній галузі. Але головне, що дала школа, за його словами, – напрямок для розвитку, розуміння, що конкретно треба вивчати, щоб стати профі. «Саме правильний вектор для подальшого поглиблення знань у роботі з великими даними в Україні більше взяти особливо немає де», – впевнений він.
У процесі відбору студентів до Big Data School від Kyivstar ментори дивляться насамперед на мотивацію претендентів. Тому подавачеві заявки варто приділити велику увагу мотиваційному листу.
Перш ніж вступити до Big Data School Микитенко працював у банківській сфері, де також займався аналітикою. Говорить, що вміння аналізувати – третя базова складова успіху в поводженні з великими даними та алгоритмами машинного навчання. Отримані знання вже дозволили випускнику здійснити великий «стрибок» у робочому проекті, пов'язаному з клієнтською заборгованістю з кредитування.
Наприклад, контакт-центр банку обдзвонює клієнтів із заборгованостями за кредити. Великі дані допомагають обчислити, кому варто зателефонувати та нагадати, а хто скоро сам поверне заборгованість. А також дають можливість знаходити оптимальний баланс між прибутковістю та витратою ресурсів. Хороша модель дозволяє прогнозувати ймовірність повернення кредиту з точністю до 90%, а завдяки грамотному розподілу навантаження можна економити робочу силу: якщо при «сліпому продзвоні» банку доведеться задіяти 100 операторів, то з грамотно прописаним алгоритмом з обробки великих даних можна знизити ресурс і до 10-20%.
Водночас важливо розуміти, які дані мають цінність, стежити за їхньою актуальністю (наприклад, платіж за кредит на 900 грн зараз і шість років тому – не одне й те саме) та впливом на результат роботи моделі. У моделі зі свідомого повернення заборгованості, наприклад, виявилося, що зовсім не важливо чим займається клієнт або розмір простроченої заборгованості, а ось більш зрілий вік і володіння нерухомістю характеризують позичальника як більш надійного.
В той самий час дуже багато проектів у сфері роботи з великими даними так і не реалізуються. Зазвичай це відбувається тому, що, як з'ясовується, користь для бізнесу – мінімальна, бізнес або не знає, що насправді йому потрібно, або не відчув результату, або йому не змогли цей результат правильно презентувати. На думку Микитенка, досвід навчання на реальних кейсах у Big Data School дозволяє краще зрозуміти, що потрібно сьогоднішнім підприємцям.

Для кого підійде Big Data School?
За кілька наборів навчання у Big Data School пройшли і вчорашні студенти, і фахівці рівня Senior, і професіонали з суміжних сфер. Хтось прийшов заповнити прогалину в знаннях, бо підготовка в вузах часто-густо далека від реальних завдань, хтось – посилити експертизу в професії.
Олександр Саєнко, випускник першого набору Big Data School, ментор третього та четвертого наборів, давно займаючись аналітикою та роботою з великими даними, свого часу натрапив на допис про школу в Facebook. Маючи ступінь кандидата наук і володіючи природним потягом до загадок і нових знань, зацікавився тестовим завданням. На співбесіду йшов «чисто зі спортивного інтересу», без чітких планів включатися в навчання. Проте Олександр вирішив пройти навчання і зараз займається data science-проектами, на перетині технологій IoT, 4G, 5G і тих можливостей, які вони пропонують користувачеві. За визнанням Саєнка, найприємніше «придбання» – відчуття того, що великі дані дозволяють вирішувати завдання, які раніше здавалися такими, що неможливо розв'язати. «Ось саме за цим і варто йти у професію», – говорить він.
Чим займаються дата-сайєнтисти?
На роботу з даними дата-сайентисти витрачають 80% часу, з яких тільки 20% – безпосередньо на збір, і близько 60% – на «очищення», – розповідає Данило Анцибор, випускник Big Data School 2.0. Він займається проектами у сфері customer success. Обробка великих даних дозволяє вивчати потреби, побажання, звички клієнтів і робити їх щасливими, зупиняючи відтік – і тим самим підвищуючи дохід бізнесу.
Розвиток NLP (natural language processing – обробка природної мови) використовується як у бізнесі, так і в соціальних проектах. Наприклад, у одного з випускників Big Data School є проект, пов'язаний з розпізнаванням назви товарів від різних постачальників. Виявилося, що люди називають одні й ті ж речі по-різному. Алгоритм здатний звести все в одну систему назв і таким чином спростити прогнозування попиту та закупівлі товарів.
У світі не так багато компаній мають власний масив великих даних.
У «Київстара» він є. Студенти Big Data School проходять навчання на реальних кейсах і працюють з реальними даними.
Це дозволяє вже на етапі навчання краще зрозуміти потреби бізнесу та отримати реальний досвід.
У світі є кейси, де мовна технологія NLP використовується для виявлення дітей, схильних до злочинів у майбутньому, або людей, які знаходяться на межі самогубства.
Але це тільки один із можливих напрямків. У багатьох країнах великі дані вже зараз широко застосовуються для вирішення серйозних завдань державного масштабу.
Так, у Норвегії 18 000 осіб щорічно гине від пожеж. Країна почала використовувати камери відеоспостереження і зібрані з їхньою допомогою дані, щоб визначати пожежу за межами приміщень, де стоять звичайні датчики. Наприклад, якщо на вулиці горить автомобіль, нейронні мережі розпізнають і класифікують об`єкт займання. На пульт служби швидкого реагування надходить інформація не тільки про сам факт пожежі, але і про те, як змінюється «поведінка» вогню, чи постраждали люди, як можна їх евакуювати та т. і.
У Південній Кореї завдяки логам з телефонів відбувається оптимізація транспортної системи. Влада вивчила дані про те, як люди пересуваються містом, і відповідно до цього змінила маршрути, графік руху транспорту і таке інше.
У чому особливість Big Data School від «Київстар»?
За словами Миколи Микитенка, курс корисний тим, що він дає не тільки знання про перетин технологій, а й досвід роботи з реальними кейсами big data. Хоча великі дані «в моді» вже кілька років, але у світі (а в Україні – й поготів) існує не так багато компаній, що володіють таким «скарбом». А оскільки «Київстар» – один з першопрохідців і лідерів у накопиченні й обробці великих даних, це робить навчання унікальним.
Друге, за чим він радить йти до Big Data School, – це розуміння потреб бізнесу, без чого жоден проект у сфері високих даних не стане успішним. Третє – навчання візуалізації big data. Бізнесу незрозуміло, що робити з «сирими даними», а для професійного успіху фахівець повинен вміти візуалізувати, пояснити отриманий результат. І це входить до програми навчання.