Полезный карантин: книги и курсы по open data, data science и data visualization
Что можна почитать и чему научится в сфере открытых данных во время изоляции

Карантин несмотря на все негативные моменты, которые с ним связаны, имеет и положительные стороны. Так, многим гражданам эта ситуация позволила подумать о дистанционном обучении или даже получить дополнительное образование. Ная Новак, Head of PR & Communications 1991 Open Data Incubator, поделилась с Mind полезными онлайн-ресурсами и литературой, которые помогут провести время вынужденной изоляции с пользой.
Дистанционное обучение с началом карантина стало особенно востребованным. По информации Google Trends, популярность запросов вроде e-learning, MOOC, online course во всем мире выросла на 100%, 200%, а для некоторых – на 400% (по сравнению с мартом прошлого года).
Для тех, кто хотел бы в самоизоляции получить или улучшить навыки работы с данными, организаторы национального конкурса стартапов на основе открытых данных Open Data Challenge собрали подборку онлайн-курсов и книг от специалистов и амбассадоров открытых данных, data science, machine learning, визуализации данных. Советы будут особенно полезны тем, кто планирует подавать заявку на участие в последнем цикле конкурса. Зарегистрироваться можно до 5 апреля. Призовой фонд в этом году составляет 3,5 млн гривен.
Open Data: базовые принципы и практические навыки
Катерина Онилиогву, руководитель направления открытых данных USAID/UK аid проекта «Прозрачность и подотчетность в государственном управлении и услугах / TAPAS», предлагает подборку онлайн-курсов.
На английском:
- Раздел eLearning на Европейском портале данных. Там 16 модулей, все они полезны, но больше всего мне нравятся те, что о форматах и связанных данных (linked data).
- Using Open Data for Digital Business от британской школы дистанционного обучения FutureLearn, особенно рекомендую бизнесу и стартапам. Курс дает понимание, как данные могут помочь в трансформации бизнеса.
- 11-модульный Finding Stories in Data от Open Data Institute. Поскольку уметь правильно анализировать данные – это лишь первый шаг, важно их правильно представлять, чтобы они оказывали наилучший эффект при принятии решений, донесении сообщений и так далее.
- Курс об открытых данных для распорядителей и пользователей от Всемирного Банка – Open Data Online Learning for Producers, Users, and Policymakers. Обстоятельная теория и лучшие мировые практики. А еще по окончании обучения можно пройти тест и получить сертификат.
На украинском:
Курс по работе с открытыми данными, разработанный при поддержке проекта USAID/UK аid TAPAS и опубликованный на Едином государственном портале открытых данных. Это пять модулей про открытые данные, их ценность, качество и устойчивость.
Цикл «Анализ данных» на Prometheus: «Анализ данных и статистический вывод на языке R», «Машинное обучение», «Обработка и анализ больших данных», «Визуализация данных».
Евгения Клепа, исполнительный директор 1991 Open Data Incubator, рекомендует:
Если вы только начинаете знакомиться с понятием открытых данных или хотите заинтересовать им коллег, далеких от Data Science, рекомендую плейлист на Youtube, который мы собирали с партнерами из инкубатора. Информация там подается очень понятным языком, но понадобится английский.
- Получить первые навыки работы с данными поможет пособие «Открытые данные: форматы и правила создания», который готовила команда Texty.org.ua в рамках проекта USAID/UK аid «Прозрачность и подотчетность в государственном управлении и услугах / TAPAS».
- Еще один вдохновляющий плейлист, – подборка выступлений на TED о том, как открытые данные меняют мир вокруг. Тут уже можно посмотреть не только на основы, а и на конкретные практические примеры.
- Для тех, кто задумывается, как open data может помочь общественной организации, делюсь бесплатным вебинаром, который мы записывали с Pro Bono Club Ukraine. Он доступен в записи, и карантин – повод его посмотреть, если раньше не хватало времени. Вебинар можно найти в перечне онлайн-событий по ссылке выше или перейти по прямому линку на Youtube.
Визуализация данных
Продолжая тему визуального представления данных: тем, кто хочет получить или развить навыки визуализации, автор блога Textura.in.ua, преподаватель визуализации данных факультета прикладных наук УКУ Андрей Газин рекомендует три книги:
- Making Data Visual by Miriah Meyer & Danyel Fischer Эта книга рассматривает создание визуализации как процесс поиска ответов на вопросы. Здесь практически нет технических деталей, но хорошо изложена логика постановки вопросов к данным и перехода от этих вопросов к визуализации. В книге есть несколько case-study, на примере которых можно понять, какие решения влияют на выбор метода презентации данных.
- Fundamentals of Data Visualization by Claus Wilke Клаус Вилке – один з контрибьюторов популярной библиотеки для визуализации данных ggplot2, но его книга language & tool agnostic, то есть не привязана ни к одному конкретному инструменту. Здесь детально описаны все этапы создания визуализации, все проблемы, с которыми вы можете столкнуться в процессе, все нюансы, на которые нужно обращать внимание.
Data Science, Deep Learning, AI
Head of Consulting Data Science UA Вероника Тамайо Флорес делится тремя книгами, которые стоит прочесть всем, кто хочет работать в этой отрасли.
AI Superpowers by Kai-Fu Lee («Сверхдержавы искусственного интеллекта», Кай-фу Ли). Очень авторитетный автор, хороший перевод, приятное чтение на несколько часов. Подойдет для всех, кто хочет понять, что же на самом деле происходит в сфере ИИ, из уст человека «в теме». Уровень: новичок или интересующийся.
Doing Data Science. Straight Talk from the Frontline by Cathy O'Neil, Rachel Schutt («Data Science. Инсайдерская информация для новичков», Кэти О'Нил и Рейчел Шатт). Хоть книга и была написана в 2013 году, она дает отличное представление о развитии аналитики и базовых алгоритмах машинного обучения. В ней есть вставки кода на [языке программирования] R, которые помогают глубже понять материал. В битве Python vs. R я на стороне последних, так что мне эта книга греет сердце. Сторонникам противоположного лагеря книгу все равно советую почитать для понимания основ. Уровень: новичок.
«Глубокое обучение. Погружение в мир нейронных сетей», С. Николенко, А. Кадурин, Е. Архангельская. Возможно, лучшая книга про нейронные сети, написанная на русском. Николенко и коллеги умудрились написать книгу о нейронках весело и интересно. Продраться через нее без солидных знаний в математике будет тяжело. И даже не смотря на то, что появилось уже множество более совершенных архитектур, книга все еще полезна для всех, кто только знакомится с миром глубокого обучения. Уровень: уверенный.
CEO DevRain, CTO ДонорUA и региональный директор Microsoft Александр Краковецкий дал несколько полезных ссылок для читателей, которые хотели бы углубиться в науку о данных:
Towards Data Science – онлайн-ресурс о data science, machine и deep learning. Подойдет широкой аудитории, большое количество материалов на разную тематику. Для меня это #1 ресурс с точки зрения регулярного чтения.
Поскольку работаю с Microsoft технологиями, то могу рекомендовать Applied AI – прикладной искусственный интеллект (Microsoft AI School – Beginner – Applied AI). Там есть Path Builder, который поможет сориентироваться, что нужно изучать и в какой последовательности. Направления: Conversational AI, AI Services, Machine Learning, Autonomous Systems, Responsible AI.
Аналогичная программа есть для бизнеса – AI Business School.
Книги для общего развития –
Naked Statistics: Stripping the Dread from the Data by Charles Wheelan («Голая статистика», Чарльз Уилан) і Superintelligence: Paths, Dangers, Strategies by Nick Bostrom («Искусственный интеллект», Ник Бостром).
Курс стоит подбирать в зависимости от целей, уровня знаний, бэкграунда. Есть классические курсы от Andrew Ng на Coursera, есть курсы для подготовки к сертификации (например, Professional Certificate in Data Science Fundamentals на edX) и так далее.
Director of Education учебного центра DEVrepublik Вита Селезнева дополняет эти рекомендации двумя книгами и двумя онлайн-курсами. Ее советы рассчитаны в первую очередь на уровень junior та junior+, но в целом будут полезны всем:
- Deep Learning by Ian Goodfellow
- Reinforcement Learning an Introduction by Richard Sutton and Andrew Barto
- Курс «Введение в машинное обучение» на Coursera
- Курс Machine Learning от уже упомянутого Andrew Ng
Кроме того, практически все участники этой подборки и их компании сейчас, в период карантина, проводят онлайн-курсы, вебинары и предлагают другие возможности дистанционного развития для аудитории. Следить за анонсами можно на их страницах в соцсетях. К новым условиям адаптировалась и команда Open Data Challenge.
Open Data Challenge – международный формат конкурса для проектов на основе открытых данных – впервые стартовал в Украине в 2017 году. В общей сложности за время существования конкурса, с 2017 по 2019 год, было подано более 500 проектов, 40 команд прошли инкубацию, были отобраны 14 победителей, которые получили суммарно 6,5 млн гривен и успешно продолжают развитие своих проектов. В Украине конкурс проводится в рамках проекта международной помощи USAID/UK aid «Прозрачность и подотчетность в государственном управлении и услугах / TAPAS» при поддержке Министерства цифровой трансформации Украины и длится в партнерстве с Фондом «Восточная Европа» и 1991 Open Data Incubator.
Авторы материалов OpenMind, как правило, внешние эксперты и специалисты, которые готовят материал по заказу редакции. Но их точка зрения может не совпадать с точкой зрения редакции Mind.
В то же время редакция несёт ответственность за достоверность и соответствие реальности изложенной мысли, в частности, осуществляет факт-чекинг приведенных утверждений и первичную проверку автора.
Mind также тщательно выбирает темы и колонки, которые могут быть опубликованы в разделе OpenMind, и обрабатывает их в соответствии со стандартами редакции.