Мы сталкиваемся с «умными» технологиями практически каждый день: смартфоны распознают владельца по отпечатку пальца, социальные сети и интернет-магазины показывают нам товары, которые интересует именно нас, а на улицах городов уже появляются беспилотные автомобили. Растущее количество информации, необходимость её обработки и анализа, а также бурное развитие инноваций спровоцировали появление новой профессии — Data Scientist.
В чем суть работы Data Scientist
Data Science — сравнительно новая дисциплина в ИТ. Это анализ данных и создание на их основе передовых ИТ-продуктов, прогнозов, рекомендаций и других полезных технологий.
В Data Science применяется машинное обучение, благодаря которому компьютеры обучаются самостоятельно, по подобию людей. Чем больше информации у человека о какой-то задаче и чем чаще он её выполняет, — тем лучше он решает эту задачу. Так работает и машинное обучение у компьютеров.
Data Scientist как раз делает так, чтобы компьютер «научился учиться». Так, компьютер обучается решать задачи, с которыми ежедневно сталкиваются люди в разных сферах бизнеса: в банковском деле, торговле, здравоохранении и др.
Пользу от анализа данных можно извлечь во всех более-менее прикладных областях, где есть достаточно данных. К примеру, в медицине алгоритмы позволяют более качественно диагностировать заболевания и назначать план лечения.
Можно проанализировать предпочтения потребителей в ритейле и изменить сервис. Сложные алгоритмы машинного обучения могут рассказывать о поведении, действиях людей в социальных сетях, отзывах — затем на основании полученных данных маркетолог меняет подход к работе с клиентами и повышает прибыль компании.
Анализ больших данных помогает принимать эффективные решения, будь то построение избирательной кампании на выборах или качественное управление персоналом в крупной компании. Разумеется, прежде чем компьютер начнет решать такие непростые задачи, его сначала нужно обучить с помощью доступных данных. В этом и состоит работа дата-сайентистов.
Какие задачи стоят перед специалистами в Data Science
Специалисту в Data Science уже недостаточно разбираться только в математике, программировании и статистике — нужно понимать, как решать бизнес-задачи. Одно дело, когда от специалиста по данным требуют повысить точность распознавания или предсказания уже работающей системы. И совсем другой случай, когда всё приходится создавать с нуля.
На Западе используют термин Unicorn Data Scientist. «Единорог» в отличие от обычного специалиста владеет навыками бизнес-аналитика: отлично разбирается в предметной области — например, в финансовых процессах или медицинской сфере, и знает её особенности. Эти знания помогают ему отвечать на реальные вопросы: какие риски сопровождают ту или иную компанию, какой набор генов соответствует определённому заболеванию, как распознать мошеннические транзакции.
Такой специалист не просто создает алгоритм, он ответственен за принятие важных решений, ему необходимо понимать, как устроены бизнес-процессы компании.
Важны коммуникационные навыки: дата-сайентисту нужно не только работать с цифрами, но и уметь находить общий язык с разными людьми. Помимо ИТ-грамотности, математических и статистических знаний, от «единорога» требуются такие качества, как креативность, проактивность и стратегическое мышление.
В этой сфере очень важно доносить свои идеи и обсуждать целый спектр задач проекта с разными специалистами именно на их языке, будь то ученый, маркетолог или программист.
Всё дело в данных
Считается, что больших успехов в развитии этих технологий удалось достичь благодаря сочетанию нескольких факторов.
Мощные компьютеры стали общедоступными, так что появилась возможность накапливать и обрабатывать огромные массивы данных. Одновременно были разработаны всевозможные устройства и сервисы, которые собирают данные об окружающей среде, о поведении людей.
Мобильные операторы собирают данные не только о звонках, но и о перемещении своих клиентов. Магазины хранят информацию о покупках и предпочтениях клиентов при помощи карт лояльности. Банки знают, где, когда и какие покупки совершает клиент. Интернет-сайты запоминают, какой контент пользователь просматривал. Вся эта информация затем используется для того, чтобы предлагать клиенту новые товары и услуги, оптимизировать процессы, автоматизировать рутинные операции.
Анализ данных и машинное обучение сейчас активно используются в инновационном бизнесе, фундаментальной науке и прикладных исследованиях. Профессию Data Scientist можно назвать одной из самых популярных специальностей XXI века.
Несмотря на огромное количество академических программ, курсов и онлайн-платформ для обучения, кадров всё ещё не хватает — спрос на них слишком велик. Средние зарплаты специалистов по анализу данных превышают зарплаты классических инженеров-программистов.
Нет конкуренции, есть возможности
Внутри профессии Data Scientist уже появилось множество специализаций: одни аналитики изучают зависимости в данных, другие строят модели, третьи общаются с заказчиком. Во многих из них конкуренция невысокая, а возможности для роста и карьерного развития обширны.
Кроме аналитиков есть ещё инженеры-программисты — они занимаются внедрением моделей в реальное производство, и инженеры, которые создают инфраструктуру для сбора, хранения и подготовки данных. Среди аналитиков тоже появились различные специализации: в банках, телекоме и ритейле «классическая» аналитика занимается обработкой табличных данных и построением рекомендаций.
Специалисты по компьютерному зрению (computer vision) разрабатывают модели для распознавания изображений или отдельных объектов на фото, извлечения информации из документов, распознавания людей на видео с камер наблюдения и даже для оценки эмоций клиента по выражению лица.
Другие специализируются на обработке текстов на естественном языке — natural language processing, NLP: строят всевозможные чат-боты вроде Siri и Алисы, создают модели для автоматического определения тем постов в соцсетях или для анализа отзывов о товарах на сайте интернет-магазина.
Куда идти учиться
Чтобы стать Data Scientist, в первую очередь стоит получить качественное высшее математическое или техническое образование — фундамент для успешного развития в сфере Data Science. Многие специалисты по работе с данными начинали свою карьеру как математики, физики, инженеры и экономисты. Базовое профильное образование можно получить в МГУ, МФТИ, ВШЭ и Сколтехе. Также подготовкой таких специалистов занимаются, например, в Школе Анализа Данных Яндекса и в Техносфере компании Mail.ru Group.
Кроме того, нужно владеть языками программирования, обязательный минимум — Python и R. Существует множество онлайн-платформ для обучения программированию, в том числе по использованию конкретных языков и библиотек для машинного обучения.
Оттачивать свои знания и навыки можно на различных онлайн-соревнованиях — например Kaggle, и хакатонах, которые проводятся разными компаниями при сотрудничестве с академическими институтами.
Иногда крупные компании проводят открытые конкурсы на своих онлайн-платформах: придумывают задачи на основе тех, которые возникают у них на практике. После этого они обрабатывают данные и выкладывают часть в открытый доступ для построения моделей, а часть оставляют себе на проверку. Математики и программисты соревнуются друг с другом, кто лучше научится сам и научит свои алгоритмы справляться с прогнозированием скрытой части данных. Самые успешные решения претворяются в жизнь.
Data Scientist на сегодня — одна из самых быстроразвивающихся профессий, которая позволяет претворять в жизнь то, что раньше казалось нереальным. Спрос на специалистов в области данных велик и продолжает расти, а возможности для развития практически безграничны.
https://vanar.md/ro/cursuri-programare/python