Data science, она же наука о данных, на сегодняшний день один из драйверов развития бизнеса, медицины, астрономии, логистики, химии, социологии и индустрии развлечений. Чем занимается эта наука и почему так сильно влияет на другие области? Разбираемся вместе.

Данные vs информация: data science — что это и зачем

Для начала разберемся в разнице между этими двумя похожими, на первый взгляд, понятиями: информация и данные. Информация, если упростить, — это любые данные, которые несут пользу. А данные — это просто данные, которых много, и непонятно, как их использовать.

Например, все записи показаний всех термометров мира за сутки — данные. А вот цветная карта температур, отрисованная из этих значений, — это уже информация: из карты видны теплые и холодные области планеты, различные климатические зоны и много другого полезного.

Глядя на погодные области, можно делать какие-то умозаключения и логические построения. В таблицу замеров можно только тупить, проклиная ее размер и однообразие.

Data science — это, по сути, как раз наука о том, как разнородные данные превратить в полезную информацию.

Первый шаг к data science: подготовка данных

Сами по себе данные не могут стать информацией — их нужно правильно подготовить:

  1. Сперва их собирают научно корректными способами. Так, даже простые замеры температуры градусником можно испортить: неправильная калибровка прибора, замер слишком высокой температуры над нагретой солнцем поверхностью, замеры в случайное время суток вместо строго определенного времени — все это искажает показатели и портит статистику.
  2. Потом данные очищают от мусора: например, от значений, которые появились в результате сбоев оборудования или ошибок замерщиков.
  3. После всего этого нужно понять, как из исходного сырого материала получить информацию. То есть — какую пользу можно извлечь из данных.

Если один и тот же набор данных преобразовать разными способами — получатся совершенно разные виды информации, пригодные для решения абсолютно разных видов задач. Какие методы использовать для извлечения нужной информации — это тоже относится к data science.

Как работают специалисты по data science

Чтобы превратить кучу байтов во что-то нужное, нужны современные методы data science:

  1. Средства хранения данных — разные таблицы в Excel, реляционные и нереляционные базы данных, распределенные и децентрализованные хранилища. Чтобы с ними работать, надо уметь правильно сохранять данные в удобном формате, а потом извлекать нужные записи из хранилища. Процедуры чтения могут быть очень хитрыми: выборки по разным временным периодам, расчет средних/медианных значений, отсечение подозрительных цифр (слишком больших или слишком маленьких) — все это применяется при получении записей и подготовке материалов для следующих шагов.
  2. Статистика и математика. Все данные в компьютерах — числа, а числа живут по законам математики. Обработка входных сигналов классическими алгоритмами, построение моделей, поиск паттернов, расчет средних значений — все эти штуки используются любым специалистом по data science каждый день. А еще есть алгоритмы машинного интеллекта и нейронные сети, без знания которых уже сейчас довольно трудно найти работу в этой области. Конечно, датасайнтисты не пишут все модели и формулы сами, они пользуются готовыми библиотеками решений. Для этого нужно держать в голове документацию по разным программным инструментам анализа данных и реализациям этих инструментах в разных языках программирования.
  3. Программирование и средства обработки данных. После того как в предыдущем шаге мы придумали математические модели и сформулировали статистические гипотезы, их нужно превратить в программы, которыми смогут пользоваться другие люди. Вы же не можете отдать другим специалистам кучу формул — они в них не разберутся. Поэтому решение оформляется в виде кода, куда другие люди могут скармливать данные и получать ответы на свои вопросы. Для этого нужно уметь программировать на хорошем уровне, чтобы ваши программы работали быстро

Как data science применяют на практике

Конечная цель науки о данных — приносить пользу: помогать принимать решения, совершать открытия и делать тайное очевидным. Копить данные очень легко, достаточно тащить к себе на склад все, что попадается под руку. Человечество научилось делать это очень давно. А вот вытянуть из кучи записей что-то интересное — гораздо более сложная задача. Эта область знаний оформилась во что-то осмысленное лишь во второй половине XX века.

И именно наука о данных стоит за многими крупными открытиями и революционными способами заработка денег последних десятилетий, например:

  1. Применение data science в астрономии позволило проанализировать сигналы радиотелескопов и открыть тысячи новых космических объектов. А это, в свою очередь, привело к доработке и уточнению современных физических и космологических теорий.
  2. Анализ данных коллайдеров дал возможность перестроить наше понимание физики элементарных частиц, что повлияло на энергетику, электронику, химию, медицину и фундаментальную науку.
  3. Анализ сигналов GPS-трекеров дал миру новый класс сервисов. А именно — агрегаторы такси, которые мгновенно связывают любого клиента с ближайшим свободным водителем.
  4. Анализ складских запасов и продаж в ритейле позволяет оптимальным образом формировать ассортимент товаров в магазине, чтобы ничего не залеживалось на полках. Это минимизирует порчу товаров и повышает продажи, а также снижает издержки и наценку для потребителя.
  5. Анализ сложных белков и генов дал миру новые классы лекарств и персонализированную медицину — это новые виды лечебных услуг и принципиально новые фармацевтические товары. Для нас с вами это означает повышение качества жизни и меньше болезней, а для бизнеса — новые рынки.

Любая человеческая деятельность сегодня — это работа с данными. Количество данных вокруг растет пропорционально росту инфраструктуры и скорости передачи информации на планете. Любое научное или бизнес-решение требует анализа сотен переменных, которые нужно извлечь из хаоса записей в базы данных и правильно интерпретировать.

Экономика, биология, физика, логистика, военное дело — любая отрасль опирается на растущие объемы данных, которые надо анализировать все быстрее и точнее. Именно поэтому сегодня без data science не может существовать ни одна серьезная организация.

Анализ больших данных в облаке
Попробуйте бесплатно