Машинное обучение (Machine Learning, ML) называют самой перспективной областью ИИ. По прогнозам объем рынка ML к 2025 году составит $39.98 млрд. Но ML — сложный процесс, для которого нужна команда с экспертизой по работе с данными, а также технологии и инструменты. Часть процессов по работе с ML-моделями можно автоматизировать с помощью инструментов для AutoML. 

 
На VK Cloud Сonf прошла дискуссия, в ходе которой представители российских компаний поговорили об автоматизации процессов машинного обучения, выборе инструментов для AutoML, а также о том, сможет ли AutoML заменить специалистов по данным. Вы можете посмотреть в запись дискуссии на странице VK Cloud. В этой статье – расскажем о главных выводах.

Главная задача AutoML — автоматизация рутины

Инструменты AutoML предназначены для автоматизации процессов машинного обучения и эффективно работают для решения типовых и повторяющихся задач. По мнению участников дискуссии, AutoML-инструменты нужны для избавления дата-инженеров и дата-сайентистов от рутинных задач, но пока не могут полностью заменить специалистов по данным. 

«В идеале AutoML должен обеспечивать полную автоматизацию всех процессов работы с ML. Но на практике автоматизировать всё невозможно. Поэтому, в первую очередь, AutoML-решения нужны, чтобы автоматизировать рутину и быстро получать адекватные решения, не тратя силы дата-инженеров и тем более дата-сайентистов»

Николай Никитин, руководитель направления AutoML в NSS Lab, ИТМО

Универсального инструмента для всех – нет

Под каждый тип задач нужен определенный AutoML-инструмент. При этом, надо учитывать не только цели применения машинного обучения, но и компетенции команд. 

Например, если в компании есть дата-сайентисты, которые работают с кодом, умеют писать запросы и вызывать нужные библиотеки, больше подойдут решения промышленного класса:

  • H2O;
  • Data Robot;
  • AutoSklearn;
  • AutoGluon;
  • TPOT.

Для работы с ними нужна экспертиза, но эти инструменты обеспечивают качество и точность обучения ML-моделей.

Для команд без экспертизы лучше No-Code-платформы — например, Pecan. Для работы с ними не нужны навыки программирования, но их точность ниже. 

Инструменты AutoML эффективны только в связке с дата-сайентистом

Инструменты автоматизации упрощают работу человека, помогают находить скрытые зависимости и паттерны. Также они позволяют найти неочевидные, но эффективные решения при построении моделей. При этом, на многих этапах работы с моделями машинного обучения по-прежнему нужны дата-инженеры и дата-сайентисты, которые должны формализовать задачу, выбрать переменные, настроить параметры и интерпретировать результат.

«Говорить о создании AutoML в широком смысле, как системы полностью решающей бизнес задачу с помощью машинного обучения пока рано. Работа ML-специалиста остается во многом определяющей. Кроме упомянутых проблем включение человека необходимо для формализации задачи, выбора целевой переменной, выстраивания связи метрик качества решения оптимизационных задач с бизнес-метриками. Открытыми остаются вопросы продуктивизации построенной модели машинного обучения, A/B тестирования»

Александр Мамаев, руководитель группы машинного обучения и анализа данных в компании VK Predict

При выборе AutoML-решения для бизнеса надо учитывать многие параметры

  • Исходные задачи машинного обучения. Универсальных AutoML-инструментов нет, поэтому нужно понимать, в чем конкретно должно помочь решение. 
  • Наличие команды. Если в компании нет большой команды DS (дата-сайентистов), лучше выбрать no-code решение — с ним могут работать даже аналитики. Если специалисты есть, решения промышленного класса будут лучшим вариантом — они дают более высокую точность, хоть и требуют программирования и тонкой настройки. 
  • Модульность. При работе с инструментами автоматизации ML важно, чтобы они могли в полном объеме решить конкретные-бизнес задачи. Поэтому лучше выбирать модульные инструменты — решения, которые можно самостоятельно адаптировать под себя, добавив целевые функции, эвристики, правила или другие параметры. 

«Модульность делает AutoML многозадачным и гибким. Она позволяет покрыть широкий спектр задач, используя всего один фреймворк. При этом, модульный инструмент адаптируется под задачи бизнеса, а не бизнес адаптируется под возможности инструмента»

Николай Никитин, руководитель направления AutoML в NSS Lab, ИТМО

Участники дискуссии отметили, что лучше выбирать инструменты с открытым исходным кодом — это дает возможность изучить, как работает решение, и позволяет изменять его под себя.

AutoML-решения продолжат развиваться

С развитием машинного обучения и искусственного интеллекта AutoML-инструменты становятся востребованнее. Но существующие решения ограничены типами данных, их форматами и другими параметрами. В связи с этим, AutoML-решения требуют оптимизации. Представители российских компаний ожидают, что в ближайшее время:

AutoML-подходы смогу охватить новые области — временные ряды, signal processing, SVI, NLP и другие. Это расширит сферы применения AutoML. 

«Текущее состояние АutoML библиотек позволяет снизить трудоемкость ML-решений за счет автоматизации отдельных этапов пайплайна машинного обучения. Библиотеки предоставляют удобное api к параметрическим семействам алгоритмов, автоматизируют подбор гиперпараметров, отбор признаков, ансамблирование, выбор модели. Но алгоритмы предобработки и контроля качества данных, автоматической генерации признаков, специфичных для конкретной прикладной задачи, управления бюджетом и стратегией обучения нуждаются в развитии. Оpen-source-решения настроены в первую очередь на работу с табличными данными лишь частично покрывая обработку временных рядов и естественного языка»

Александр Мамаев, руководитель группы машинного обучения и анализа данных в компании VK Predict

Инструменты автоматизации смогут самостоятельно генерировать общие признаки на основе имеющихся данных. Это позволит находить зависимости и паттерны, которые не может распознать человек.

Появится больше AutoML-решений с UX/UI, но высокой точностью обучения. Это нужно, чтобы команды без дата-сайентистов и большой экспертизы могли использовать технологии машинного обучения, не жертвуя точностью прогнозирования. 

Чтобы глубже погрузиться в тематику AutoML, рекомендуем посмотреть вебинар «Доступный AutoML: как оптимизировать работу с ML-моделями с помощью VK Cloud и FEDOT».

На вебинаре Александр Волынский, технический менеджер продукта, VK Cloud и Николай Никитин, руководитель направления AutoML, NSS Lab в ИТМО рассказали, как автоматизировать процесс работы с ML-моделями с помощью инструментов для работы с данными и моделями JupyterHub и MLflow, а также с AutoML-фреймворком FEDOT.