VK Cloud

Модуль 4

Машинное обучение

Тема 2

AI-сервисы платформы

В предыдущей теме вам рассказали, какие проблемы и задачи возникают при создании моделей машинного обучения. Также вам показали, как эти проблемы решаются с использованием инструментов VK Cloud. Однако в некоторых ситуациях нерационально пытаться с нуля создать модель машинного обучения — гораздо оптимальнее взять готовое решение. Однако это получится не всегда.

Бизнес-задачи, которые можно решить с помощью ML

Существует две категории задач, с которыми может помочь машинное обучение.

Первая категория — задачи со специфичными для вашего процесса данными. Например, разработать цифровой оператор для управления производственной линией. Специфичность датасета для задачи связана с тем, что для разных технологических процессов нет одинаковых линий производства: отличается оборудование, сырье, оснащенность датчиками. В итоге получается, что готовое решение для такой задачи просто не может существовать.

Вторая категория — задачи, решаемые одинаково для разных компаний. Например, распознавание лиц, объектов, текста. Для этой категории целесообразно использовать готовые решения с рынка. Это позволит избежать затрат на сбор датасета, обучение модели. А также ускорит создание готового продукта.

В VK Cloud доступны подобные решения:

  • Vision — набор моделей компьютерного зрения,
  • Cloud Voice — синтез и генерация речи.

Vision

Это набор моделей компьютерного зрения, которые были разработаны для собственных нужд и используются в продуктах экосистемы VK: Почта, Поиск, Облако Mail.ru. Этими моделями можно воспользоваться, когда вам необходимо создать продукт, в котором требуется компьютерное зрение.

Сервис решает следующий набор задач:

  1. Распознавание лиц:
  • детектирование лиц,
  • распознавание лиц,
  • определение возраста, пола и эмоций людей.
  1. Распознавание объектов:
  • распознавание объектов (люди, техника, около 1000 классов),
  • распознавание сцен, тегирование изображений,
  • определение номеров автомобилей.
  1. Работа с документами (паспорт, СНИЛС, ИНН и т. д.):
  • определение типа документа,
  • распознавание полей документов.
  1. Распознавание текста:
  • распознавание текстовых документов,
  • распознавание текста в естественной среде (Scene Text Recognition).
  1. Модерация контента 18+

  2. Обработка изображений:

  • колоризация,
  • исправление дефектов,
  • увеличение качества.

Все задачи в этом списке не специфичны для конкретного бизнеса или отрасли. Поэтому нет смысла тратить время и деньги на их решение: можно взять готовое и вместо этого сконцентрироваться на реализации бизнес-логики вашего продукта. Vision станет для вашего продукта внешним модулем, доступным по публичному API.

8.svg