Модуль 4

Машинное обучение

Тема 2

AI-сервисы платформы

В предыдущей теме вам рассказали, какие проблемы и задачи возникают при создании моделей машинного обучения. Также вам показали, как эти проблемы решаются с использованием инструментов VK Cloud. Однако в некоторых ситуациях нерационально пытаться с нуля создать модель машинного обучения — гораздо оптимальнее взять готовое решение. Однако это получится не всегда.

Бизнес-задачи, которые можно решить с помощью ML

Существует две категории задач, с которыми может помочь машинное обучение.

Первая категория — задачи со специфичными для вашего процесса данными. Например, разработать цифровой оператор для управления производственной линией. Специфичность датасета для задачи связана с тем, что для разных технологических процессов нет одинаковых линий производства: отличается оборудование, сырье, оснащенность датчиками. В итоге получается, что готовое решение для такой задачи просто не может существовать.

Вторая категория — задачи, решаемые одинаково для разных компаний. Например, распознавание лиц, объектов, текста. Для этой категории целесообразно использовать готовые решения с рынка. Это позволит избежать затрат на сбор датасета, обучение модели. А также ускорит создание готового продукта.

В VK Cloud доступны подобные решения:

Vision — набор моделей компьютерного зрения,
Cloud Voice — синтез и генерация речи.

Vision

Это набор моделей компьютерного зрения, которые были разработаны для собственных нужд и используются в продуктах экосистемы VK: Почта, Поиск, Облако Mail.ru. Этими моделями можно воспользоваться, когда вам необходимо создать продукт, в котором требуется компьютерное зрение.

Сервис решает следующий набор задач:

Распознавание лиц:

детектирование лиц,
распознавание лиц,
определение возраста, пола и эмоций людей.

Распознавание объектов:

распознавание объектов (люди, техника, около 1000 классов),
распознавание сцен, тегирование изображений,
определение номеров автомобилей.

Работа с документами (паспорт, СНИЛС, ИНН и т. д.):

определение типа документа,
распознавание полей документов.

Распознавание текста:

распознавание текстовых документов,
распознавание текста в естественной среде (Scene Text Recognition).

Модерация контента 18+
Обработка изображений:

колоризация,
исправление дефектов,
увеличение качества.

Все задачи в этом списке не специфичны для конкретного бизнеса или отрасли. Поэтому нет смысла тратить время и деньги на их решение: можно взять готовое и вместо этого сконцентрироваться на реализации бизнес-логики вашего продукта. Vision станет для вашего продукта внешним модулем, доступным по публичному API.

Предыдущая тема Следующая тема

Вернуться к тьюториалу