Чтобы рынок видеоаналитики созрел, должно появиться 10-15 отраслевых кейсов. До этого момента бизнесу поможет поддержка в виде консалтинга, вплоть до формулирования потребностей за клиента. Рынку аудиоаналитики для созревания предстоит ещё больший путь.

Егор Ганин — заместитель вице-президента VK, руководитель направления облачных и бизнес-сервисов. Облачные сервисы и сервисы видео- и аудиоаналитики VK созданы под его руководством.

— Как в вашей компании развивалась разработка в области видеоаналитики?

Не секрет, что у таких компаний, как VK, достаточно мощная ресурсная база, позволяющая усилить и развить практически любой рынок. В свое время мы решили присмотреться к технологиям машинного обучения.

Если вспомнить историю, то первым действительно популярным проектом, созданным нейронными сетями, если так можно выразиться, была «Призма». Приложение весьма удачно пошумело в свое время. Аналог «Артиста» занимал первые места в мировом топе приложений. И VK имела отношение к обоим аппам. Приложения по сути своей видоизменяли фотографии в стиле известных художников. Именно с этого мы начинали набирать экспертизу в сфере компьютерного зрения.

Потом появились более практичные решения. Например, «Облако» VK объединяет все фотографии конкретных людей по папкам, распознает достопримечательности и объекты на снимках. Если это Эйфелева башня, так и подписываем.

То есть начинали мы в B2C, и первые решения были заказаны нашими продуктовыми командами. Это не был облачный продукт в классическом виде, не SaaS и PaaS.

Но как и многие другие вещи, в которых мы приобрели экспертизу, мы решили предложить компьютерное зрение рынку. Так у нас появилось подразделение, которое стало предлагать зрение как B2B-решение. Проект назвали Vision. Из «коробочного» в нем только API: можно распознавать номера машин, людей и другие коробочные кейсы. Все остальные решения на данный момент разрабатываются индивидуально под заказчика.

Чуть позже у нас появился и Sounds — это аудиоаналитика, которая стала вполне логичным дополнением к зрению.

— В каком состоянии сейчас рынок видеоаналитики?

Этот рынок сейчас формируется. У всех есть понимание, что нужно двигаться в сторону внедрения машинного обучения, в частности видеоаналитики. Что это дешево, надежно, практично и в некоторых случаях даже экономично, потому что позволяет экономить на зарплате персонала и в перспективе окупается. При этом эффект стоит считать не путем прямого сравнения зарплаты охранника в магазине и стоимости оборудования с разработкой и внедрением. Нужно смотреть в целом на комплекс перспектив и масштабирование — тогда история становится интересной.

Возьмем примеры из ритейла. В этой отрасли у всех игроков есть похожая задача — развитие программы лояльности. Не проблема подключить камеры, программное обеспечение. В результате ритейлер будет автоматически добавлять информацию о клиенте в СRM — что, сколько и когда он покупал. Кажется, что это просто: ритейл напичкан камерами. Но проблема в том, что это камеры безопасности. Задача камеры — просто фиксировать происходящее. Те, кто их выбирал и устанавливал, не думали, что камеры будут использовать для видеоаналитики.

Поэтому существующие камеры, как правило, снимают в плохом качестве и сверху — видны только макушки людей. На этих данных можно построить программу лояльности разве что для клиники пересадки волос. Если же решать задачу нормально — нужно размещать камеры на уровне глаз покупателей, например на кассах. Но как только начинается разговор о необходимых изменениях, оказывается, что это уже заметные бюджеты для пилота.

— Ты говорил о том, что рынок видеоаналитики даже не в стадии роста, а только начинает формироваться. Ситуация характерна для всех отраслей?

Если говорить о зрелости и востребованности систем компьютерного зрения и оставить за скобками порноиндустрию, которая здорово драйвит и видеоаналитику, и многие другие современные технологии, то впереди планеты всей, пожалуй, системы управления доступом. В реальных бизнес-кейсах чаще всего используется автоматизация доступа по лицу. Эти кейсы просты и понятны. Во многом благодаря Голливуду — редкий современный блокбастер обходится без прохода кого-нибудь куда-нибудь или поиска кого-то по отпечатку или фото. Тут уже есть внятный спрос и, как результат, — готовые коробочные решения, которые подключаются к внутренним процессам организации.

Но сверх этого клиенты пока что плохо понимают потенциал видеоаналитики. Ведь можно не просто пускать человека куда-то, но и делать это по событию, например убедиться, что он в каске. Что он выполнил все необходимые манипуляции, покидая территорию опасного производства.

Подобные задачи не автоматизированы, приходится прыгать от клиента к клиенту в буквальном смысле слова, объясняя возможности современных технологий. И пока что решение, придуманное для одного заказчика, не подойдет другому. Именно это я имел в виду, когда говорил о зачаточном состоянии рынка. Все друг на друга непохожи, и никто пока не понимает, чего хочет.

— Приходится кастомизировать продукт под каждого клиента?

Да. Рано или поздно такие решения станут коробочными. Но для этого нужно в каждой индустрии сделать по 10–15 рабочих кейсов, чтобы хотя бы один кто-то захотел повторить.

— Каков уровень оснащенности качественной видеоаналитикой городов, крупных общественных и социальных объектов? Часто слышишь, что многие проекты уже функционируют, степень автоматизации достаточно высокая.

Эта история очень живая. Мы встречались с представителями многих крупных областей и регионов — у всех есть интерес и задача запустить проект «Умный город». Другое дело, что, по слухам, где-то «умный город» был реализован как город с бесплатными ларьками по раздаче книг. Я не проверял, правда это или нет, но это очень красивый пример, иллюстрирующий то, как «на местах» может восприниматься само понятие «умный город». Так что здесь нужен очень мощный консалтинг, который, кстати говоря, у нас тоже появился в результате переговоров. Мы формируем экспертную группу, погружаем ее в предметную область.

Но есть и хороший сценарий. Есть регионы, в которых хорошо знают эту сферу. С ними мы обсуждали установку звуковой аналитики на мачты городского освещения. И что немаловажно — запрос и желание заниматься этим были именно у заказчика. В столбы нужно было монтировать микрофоны, которые реагируют на сигналы опасности: столкновения машин, крики «пожар» и так далее. Этакий «Окей, столб». И это, на мой взгляд, классический пример правильных инициатив в части создания умных и безопасных городов. Разговор стал возможен только потому, что специалисты от региона четко знали, чего хотели.

— Раз заказчик не всегда понимает выгоду новых технологий, его потребности формулируют профессиональные команды подрядчика, производителя, вендора?

Без консалтинга или приобретенной внутренней экспертизы эти истории будут продаваться и внедряться очень медленно. Пройдут годы, пока пионеры запустят свои стартапы, которые станут популярными и востребованными во всем мире.

Поэтому VK активно консультирует предпринимателей как в этой части их бизнеса, так и в вопросах создания облачной инфраструктуры.

— Ты считаешь это нормальной стадией развития рынка?

Дело в том, что это не просто рынок — это уже наука. И говоря о современных технологиях, это надо понимать. То есть, строго говоря, внедрение новых решений, созданных искусственным интеллектом — это не диалог продавца-покупателя, это разговор двух инженеров, владеющих навыками оценки и построения бизнес-процессов. И таких людей не хватает.

И компании, конечно, разные. Есть ребята, которые сориентировались и инвестировали в команды. Эти команды достаточно продвинутые, чтобы не изобретать постоянно велосипед. Мудрые команды идут за внешней экспертизой и применяют внешние решения, которые будут точно лучше, поскольку их создавали эксперты. А сама команда занимается специфическими бизнес-задачами и развитием компании, вместо инвестиций в непрофильные отрасли.

Есть бизнесы, владельцы которых далеки от ИТ. В лучшем случае там есть кто-то вроде директора по цифровым технологиям или инновациям. Эта должность — расстрельная практически в любой такой компании, потому что, если команда не собрана и нет карт-бланша, то, скорее всего, ему приходится очень тяжело. ИТ-директор один справиться не может, обращается к брендам вроде нас, чтобы мы помогли ему все это упаковать и «продать» своему руководству.

Чем дальше, тем сложнее будет внедрять современные технологии в бизнес — это всегда R&D, а исследования не могут быть быстрыми, бесплатными и гарантированно результативными. Если у компании есть желание использовать современные технологии — то надо быть готовым в них инвестировать. В правительственных, государственных, муниципальных организация это ещё сложнее. Это не бизнес, с ними сложно разговаривать на языке цифр, да и эффект в таких проектах измерять сложнее.

— Какое решение вы считаете наиболее перспективным в экономическом плане?

Например, распознавание лиц на массовых мероприятиях в контексте правительственных заказов. Эта история уже всем понятная и сформировавшаяся.

Нам интереснее идти в сторону b2b-продаж, в автоматизацию технических, технологических процессов на предприятиях. Туда, где аналитика помогает автоматизировать текущий процесс или найти проблему.

В добывающей промышленности специальные вахтовые сотрудники из руды достают арматуру — уж не знаю, как она туда попадает. Но кто-то всегда стоит на круглосуточной вахте и эту арматуру из руды достаёт. То же самое — забытые вещи в метро, когда в поле зрения появляется предмет, которого там раньше не было. Всё это легко автоматизировать. И эти вещи не связаны с распознаванием лиц, на которых специализируются другие компании на этом рынке. Такие задачи нам интересны. Задачи, в которых мы с вами применяем свои глаза, чтобы что-то заметить, и которые технологии уже позволяют автоматизировать.

Со звуковой аналитикой то же самое. Мы не идем в распознавание голоса, в синтез и анализ, которые уже кое-как людям знакомы. Мы идём в анализ технологических и производственных шумов. Например, в темном складе бестолку снимать, но по звуку можно определить проникновение. В том же автомобиле есть датчики состояния двигателя, но мы всё равно реагируем на звук: колесо застучало, колодки посвистывают, двигатель затроил. Это все можно легко отдать в аудио-аналитику. И на таких кейсах мы сосредоточены.

— Всё чаще принято прибегать к использованию переферийных вычислений при сборе информации, обработке части данных уже на стороне устройств. Число проектов с такими требованиями растет?

При внедрении решений по видеоаналитике мы столкнулись с тем, что в торговых центрах очень дорогой интернет. Все находящиеся в нем компании пытаются ограничиться оплатой онлайн-эквайринга и других затрат стараются не допускать. Наверняка рано или поздно всё поменяется, интернет в торговых центрах станет дешевле, но пока коммуникационные услуги там дороги.

Соответственно, у нас возникла проблема с дорогим трафиком. Потому что классический вариант — сфотографировал, отправил на серверы, где обрабатывается информация — не подходил. Поэтому мы установили сервер, который все раскладывал по полочкам, у клиента. Нам сервер уже отправлял поток бинарников или разложенные маски. То есть не сами фотографии, а результат обработки. В таком виде схема стала рабочей и более экономичной.

— Как будет развиваться рынок видеоаналитики в ближайшее время в нашей стране? Какие факторы будут на него влиять?

Рынок родится. Не только в контексте распознавания, госзаказов видео в метро и поиска злоумышленников. Прежде чем он станет массовым, должно пройти несколько десятков конференций, на них должны быть представлены сотни успешных кейсов.

— Сейчас в стране недостаточно успешных и массовых примеров реализации?

Публичных очень мало.

— Имеет ли значение цикл окупаемости, после которого можно говорить о преимуществах?

Я бы не сказал, что аудио- и видеоаналитика — дорогое решение, после внедрения которого нужно долго ждать эффект. Выгоды можно получить практически сразу.

Есть примеры и имиджевых историй. Мы сейчас пилотируем один из таких проектов. Например, на подъемниках стоят очереди. Как только камера фиксирует скопление людей, автоматически запускается еще один подъемник. Этот кейс не про деньги в буквальном смысле, но при этом он четко показывает пользу технологий.

— Часто слышишь от бизнеса, что эффект от автоматизации необязательно измерять деньгами, что предприниматели извлекают другие нематериальные выгоды от внедрения инноваций.

Заказчик часто приходит с идеей внедрить что-то интересное. А потом появляются цифры и факты: стоимость интернета, закупка оборудования, появляются дополнительные расходы. В конечном итоге деньги становятся главным аргументом. В бизнесе это так, и это правильно.

— Есть проект, который удивил тебя своим функционалом?

Я бы не назвал это удивлением. История о работе социальных статусов в Китае, когда граждан с низким статусом куда-то не пускают, им нельзя купить билет. Это как-бы эффект «приплыли». Китай в этой части впереди планеты всей. Это прямо одна из серий «Черного зеркала».

— Такое решение было бы невозможным, если бы не было интеграции с базами данных о людях. В РФ ведется много дискуссий по обмену данными и его качеству. Сталкиваетесь ли вы в своих проектах с проблемой использования данных?

Если говорить об обезличенных данных, то обогащать их, совмещать с другими данными, менять их формат технически несложно.

Но когда мы говорим о распознавании лиц, то данные уже не обезличены. Здесь возникает много вопросов, связанных с privacy. Что ты можешь о человеке передавать, в каком формате, какую информацию можно о нем получать? Эта задача в отрасли абсолютно не легализирована, не отрегулирована.

Я не занимаюсь предсказаниями, но думаю, придётся несколько раз ошибиться, несколько раз попасть в жернова этой системы и нам, и заказчикам, чтобы инициировать законодательную инициативу по этому поводу. Все знают, что есть приватная жизнь, ее надо защищать. А как ее соотносить с компьютерной аналитикой, что можно делать, что нельзя? И сейчас все работают в этой сфере, как слепые котята.