Ликбез

Пять важных фактов про анализ неструктурированных данных

Время чтения 9 минут

Факт 1: у неструктурированных данных все-таки есть структура

Забавный факт про неструктурированные данные — то, что структура в них чаще всего есть. Только этот порядок может быть совсем не предназначен для обработки машинными средствами. Также бывают случаи, когда структура слишком сложна и неочевидна. Поэтому неструктурированные данные корректнее называть «данными, плохо подготовленными для машинной обработки». Анализ неструктурированных данных сложнее, несмотря на то, что у них есть некая упорядоченность.

Факт 2: неструктурированных данных очень много

Неструктурированные данные найти куда проще, чем структурированные. Например, книга, лежащая на вашем столе. Внутри нее есть страницы и главы, но машинам сложно обработать текст и извлечь из книги какую-то пользу. Ваши фотографии в телефоне — тоже пример таких данных: точно известно время и место съемки, но основная информация спрятана в изображении и ее сложно извлечь.

Данные метеонаблюдений, хотя и упорядочены (место замера, единицы измерения, время), тоже с трудом поддаются анализу машинными средствами. Чтобы извлечь пользу из погодных замеров, нужно собрать большие выборки из разных мест за разные периоды, построить модели прогнозирования погоды. Тогда, может быть, вам откроется в них что-то интересное (или нет).

Неструктурированные данные — это и данные о работе автомобильных двигателей, страницы в интернете, наблюдения за звездами, фотографии с камер безопасности, сканированные документы. И даже эта статья.

Факт 3: преимущества использования неструктурированных данных

Когда начинаешь очередной проект по анализу неструктурированных данных, никогда не знаешь, что там попадется.

Попытка проанализировать и установить связи между разрозненными страницами в интернете привела к созданию поисковика Google. Попытки проанализировать тексты из книг и сайтов привели к созданию семантических алгоритмов, понимающих смысл этих текстов. Попытки проанализировать параметры двигателей самолетов во время полета привели к системе предсказания неисправностей в турбинах.

Польза от работы с неструктурированными данными есть всегда. Она может быть разной — новые технологии, экономия денег, ускорение процессов или открытие новых галактик. Но факт есть факт: бесценные сокровища лежат прямо под нашим носом.

Факт 4: для работы с неструктурированными данными нужны особые методы

Структурированные и неструктурированные данные обрабатывают и анализируют по-разному. Классические компьютерные алгоритмы бесполезны при работе с неупорядоченными данными. Поэтому существуют отдельные типы инструментов, созданные специально на этот случай:

Алгоритмы и методы датамайнинга. Они применяются, когда у вас есть куча информации, но вы не понимаете, что из нее можно выкопать. Датамайнинг позволяет найти интересные паттерны или сложную структуру внутри кажущегося хаоса.
Алгоритмы обработки естественных языков. Эти ребята применяются для анализа любых текстов и разговоров на обычных человеческих языках. Чтобы разобраться в наших с вами словах, используется куча разных математических моделей, статистика и машинное обучение. И даже такой набор инструментов не всегда помогает понять, о чем идет речь — жаргон, сарказм, пословицы, образные сравнения сильно усложняют машинам понимание речи.
Машинное обучение. Классификаторы, нейронные сети, векторные машины — все эти хитрые математические модели могут работать практически с любыми типами данных. Делать они тоже могут многое — предсказывать, преобразовывать, распознавать. Могут даже создавать новые данные: вспомним забавные приложения, которые сами рисуют полноценные картины из небольшого наброска в несколько линий.

Сервисы машинного обучения в облаках помогают использовать неструктурированные данные на практике: распознавать лица, объекты, номера автомобилей, анализировать интонации речи.

Например, сеть медицинских клиник «Инвитро» запустила в облаке VK проект по распознаванию лиц пациентов — это помогло ускорить регистрацию на прием к врачам, уменьшить очереди, повысить лояльность клиентов.

Факт 5: всем нужно быть готовыми к работе с неструктурированными данными

По мере развития IT-технологий программисты выгребают из упорядоченных данных всё, что можно. При этом количество неупорядоченных данных растет, а желающих копаться в них по-прежнему не так много.

Если этот тренд будет продолжаться, уже совсем скоро эти два противоположных процесса приведут к тому, что все задачи по поиску новых технологий, решений и моделей сведутся к обработке и анализу неструктурированных данных. Именно к этому нам с вами нужно готовиться — накапливать информацию, осваивать методы работы и инструменты, изучать опыт других инженеров. Человечество собрало много фруктов на нижних ветвях информационных технологий, теперь нам всем придется лезть повыше.

Что еще почитать о данных:

big data большие данные тенденции