Чтобы большие данные приносили прибыль, пользователям необходимо принять множество решений. Корпорация Intel видела множество подходов к построению стека аналитики и их архитектурные затруднения. В этой статье рассмотрены факторы, которые помогут сделать проект успешным.
ИТ-руководителям необходимо определить, как далеко нужно передать данные до их оптимизации и анализа. Два самых практических выбора, но каждый имеет свои недостатки и преимущества.
С другой стороны, необходимость тщательного исследования необработанных данных может замедлить процесс анализа, а «озера данных» неизбежно сохраняют данные, которые, в конечном счете, не нужны.
Для Патриции Флорисси (Patricia Florissi), глобального директора по технологиям продаж и выдающегося инженера EMC, преимущества перевесили количество недостатков.
«Должна быть возможность выполнения аналитики без необходимости перемещения данных», — говорит она.
В своих решениях для «озер данных» EMC хранит необработанные данные из различных источников в нескольких форматах. Этот подход предоставляет аналитикам доступ к большему количеству информации и позволяет найти то, что может быть потеряно в случае выполнения предварительной очистки данных или удаления потенциально ненужной информации.
Флорисси добавляет, что для крупных аналитических проектов может требоваться несколько «озер данных».
Медиаконгломерат AOL также использует «озера данных», по словам Джеймса ЛаПлейна (James LaPlaine), директора по информационным технологиям компании. Компания ежедневно участвует в миллиардах сделок, и, по мнению ЛаПлейна, на копирование огромных наборов данных уходит много времени. Если оставлять данные в исходных форматах и перемещать из источника их получения непосредственно в общедоступное облако, можно избежать расходов на их копирование по внутренней сети.
Мы хотим, чтобы наш широкий набор данных был в одном месте. Это обеспечит единый источник достоверных данных для всей компании.
Какой тип базы данных использовать
Для аналитического проекта важно выбрать правильную базу данных, в которой учитываются такие факторы, как количество данных, форматирование и задержка.
Проект, для которого корпорация Intel заменила базы данных, по словам Сафа (Safa), задействовал расширенные запросы «с использованием данных из нескольких невзаимосвязанных источников». Выполнение запроса в базе данных SQL занимало четыре часа. При использовании базы данных в оперативной памяти на это потребовалось 10 минут. Но он отмечает, что базы данных в оперативной памяти подойдут для всех областей применения. Необходимо всегда учитывать бизнес-цели для поставленных задач.
В качестве отправной точки, по мнению Сафа, необходимо учитывать особенности проекта: требуются ли ему шаблоны или высокая точность.
По его словам, распределенные базы данных, которые хранят данные в разных форматах (например, Hadoop), отлично работают для проектов, ориентированных на поиск тенденций. В данных случаях несколько неточных результатов обработки данных существенно не изменят общий результат.
С другой стороны, Сафа считает, что «при поиске местонахождения определенных материалов в процессе производства потребуется 100% точность и отсутствие задержек».
Для этого требуется более структурированная база данных и с большим количеством элементов управления, настроенных на результаты в реальном времени. В зависимости от определенных потребностей компания может выбрать платформу обработки данных в оперативной памяти или базу данных NoSQL, ориентированную на производительность. Хотя множество типов аналитических баз данных имеют взаимосвязанные возможности, их функции существенно отличаются.
Классификация данных — это интенсивный труд, но важно выполнить его правильно.