Создание архитектуры для аналитики

До создания системы аналитики ИТ-отделы должны изучить следующие основные вопросы.

Основные выводы

  • Хранение данных вблизи места их обработки может сэкономить время и затраты на передачу.

  • Аналитика в реальном времени создает разные наборы требований, для которых необходимы различные инструменты.

  • Управление доступом должно осуществляться в соответствии с уровнем конфиденциальности используемых данных.

BUILT IN - ARTICLE INTRO SECOND COMPONENT

Чтобы большие данные приносили прибыль, пользователям необходимо принять множество решений. Корпорация Intel видела множество подходов к построению стека аналитики и их архитектурные затруднения. В этой статье рассмотрены факторы, которые помогут сделать проект успешным.

ИТ-руководителям необходимо определить, как далеко нужно передать данные до их оптимизации и анализа. Два самых практических выбора, но каждый имеет свои недостатки и преимущества.

С другой стороны, необходимость тщательного исследования необработанных данных может замедлить процесс анализа, а «озера данных» неизбежно сохраняют данные, которые, в конечном счете, не нужны.

Для Патриции Флорисси (Patricia Florissi), глобального директора по технологиям продаж и выдающегося инженера EMC, преимущества перевесили количество недостатков.

«Должна быть возможность выполнения аналитики без необходимости перемещения данных», — говорит она.

В своих решениях для «озер данных» EMC хранит необработанные данные из различных источников в нескольких форматах. Этот подход предоставляет аналитикам доступ к большему количеству информации и позволяет найти то, что может быть потеряно в случае выполнения предварительной очистки данных или удаления потенциально ненужной информации.

Флорисси добавляет, что для крупных аналитических проектов может требоваться несколько «озер данных».

Медиаконгломерат AOL также использует «озера данных», по словам Джеймса ЛаПлейна (James LaPlaine), директора по информационным технологиям компании. Компания ежедневно участвует в миллиардах сделок, и, по мнению ЛаПлейна, на копирование огромных наборов данных уходит много времени. Если оставлять данные в исходных форматах и перемещать из источника их получения непосредственно в общедоступное облако, можно избежать расходов на их копирование по внутренней сети.

Мы хотим, чтобы наш широкий набор данных был в одном месте. Это обеспечит единый источник достоверных данных для всей компании.

Майк Бождак (Mike Bojdak), старший директор по технологиям компании AOL

Какой тип базы данных использовать

Для аналитического проекта важно выбрать правильную базу данных, в которой учитываются такие факторы, как количество данных, форматирование и задержка.

Проект, для которого корпорация Intel заменила базы данных, по словам Сафа (Safa), задействовал расширенные запросы «с использованием данных из нескольких невзаимосвязанных источников». Выполнение запроса в базе данных SQL занимало четыре часа. При использовании базы данных в оперативной памяти на это потребовалось 10 минут. Но он отмечает, что базы данных в оперативной памяти подойдут для всех областей применения. Необходимо всегда учитывать бизнес-цели для поставленных задач.

В качестве отправной точки, по мнению Сафа, необходимо учитывать особенности проекта: требуются ли ему шаблоны или высокая точность.

По его словам, распределенные базы данных, которые хранят данные в разных форматах (например, Hadoop), отлично работают для проектов, ориентированных на поиск тенденций. В данных случаях несколько неточных результатов обработки данных существенно не изменят общий результат.

С другой стороны, Сафа считает, что «при поиске местонахождения определенных материалов в процессе производства потребуется 100% точность и отсутствие задержек».

Для этого требуется более структурированная база данных и с большим количеством элементов управления, настроенных на результаты в реальном времени. В зависимости от определенных потребностей компания может выбрать платформу обработки данных в оперативной памяти или базу данных NoSQL, ориентированную на производительность. Хотя множество типов аналитических баз данных имеют взаимосвязанные возможности, их функции существенно отличаются.

Классификация данных — это интенсивный труд, но важно выполнить его правильно.

Джеймс ЛаПлейн (James LaPlaine), директор по информационным технологиям компании AOL

Способ управления доступом

В процессе обеспечения безопасности больших данных ИТ-отделы сталкиваются с известным компромиссом между предотвращением несанкционированного доступа и предоставлением необходимого доступа.

Брайан Хопкинс (Brian Hopkins), вице-президент и главный аналитик Forrester Research, рекомендует управлять доступом с помощью стандартных механизмов проверки подлинности и авторизации периметра, например паролей или многофакторной аутентификации. Но компаниям также необходимо шифровать данные и ограничивать общий доступ к данным посредством использования аппаратных ключей, говорит он.

Другие способы обеспечения безопасности данных заключаются в сохранении привилегий доступа системы, с которой были переданы данные, а также ограничения доступа к анализируемым данным, предоставляя его только лицам, выполняющим анализ.

Хотя компания AOL нацелена на то, чтобы поместить все свои данные в централизованное облако, она использует элементы управления доступом на нескольких уровнях.

Аналитик вручную просматривает данные и устанавливает уровни доступа на основе их конфиденциальности, а система проверки подлинности позволяет просматривать эти данные только тем лицам, которым предоставлен соответствующий уровень доступа.

AOL постоянно проверяет данные для обеспечения правильной классификации доступа для систем проверки подлинности, по словам ЛаПлейн. «Классификация данных — это выполняемый вручную процесс, — говорит ЛаПлейн. — Это интенсивный труд, но важно выполнить его правильно».

«Мы пытаемся сбалансировать выполнение требований аналитиков и обеспечение полной безопасности данных», — добавляет Бождак.