Что такое аналитика данных?

Сейчас данные создаются быстрее, чем когда-либо. Но извлекаете ли вы из собираемых данных максимальную выгоду?

Решающую роль в создании успешной организации играет понимание данных на глубоком уровне. Аналитика данных — это процесс преобразования первичных данных в полезные знания, которые можно использовать. Чтобы организации могли проще собирать и анализировать данные практически для любых целей, на всех этапах конвейера данных можно задействовать технологии Intel®.

Преобразование данных в полезную аналитику — это разница между борьбой за выживание и процветанием для самых разных предприятий и организаций. Чтобы максимального увеличить эффективность информации, требуется аналитика данных — процесс, при котором для получения выводов анализируются первичные данные.

Несмотря на то, что почти каждая организация анализирует некоторые данные, современная аналитика обеспечивает беспрецедентный уровень понимания и знаний. Как далеко ваша компания продвигалась в культуре, основанной на данных и аналитике, и каков ее следующий шаг?

Все начинается с конвейера данных.

Понимание конвейера данных

Создание хорошо проработанной стратегии аналитики данных — это эволюционный процесс, требующий много времени и усилий. Для организаций, которые хотят сделать следующий шаг в этом направлении, важно понять, как устроен конвейер данных, а также жизненный цикл данных, которые через него проходят.

  • Прием: сбор данных
    Прием — это первый этап конвейера данных. На этом этапе данные собираются из источников и перемещаются в систему, где их можно хранить. Данные можно собирать непрерывным потоком или как серию дискретных событий.

    По оценкам IDC от 80 до 90 процентов1 процесса приема происходит одновременно в начале и в конце жизненного цикла данных. Эта информация, называемая необработанными данными, принимается, но не анализируется и не используется для принятия решений организацией.

    Сегодня одна из самых главных тенденций расширенной аналитики данных берет начало на этапе их приема. В таких случаях аналитика данных в режиме реального времени выполняется параллельно с приемом. Это называется периферийной аналитикой, и для нее требуется высокая вычислительная мощность и низкое энергопотребление. Периферий ная аналитика часто подразумевает использование устройств Интернета вещей, а также датчиков для сбора информации с таких устройств, как станки на фабриках, уличные фонари и сельскохозяйственное оборудование, или других подключенных изделий.

  • Подготовка: обработка данных
    Следующий этап конвейера — это подготовка данных для использования и хранения в системе, доступной пользователями и приложениями. Чтобы добиться максимальной качества, данные нужно очистить и преобразовать. Так доступ к ним будет проще, а запрашивать их будет легче.

    Обычно информация подготавливается и хранится в базе данных. Для получения и анализа данных используются различные типы баз данных в разных форматах и целях. Обычно обработку структурированных наборов данных осуществляют системы управления реляционными базами данных SQL*, такими как SAP HANA* или Oracle DB*. Такие наборы данных могут содержать финансовую информацию, отчеты о проверке учетных данных и сведения об отслеживании заказов. Чтобы выполнять рабочие нагрузки для неструктурированных данных и аналитику в режиме реального времени, вероятнее всего будут использоваться базы данных NoSQL*, такие как Cassandra и HBase.

    Для оптимизации этого этапа конвейера данных требуется вычислительная мощность и большой объем памяти, а также быстрое управление данными для оперативных запросов. Чтобы размещать большие данные, также потребуется масштабирование. Чтобы доступ к самым важным данным можно было получить максимально быстро, их можно хранить и дифференцировать на основании их срочности и полезности.

    Технологии Intel® позволяют использовать базы данных, которые являются одними из самых ресурсоемких в плане систем хранения и памяти. Благодаря твердотельным накопителям Intel® Optane™ компания Alibaba Cloud* смогла обеспечить систему хранения емкостью 100 ТБ для каждого экземпляра базы данных PolarDB.

  • Анализ: моделирование данных
    На следующем этапе конвейера хранящиеся данных анализируются, а также создаются алгоритмы их моделирования. Данные можно анализировать с помощью платформ аналитики таких компаний, как SAP, Oracle или SAS. Они также могут обрабатываться такими инструментами, как Apache Spark*.

    Для получения конкурентных преимуществ крайне важно ускорить этот этап и сократить затраты на него. Сделать это помогут библиотеки и инструментарий. В то же время оптимизация аппаратного и программного обеспечения помогут снизить расходы на серверы и центры обработки данных и одновременно увеличить быстродействие.

    Расширить возможности аналитики данных и повысить рентабельность инвестиций в нее могут такие технологии, как аналитика в оперативной памяти. С помощью корпорации Intel химическая компания Evonik смогла перезапускать таблицы с данными в базе SAP HANA* в 17 раз быстрее 2

  • Действие: принятие решений
    После приема, подготовки и анализа данные можно использовать. Сообщать результаты аналитики помогает визуализация данных и отчеты.

    Традиционно для преобразования результатов в аналитику для бизнеса, которую можно применять более широко, нужно было, чтобы данные интерпретировали специалисты по аналитике. Но компании начали использовать искусственный интеллект для автоматизации действий на основе аналитики, например отправлять специалистов по техническому обслуживанию или менять температуру в помещении.

Чтобы узнать более подробную информацию о конвейере данных и о том, как организации могут развивать возможности аналитики, прочитайте нашу электронную книгу «От данных до знаний: как использовать конвейер данных максимально эффективно».

Как далеко ваша компания продвигалась в культуре, основанной на данных и аналитике, и каков ее следующий шаг?

Четыре вида аналитики данных

Существует четыре основных вида аналитики данных: описательная, диагностическая, прогнозная и предписывающая. Они представляют собой шаги по обеспечению зрелости аналитики, с каждым из которых расстояние между этапами анализа и принятия действия в отношении конвейера данных сокращается.

  • Описательная аналитика
    Описательная аналитика используется для обобщения и визуализации исторических данных. Другими словами, она говорит организациям о том, что уже произошло.
    Описательная аналитики — это самый простой вид анализа. Она может быть представлена в виде простой диаграммы с показателями продаж в прошлом году. От достоверности описательной аналитики зависит каждое аналитическое действие. Многие компании по-прежнему полагаются в основном на эту форму аналитики, которая включает в себя информационные панели, визуализированные данные и инструменты отчетности.

  • Диагностическая аналитика
    По мере того как аналитика становится более зрелой, организации начинают применять более строгие требования к своим историческим данным. Диагностическая аналитика анализирует не просто произошедшие события, а их причину. Для ее выполнения требуется, чтобы аналитики могли отправлять подробные запросы для выявления тенденций и причинно-следственных связей.
    При использовании диагностической аналитики можно обнаружить новые взаимосвязи между переменными: для компании, продающей спортивную одежду, увеличение объемов продаж на Среднем Западе может быть связано с солнечной погодой. Диагностическая аналитика сопоставляет данные с моделями и позволяет объяснить аномальные или выпадающие данные.

  • Прогнозный анализ
    Первые два вида аналитики рассматривали исторические данные. Но прогнозная и предписывающая аналитика сосредоточены вокруг будущих событий. Прогнозная аналитика предсказывает вероятные результаты на основе выявленных тенденций и статистических моделей, полученных с помощью исторических данных.
    Для разработки стратегии прогнозной аналитики требуется построить и подтвердить модели, чтобы сымитировать ситуации, когда руководители компаний смогут добиться наилучших результатов. Для прогнозной аналитики обычно используется машинное обучение с наиболее широко масштабируемыми наборам данных. Это составлять более точные прогнозы.

  • Предписывающая аналитика
    Предписывающая аналитика — еще один вид расширенной аналитики. Предписывающая аналитика позволяет получить оптимальное решение на основе прогнозной аналитики. Благодаря ей завершается эволюционный процесс принятия решений на основе данных.
    Предписывающая аналитика в значительной степени опирается на аналитику машинного обучения и нейронные сети. Такие рабочие нагрузки требуют высокой вычислительной мощности и большого объема памяти. Для этого типа аналитики необходима твердая основа на базе трех других видов аналитики. Она может выполняться только теми компаниями, которые обладают хорошо развитой стратегией аналитики и готовы выделять на это значительные ресурсы.

Примеры использования аналитики

Технологии Intel® меняют то, как современные организации выполняют аналитику. Корпорация Intel постоянно стимулирует процесс развития аналитики и помогает компаниям в различных отраслях и странах оптимизировать производительность и затраты.

  • Производство
    Контроль качества позволяет производителям автомобилей экономить деньги и спасать людей. На автоматизированном заводе компании Audi для обеспечения качества сварных швов в процессе аналитики используется выборка данных. С помощью аналитики на устройствах с периферийным аналитическим программным обеспечением корпорации Intel, производитель может автоматически проверить каждый сварной шов на автомобиле, а также прогнозировать связанные с этим проблемы на основе показаний датчиков, полученных при выполнении сварочных работ.

  • Здравоохранение
    Обучение искусственного интеллекта для анализа рентгеновских снимков грудной клетки позволяет пациентам и поставщикам медицинских услуг быстрее выполнять диагностику. Используя масштабируемые процессоры Intel® Xeon® для работы нейронной сети, исследовательская организация SURF повысила ее точность и сократила время обучения с одного месяца до шести часов.

  • Телекоммуникации
    Смартфоны и мобильный интернет привели к созданию беспрецедентного количества мобильных данных. Для повышения качества обслуживания покупателей телекоммуникационная компания Bharati Airtel выполняет передовую сетевую аналитику с помощью процессоров Intel® Xeon® и SSD-накопителей Intel®. Это позволяет быстрее обнаружить и устранить проблемы с сетью.

Технологии Intel® для аналитики

Благодаря обширной экосистеме технологий и партнеров, которые помогают компаниям в создании решений завтрашнего дня, корпорация Intel предоставляет предприятиям по всему миру передовые возможности аналитики. Корпорация Intel работает над каждым аспектом экосистемы аналитики, от центров обработки данных до периферийных устройств, чтобы обеспечить максимальную эффективность и производительность.

  • Масштабируемые процессоры Intel® Xeon® позволяют анализировать большие массивы данных с высокой скоростью, как на периферийных устройствах, так и в центрах обработки данных или облачной среде.
  • Технология Intel® Optane™ представляет собой революционный подход к памяти и системам хранения данных. Она позволяет устранить узкие места в процессе перемещения и хранения данных.
  • Технология Intel® FPGA ускоряет процессы в центрах обработки данных и улучшает их быстродействие.
  • Специализированные решения Intel® прошли проверку на оптимизированную производительность, помогают устранить проблемы выбора, а также ускоряют развертывание решений.

Часто задаваемые вопросы

Аналитика данных — это процесс преобразования первичной информации в знания, которые бизнес может использовать.

Чтобы обнаружить новые взаимосвязи и лучше проанализировать большие объемы информации, в аналитике больших данных используются широко масштабируемые наборы данных.

Расширенная аналитика — это не одна определенная технология или их набор. Это классификация для различных задач и решений, которая позволяет использовать передовые технологии, такие как машинное обучение, улучшенную аналитика и нейронные сети.

Аналитика данных используется для получения оперативной информации, которая позволяет организациям проанализировать прошлые события, спрогнозировать будущие и спланировать порядок действий.

Конвейер данных состоит из четырех этапов: прием, подготовка, анализ и действие.

Описательная и диагностическая аналитика изучают прошлые события. Описательная аналитика позволяет ответить на вопрос о том, что произошло, а диагностическая аналитика исследует причину произошедшего.

Описательная аналитика рассматривает прошлые события, чтобы создать основу для всех остальных видов аналитики. Предписывающая аналитика позволяет получить рекомендации для принятия мер на основе существующих данных и алгоритмов прогнозирования.

Прогнозная и предписывающая аналитика позволяет получать информацию о будущих событиях. Прогнозная аналитика позволяет спрогнозировать теоретические события, а предписывающая аналитика — получить рекомендации о порядке действий на основе этих прогнозов.

Прогнозная аналитика используется для получения более точного прогноза будущих событий. Прогнозная аналитика позволяет выявить потребности в техническом обслуживании до их развития или оценить наиболее вероятное воздействие экономических условий на будущие прогнозы продаж.

Другие материалы

Подробнее о технологиях Intel® для аналитики.

Аналитика данных

Узнайте, как аналитика помогает организациям в получении надежной и полезной информации и как разработать стратегию аналитики.

Извлекайте из аналитики максимальную выгоду

Расширенная аналитика данных

Умные компании начинают с расширенной аналитики. Узнайте, как добиться успеха на рынке, основанном на данных, с помощью технологий Intel®.

Разработайте умную стратегию аналитики

Аналитика машинного обучения

Получайте более глубокие знания быстрее с помощью машинного обучения и искусственного интеллекта для улучшения возможностей работы с аналитикой.

Раскройте свой потенциал в полной мере

Прогнозный анализ

Задействуйте данные для получения конкурентных преимуществ с помощью эффективных прогнозов о будущих событиях.

Загляните в будущее благодаря прогнозной аналитике

Уведомления и отказ от ответственности
Для работы технологий Intel может потребоваться специальное оборудование, ПО или активация услуг. // Ни один продукт или компонент не может обеспечить абсолютную защиту. // Ваши расходы и результаты могут отличаться. // Intel не контролирует и не проверяет сторонние данные. Для оценки точности следует обращаться к другим источникам информации.

Информация о продукте и производительности

1“What Your Data Isn’t Telling You: Dark Data Presents Problems And Opportunities For Big Businesses”, журнал Forbes, июнь 2019 г., forbes.com/sites/marymeehan/2019/06/04/what-your-data-isnt-telling-you-dark-data-presents-problems-and-opportunities-for-big-businesses/#3086fe21484e.
2Смоделированная рабочая нагрузка SAP HANA* выпуска SAP BW для версии 2 программы стандартного тестирования производительности приложений 2 по состоянию на 30 мая 2018 года. Программное обеспечение и рабочие задачи, используемые в тестах оценки производительности, могли быть оптимизированы для обеспечения высокой производительности только с микропроцессорами Intel®. Тесты производительности, такие как SYSmark* и MobileMark, проводятся для конкретных конфигураций вычислительных систем, компонентов, программного обеспечения, операций и функций. Любые изменения этих параметров могут привести к изменению конечных результатов. При принятии решения о покупке следует обращаться к другим источникам информации и тестам производительности, в том числе к информации о производительности этого продукта по сравнению с другими продуктами. Подробная информация приведена на сайте www.intel.ru/benchmarks. Результаты оценки производительности основаны на тестировании по состоянию на момент времени, указанный в конфигурации, и могут отличаться от тех, что указаны в источниках обновленной общедоступной информации. Подробная информация о конфигурации представлена в резервной копии. Ни один продукт или компонент не может обеспечить абсолютную защиту. Базовая конфигурация с традиционной памятью DRAM: сервер Lenovo ThinkSystem SR950* с 8 процессорами Intel® Xeon® Platinum 8176M (28 ядер, 165 Вт, 2,1 ГГц). Конфигурация памяти: 48 модулей TruDDR4* RDIMM с частотой 2666 МГц и объемом 16 ГБ. Конфигурация системы хранения для базы данных SAP HANA*: 5 твердотельных накопителей ThinkSystem PM1633a в форм-факторе 2,5 дюйма с емкостью 3,84 ТБ, разъемом SAS на 12 Гбит/с и возможностью оперативной замены. Операционная система — SUSE Linux Enterprise Server 12* SP3, которая использует базу данных SAP HANA* 2.0 SPS 03 с набором данных 6 ТБ. Среднее время запуска для оптимальной предварительной загрузки таблиц для 10 итераций: 50 минут. Новая конфигурация, сочетающая в себе память DRAM и энергонезависимую память Intel® Optane™ DC: платформа разработки ПО (SDP) Intel Lightning Ridge с процессором 4x CXL QQ89 AO (24 ядра, 156 Вт, 2,20 ГГц). Конфигурация памяти: 24 модуля DDR4 с частотой 2666 МГц и емкостью 32 ГБ, 24 модуля AEP ES2 с емкостью 128 ГБ, а также 1 SSD-накопитель Intel® DC серии S3710 с емкостью 800 ГБ, 3 SSD-накопителя Intel® DC серии P4600 с емкостью 2,0 ТБ и 3 SSD-накопителя Intel® DC серии S4600 с емкостью 1,9 ТБ. Версия BIOS: WW33’18. Операционная система — SUSE Linux*4 Enterprise Server 15, которая использует базу данных SAP HANA* 2.0 SPS 03 (было применено конкретное ядро PTF от SUSE) с набором данных 1,3 ТБ. Среднее время запуска для оптимальной предварительной загрузки таблиц (улучшение в 17 раз).