Сбор данных — первый шаг к аналитике. По мере развития периферийных технологий и Интернета вещей все больше разнообразных устройств используются для сбора все большего количества типов данных. Технологии Intel® работают, помогая упростить и ускорить процесс сбора данных из многочисленных источников и их сохранения в центре облака.
Что такое сбор данных?
Сбор данных или обработка данных — это первый шаг в конвейере данных, предусматривающий сбор информации из разнообразных источников. Цель сбора данных — предоставить необходимую информацию для бизнес-аналитики, исследований и принятия решений. Во многих случаях решения на основе данных могут приниматься в месте генерирования данных. Например, на умном производстве компьютерное зрение с ИИ может использоваться для контроля качества готовой продукции на производственной линии. В других случаях анализ может занимать намного больше времени и включать обработку нескольких петабайт данных, например, в таких сложных вычислительных задачах как геномное секвенирование. По мере развития интернета вещей, периферийных технологий и технологий ЦОД, методы и решения сбора данных становятся все более разнообразными.
Структурированные и неструктурированные данные
Существует два основных типа данных: структурированные и неструктурированные. Некоторые эксперты также используют термин полуструктурированные в отношении данных, имеющих характеристики обоих первых типов.
- Структурированные данные — это конкретные организованные данные, которые можно легко считывать и интерпретировать на основе реляционных баз данных. Обычно это иерархические данные, которые можно легко сравнивать. К структурированным данным относятся данные по финансовым транзакциям, данные систем управления взаимоотношениями с клиентами (CRM), данные систем управления ресурсами предприятия (ERP), данные медицинских карт и т. д.
- Неструктурированные данные носят более качественный характер и изначально менее организованы или упорядочены. Наборы неструктурированных данных сложно включать в иерархии, и они существенно опережают аналитику, оставляя большую часть данных "в темноте" или без анализа со стороны организации, которая производит и сохраняет эти данные. Обычно для хранения неструктурированных данных и доступа к ним используются нереляционные базы данных. В качестве примера неструктурированных данных можно привести аудиофайлы, файлы PDF, посты в социальных сетях, отзывы клиентов или архивные документы.
И структурированные, и неструктурированные данные могут собираться с метаданными, то есть с данными о самих этих данных. Например, цифровые камеры собирают метаданные о дате и времени съемки и оборудовании камеры, и эти метаданные включаются в файл цифровой фотографии.
Источники и способы сбора данных
Сбор данных описывает один из двух процессов: аналитики могут собирать и курировать информацию в базах данных и переносить ее в ЦОД или облачную среду для обработки; в то время как датчики интернета вещей, камеры и другие устройства могут собирать данные на периферии. Во многих случаях при работе с периферийным Интернетом вещей эти данные обрабатываются практически в реальном времени на периферийных серверах, что позволяет использовать их для автоматизированного обнаружения дефектов на умных заводах, интеллектуального управления трафиком в умных городах и т. п. Данные, собираемые на периферии, также можно перемещать в облако для дальнейшей обработки и анализа.
Источники и способы сбора данных стали более диверсифицированными и теперь включают:
- Устройства и датчики Интернета вещей: с развитием периферийных технологий появилась возможность сбора данных с помощью автоматических процессов из беспрецедентного количества источников, включая датчики на промышленном оборудовании, канализационных трубах, мостах и т. .п., устройства мониторинга пациентов и многие другие устройства.
- Сбор аудиовизуальных данных: По мере того как решения теперь включают анализ неструктурированных данных, в том числе аудио, изображение и видео, сбор этих данных стал беспрецедентно важным. Файлы с этими неструктурированными данными занимают намного больше места, и для их обработки требуется больше вычислительной мощности.
- Аналитика в реальном времени: аналитика в реальном времени позволяет собирать и анализировать потоки данных на непрерывной основе. Например, датчики емкости помогут ретейлерам соблюдать требования общественного здравоохранения и отправлять оповещения в реальном времени при достижении или превышении безопасной емкости.
- Анонимизированный сбор данных: В связи с требованиями конфиденциальности возникла необходимость анализировать некоторые данные без их привязки к физическому лицу, к которому они относятся. Сбор и обработка данных теперь могут включать группировку по демографическим параметрам без доступа к определенным персональным данным.
- Курирование данных: Профессиональные аналитики специализируются на организации структурированных источников данных для поддержки сложного анализа таких аспектов как секвенирование генома, климатология и финансовые прогнозы. В связи с объемом этих наборов данных для их анализа обычно требуется инфраструктура высокопроизводительных вычислений.
Современная стратегия сбора данных может включать широкий спектр таких методик и источников.
Устройства сбора данных на периферии
Технологические требования стратегии сбора данных зависят от того, где генерируются данные и чего организация хочет добиться с помощью этих данных. Существует два важных преимущества обработки данных в том месте, где они собираются или генерируются. Первое преимущество заключается в том, что рабочие нагрузки не нужно перемещать в облако, так что организации могут сэкономить за счет более низких требований к сетевой инфраструктуре. Второе преимущество заключается в том, что обработка данных в месте их генерирования обеспечивает аналитику практически в реальном времени.
Устройства интернета вещей могут воспользоваться преимуществами процессоров машинного зрения Intel Atom® или Intel® Movidius™ Myriad™ X для обеспечения необходимой производительности для аудио-визуальных или сенсорных потоков на периферии. В зависимости от сценария использования, эти процессоры также хорошо подойдут для использования в небольших корпусах или даже на открытом воздухе. В случае периферийных рабочих нагрузок с большими объемами данных, таких как логическая обработка данных ИИ на нескольких видеопотоках, устройства ИИ и периферийные серверы с процессорами Intel® Core™ 11-го поколения или масштабируемыми процессорами Intel® Xeon® 3-го поколения обеспечивают более высокую пропускную способность данных, чем сами по себе периферийные серверы. Эти серверы также открывают более широкие возможности связи с разъемами расширения PCIe, благодаря чему системные интеграторы могут добавить дополнительные ускорители для конкретных моделей развертывания.
Технология сбора данных для облака и ЦОД
Перенос вычислительных нагрузок на периферию не всегда целесообразен. Если для конкретного решения требуется быстрое вертикальное масштабирование ресурсов сверх уровня, доступного на периферийном устройстве, то обработка данных в облаке будет более эффективной. Некоторые рабочие задачи требуют таких объемов вычислительных ресурсов, памяти и ресурсов хранения, что для своевременного генерирования результатов им требуется инфраструктура ЦОД или высокопроизводительных вычислений. В этих случаях технологии сбора данных будут наиболее эффективными в сбалансированной конфигурации, сочетающей в себе ключевые усовершенствования для вычислительных систем, систем хранения и сетевых систем и обеспечивающей более эффективное использование платформы и доступность данных.
- Обработка: Масштабируемые Intel® Xeon® 3-го поколения идеально подходят для рабочих задач сбора данных в облаке или ЦОД. Эти процессоры обеспечивают в 1,92 раза более высокую производительность аналитики по сравнению с четырехпроцессорными платформами пятилетней давности 1 и при поддержке технологии Intel® DL Boost с BF16, в 1,93 раза более высокую производительность классификации изображений с помощью ИИ по сравнению с предыдущим поколением при выполнении задачи ResNet50 для классификации изображений2.
- Сеть: Сетевые адаптеры Intel® Ethernet серии 800 поддерживают скорость до 100GbE в разных форм-факторах, разнообразные операционные системы и гибкую конфигурацию портов. Встраиваемые технологии, такие как Dynamic Device Personalization (DDP), помогают снизить время задержки с программируемым поведением для обработки пакетов.
- Хранение данных: SSD-накопители Intel® Optane™ для ЦОД обеспечивают исключительно высокую скорость чтения-записи, большой объем для повышения плотности хранения и опции интерфейсов PCIe, позволяющие размещать данные ближе к процессору.
Ваша комплексная стратегия сбора данных
Обширный портфель Intel от периферии до облака обеспечивает производительность, пропускную способность и доступность данных, необходимые для быстрого, согласованного и надежного сбора и обработки данных. Корпорация Intel предлагает комплексный фундамент для вашего конвейера данных, позволяя использовать интеллектуальные периферийные устройства, сетевые решения с высокой пропускной способностью и высокую производительность вычислений с несколькими точками входа и форм-факторами. Решения Intel® позволяют организациям быстро перемещать данные, получать полезные аналитические данные и использовать их с пользой.