Twitter Boosts Performance and Cost Efficiency

Twitter increases Hadoop performance and cost efficiency with caching, fast SSDs and more compute.

Executive Overview
Storage I/O can be a significant performance bottleneck for Hadoop* clusters, especially in hyperscale deployments like those at Twitter, where a single cluster can have up to 10,000 nodes and nearly 100 PB of logical storage. The typical Hadoop cluster at Twitter contains over 100,000 hard disk drives (HDDs)—but this configuration was reaching an I/O performance limit because while HDD capacity has increased over time, HDD performance has not significantly changed.2 Therefore, simply adding more, bigger HDDs wasn’t going to solve Twitter’s scaling challenges—in fact, it would make things worse as the I/O per GB decreases. Adding more spindles per node was not feasible due to space and power limitations.

Working in collaboration with an Intel engineering team, Twitter engineers conducted a series of experiments that revealed that storing temporary files managed by YARN* (Yet Another Resource Negotiator*) on a fast SSD enabled significant performance improvements on existing hardware (up to a 50 percent reduction in runtime).3 The team also discovered that removing a storage I/O bottleneck enabled them to use larger hard drives while simultaneously increasing processor utilization, which in turn resulted in the ability to use higher-core-count processors. This positively affected storage performance, and contributed to higher data center density by reducing the number of required HDDs.

Higher density leads to total cost of ownership (TCO) savings through energy efficiency, fewer racks, and a smaller data center footprint. Overall, Twitter expects that caching temporary data and increasing core counts will result in approximately 30 percent lower TCO and over 50 percent faster runtimes, compared to their legacy production cluster configuration.1

Read the white paper - Boosting Hadoop* Performance and Cost Efficiency with Caching, Fast SSDs, and More Compute

Explore Related Products and Solutions

Intel® Xeon® Scalable Processors

Drive actionable insight, count on hardware-based security, and deploy dynamic service delivery with Intel® Xeon® Scalable processors.

Learn more

Intel® SSD DC Series

Intel® SSDs for the data center are optimized for performance, reliability, and endurance.

Learn more

Уведомления и отказ от ответственности

Доступность функций и преимуществ технологий Intel® зависит от конфигурации системы, а для их работы может потребоваться оборудование, программное обеспечение или активация сервисов. Значения производительности могут изменяться в зависимости от конфигурации системы. Ни одна вычислительная система не может быть полностью защищена. Проконсультируйтесь с производителем или продавцом системы. Подробная информация также представлена на сайте https://www.intel.ru. // Программное обеспечение и рабочие нагрузки, используемые в тестах оценки производительности, оптимизированы для обеспечения высокой производительности только с микропроцессорами Intel®. Тесты производительности, в том числе SYSmark и MobileMark, проводятся с использованием определенных компьютерных систем, компонентов, программного обеспечения, операций и функций. Любые изменения этих параметров могут привести к изменению конечных результатов. При принятии решения о покупке следует обращаться к другим источникам информации и тестам производительности, в том числе к информации о производительности этого продукта по сравнению с другими продуктами. Подробная информация представлена на сайте: https://www.intel.ru/benchmarks. // Результаты тестов производительности основаны на тестировании по состоянию на дату, указанную в конфигурациях, и могут не отражать всех общедоступных обновлений безопасности. Подробная информация представлена в описании конфигурации. Ни один продукт или компонент не может обеспечить абсолютную защиту. // Описанные сценарии сокращения затрат приведены в качестве примеров того, как конкретная продукция на базе архитектуры Intel® в указанных обстоятельствах и конфигурациях может повлиять на будущие затраты и обеспечить их снижение. Обстоятельства могут различаться. Корпорация Intel не дает гарантий относительно объемов затрат или их снижения. // Intel не контролирует и не проверяет сторонние данные тестов и сайты, упомянутые в настоящем документе. Для проверки точности упомянутых данных посетите указанный веб-сайт. // Некоторые результаты были получены с помощью расчетов или прогнозов с использованием внутреннего анализа Intel либо симуляции и моделирования архитектуры и представлены здесь в информационных целях. Реальные значения производительности могут отличаться в зависимости от изменений конфигурации и настроек оборудования или программного обеспечения вашей системы.

Информация о продукте и производительности

1

Базовая конфигурация: один процессор Intel® Xeon® E3-1230 v6 (4 ядра); 32–64 ГБ ОЗУ; 1 жесткий диск на 1 или 2 ТБ; загрузочный диск Intel S4500 240 ГБ; сетевой адаптер 1 GbE — 10 GbE; без кэширования. Тест: один процессор Intel® Xeon® Gold 6262 (24 ядра); 192 ГБ ОЗУ; загрузочный диск Intel S4500 240 ГБ; 8 жестких дисков емкостью 6 ТБ; 1 твердотельный накопитель Intel® DC P4610 6,4 ТБ; сетевой контроллер 25 GbE; кэширование с использованием ПО Intel® Cache Acceleration Software (Intel® CAS). ОС: Twitter CentOS* 6 Derivative, версия ядра 2.6.74-t1.el6.x86_64 (на базе предыдущей версии ядра 4.14.12), версия BIOS: D3WWM11, версия микропрограммного обеспечения: 0xb000021.

2

Backblaze, сентябрь 2018 г. «Жесткие диски (HDD) и твердотельные накопители (SSD): в чем разница?» https://www.backblaze.com/blog/hdd-versus-ssd-whats-the-diff/.

3

Базовая конфигурация: процессор Intel® Xeon® E5-2630 v4 с двумя гнездами, тактовая частота 2,2 ГГц (10 ядер/20 потоков на гнездо); 128 ГБ ОЗУ; 12 жестких дисков SATA 6 ТБ 7200 об/мин; 1 загрузочный твердотельный накопитель SATA; сетевой контроллер 25 GbE; 102 узла в 6 стойках. Рабочие нагрузки: Gridmix* и Terasort*. Показатель Gridmix: 3309 секунд; показатель Terasort: 5504 секунды Тест: процессор Intel® Xeon® E5-2630 v4 с двумя гнездами, тактовая частота 2,2 ГГц (10 ядер/20 потоков на гнездо); 128 ГБ ОЗУ; 12 жестких дисков SATA 6 ТБ 7200 об/мин; 1 загрузочный твердотельный накопитель SATA; 1 твердотельный накопитель 750 GB Intel® Optane™ DC P4800X на базе NVMe*; сетевой контроллер 25 GbE; 102 узла в 6 стойках. Рабочие нагрузки: Gridmix и Terasort. Показатель Gridmix: 2396 секунд; показатель Terasort: 2640 секунд ОС: Twitter CentOS* 6 Derivative, ядро.