Twitter повышает производительность Hadoop*

Узнайте, как Intel и Twitter объединились для повышения производительности кластеров Twitter Hadoop путем оптимизации хранилища. Устранение узких мест хранилища позволило Twitter ускорить процессы и сократить занимаемое хранилищем место в центре обработки данных, в результате чего снизилась совокупная стоимость владения.

Аналитика данных

Новый уровень бизнес-инновации требует ускоренного получения аналитической информации. Начните с продукции и технологий Intel®.

Подробнее

Текст:

Ежедневно создаются сотни миллионов твитов, а это более 1 триллиона событий для центров обработки данных Twitter. Именно поэтому Twitter является одним из крупнейших пользователей Hadoop в мире.

Hadoop помогает хранить события и выполнять анализ этих данных. Типичный кластер Hadoop в Twitter может включать более 100 000 постоянно используемых жестких дисков, однако им трудно обеспечить достаточную скорость операций ввода-вывода для того, чтобы приложения могли осуществлять быстрый доступ к данным. При этом часто поток данных HDFS и поток временных данных под управлением YARN совпадают во времени, что создает узкие места для производительности. С этим что-то нужно было делать.

Благодаря помощи корпорации Intel, Twitter разработал новое решение Hadoop с использованием программного обеспечения Intel® Cache Acceleration (Intel® CAS) для выборочного кэширования временных файлов YARN на быстром твердотельном накопителе.

Два потока данных перестали конкурировать за ресурсы, поэтому интенсивность использования жестких дисков снизилась, а Hadoop смог обрабатывать данные быстрее.

Удаление узкого места в системе ввода-вывода хранилища данных позволило компании Twitter сократить общее количество стоек в кластере и сделать центр обработки данных компактнее. Благодаря использованию меньшего количества более крупных жестких дисков удалось на 75 % сократить общее число накопителей в кластере без снижения производительности.

Twitter теперь может пользоваться преимуществами большей мощности процессоров, перейдя от 4-ядерных на 24-ядерные процессоры. Меньшее количество систем, жестких дисков и стоек в кластерах Hadoop означает снижение расходов на техническое обслуживание и уменьшение энергопотребления при сохранении тех же результатов работы.

Оптимизация производительности хранилища привела к увеличению скорости работы и снижению общей стоимости владения. Таким образом, кластер Hadoop в Twitter можно продолжать масштабировать по мере увеличения объемов данных, предоставляя все возможности, необходимые пользователям.