• <Подробнее см. Intel.com

Примеры в области аналитики больших данных: определение геномной последовательности

Специалисты Университета Северной Каролины в Чапел-Хилл используют большие данные для улучшения лечения пациентов посредством технологий определения геномной последовательности

Чарльз Шмит (Charles Schmitt), директор отдела информационных исследований в RENCI, UNC

 

Университет Северной Каролины в Чапел-Хилл (UNC) решил инвестировать значительные средства в технологии определения геномной последовательности для обеспечения надлежащего уровня лечения в своей системе здравоохранения, а также для проведения дальнейших геномных и биологических исследований. Данная инициатива действует в рамках всего учреждения и требует значительных ресурсов. Для ее проведения необходимо обработать и проанализировать тысячи отдельных геномов в рамках тех или иных потребностей лечащих врачей и исследователей.

Обработка такого большого объема данных выполняется в три этапа. Все начинается с практического исследования, во время которого берется образец ткани пациента. После этого 11 производственных геномных секвенаторов с высокой пропускной способностью от Illumina и Pacific Biosciences генерируют сотни миллионов коротких последовательностей ДНК для каждого пациента. Получив эти данные, исследователи используют параллелизированные вычислительные процессы, чтобы снова выстроить геном и проверить качество повторного построения — исправить в нем ошибки.

После соединения геномов мы переходим ко второму этапу, в ходе которого определяются индивидуальные варианты. При этом часто используются большие группы пациентов во избежание погрешностей в индивидуальных данных последовательности. Эти данные организуются в гибридное решение, которое использует реляционную базу данных для хранения канонических вариаций, высокопроизводительных файловых систем для обработки данных и подхода на основе системы Hadoop* для ресурсоемкого анализа. Ссылки на общедоступный домен и частные базы данных помогают исследователям определять влияние вариаций на формирование белков, связаны ли варианты с клиническими релевантными состояниями, а также с другими известными характеристиками вариации.

В конце создается отчет для врачей — это третий этап процедуры. Ключевым моментом на этом этапе является процесс, который называется "клиническое группирование". В ходе этого процесса используется уникальная программа, разработанная в UNC. В рамках этого процесса назначается клиническая релевантность для каждого варианта, позволяя врачам и пациентам определять типы вариантов, которые относятся к ним. После группировки вариантов врач может получить необходимую информацию о конкретном пациенте на специальном веб-сайте. На этом этапе также выполняется общее исследование — взятие крови, анализ и составление отчета — и несколько исследований, во время которых проводится независимая проверка идентифицированных вариантов.

Основой нашего решения является большой потребительский кластер, который использует 50 блейд-серверов на базе процессоров Intel®, обрабатывающих до 30 геномов в неделю. На данный момент у нас имеется от 200 до 300 терабайт геномных данных в большой системе EMC Isilon*.

Управление геномными данными регулируется посредством технологии сети на основе данных UNC, которая называется Enterprise iRODS*. Безопасность конфиденциальных и личных геномных данных пациентов обеспечивается встроенной технологией UNC Secure Medical Workspace*.

Система Hadoop позволяет выполнять узкоспециализированный анализ, который был бы недоступен в традиционном средстве бизнес-анализа или работал бы в структуре реляционного типа SQL. Наши средства анализа хорошо дополняют структуру MapReduce*. Еще одна проблема заключается в том, что тесты с базами данных, которые используют извлечение, преобразование и загрузку (ETL), отнимают слишком много времени при работе с большими объемами данных. При использовании Hadoop ETL не применяется; мы просто добавляем файл в систему.

За последнее время мы многое узнали об аналитике больших данных. Например, мы инвестировали в несколько технологий, предназначенных для обеспечения гибкости рабочих процессов на различных вычислительных кластерах — прежде чем мы поняли, что нам действительно нужно. Лучше бы мы занялись вместо этого чем-то другим и уделили бы основное внимание нашим особым потребностям в области аналитики для имеющейся у нас инфраструктуры. Достичь нужного баланса всегда очень сложно.

Лучше всего у нас получилось сохранить адаптируемость в наших рабочих процессах и остаться гибкими в технических подходах. В конце концов, определение геномной последовательности — это новая технология, и все быстро меняется. Сегодня люди задают все новые и новые вопросы. Информационные решения должны меняться также быстро.

Чарльз Шмит (Charles Schmitt)

Чарльз Шмит (Charles Schmitt)

 

"Система Hadoop* позволяет нам выполнять узкоспециализированный анализ, который был бы недоступен в традиционном средстве бизнес-анализа или работал бы в структуре типа SQL".

Видеоролики. в данном разделе могут быть представлены материалы на английском языке.

Другие видеоролики.