Трудновыполнимые задачи

Рекомендации Боба Роджерса (Bob Rogers) из компании Intel по созданию бизнес-преимуществ с помощью практически любого аналитического проекта.

Основные выводы

  • Специалисты по обработке и анализу данных регулярно сталкиваются с проблемами, которые невозможно (по крайней мере, на первый взгляд) решить с помощью аналитики больших данных.

  • Чтобы аналитика дала результаты, необходимо прежде всего правильно формулировать вопросы и выбирать оптимальные алгоритмы для решения задач.

  • Получить значимый ответ аналитикам помогают методики устранения проблем, даже если этот ответ относится к несколько другому вопросу.

BUILT IN - ARTICLE INTRO SECOND COMPONENT

Существуют способы получения значимых результатов, даже если задача кажется невыполнимой. Главный специалист Intel по обработке и анализу данных Боб Роджерс (Bob Rogers) объясняет, как этого добиться.

Я более десяти лет посвятил прогнозированию будущих доходов в качестве руководителя хеджевого фонда. Десятилетиями в нашем распоряжении были данные о тиках, однако эти данные содержали значимую случайную составляющую, из-за которой делать прогнозы с точностью выше определенного уровня было невозможно. Количество мотивов, которыми руководствуются в определенный момент времени люди при покупке или продаже, в сочетании с огромным количеством тех, кто занимается торгами, сводило на нет все попытки четко отделить нужные сигналы от прочей информации, как бы мы ни старались.

Специалисты по обработке и анализу данных называют эти задачи трудновыполнимыми; по достижении определенного показателя прогресс качества аналитики больших данных замирает на месте.

К счастью, многие задачи, которые на первый взгляд кажутся трудновыполнимыми, можно решить, изменив подход к исходным данным.

Знание того, что задачи, кажущиеся трудновыполнимыми, можно решить с помощью небольших изменений в подходе, обеспечивает успех для компании — и для спонсора проекта. С другой стороны, возможность понять, что определенную задачу решить невозможно — из-за ее масштаба — позволит сэкономить время и деньги, которые можно выгодно потратить на поиск ответа на более «узкий» вопрос.

Ниже приведены четыре метода устранения недостатков в подходе, которые позволят вам улучшить результаты аналитики. Благодаря этим рекомендациям вы больше не будете паниковать, если столкнетесь с неразрешимой задачей, а станете искать способы создания бизнес-преимуществ на основе имеющихся данных.

1. Задавайте более «узкие» вопросы

Зачастую лучше разбить исходный общий вопрос на несколько более конкретных и экстраполировать полученные данные. Если вы попытаетесь определить, с какой вероятностью автомобиль, который вы проектируете, заинтересует пользователей социальных сетей, ваши усилия вряд ли увенчаются успехом. Даже при наличии большого объема качественных данных вы получите огромное количество различных переменных, которые не позволят сформировать ценный прогноз.

Иногда добавление нового набора данных может привести к новым возможностям для прогнозирования.

Главный специалист Intel по обработке и анализу данных Боб Роджерс (Bob Rogers)

2. Усовершенствуйте алгоритм

В контексте обработки и анализа данных алгоритм не только определяет последовательность операций, которые система выполнит с набором данных, но и отражает вашу модель потенциальных взаимоотношений между элементами данных.

Иногда для создания правильного алгоритма или изменения уже существующего для определенного сценария требуется множество вариантов. (Машинное обучение имеет потенциал для автоматизации процессов совершенствования алгоритмов; за развитием этой сферы стоит пристально следить.)

Иногда добавление нового набора данных может привести к новым возможностям для прогнозирования.

Как узнать, что алгоритм не работает? К примеру, если вы увеличили производительность своего компьютера, скажем, в пять раз, а уровень сокращения времени обработки никак не соответствует добавленным ресурсам.

Другой способ проверить алгоритм — изменение его параметров. Любое незначительное изменение алгоритма должно привести лишь к небольшому отличию в результатах анализа. Если же результаты отличаются намного, есть вероятность, что вам нужен другой алгоритм.

Иногда такой исход свидетельствует о выборе алгоритма неверного типа. Зачастую выбор модели зависит от предположений о данных. Например, если предполагалось, что отношения между двумя элементами будут иметь вид линейной прогрессии, но более точное их выражение может быть представлено деревом решений.

Существует множество общедоступных библиотек алгоритмов с открытым исходным кодом. Вряд ли вам придется начинать создание алгоритма с нуля.

3. Очистите данные

Это традиционная задача для ИТ-специалистов. Если исходные данные содержат лишние элементы, результат будет соответствующий. В идеале эту задачу необходимо решить до начала любого аналитического проекта, однако причины проблем при обработке и анализе набора данных зачастую неясны, пока вы не приступите к анализу

4. Используйте другие данные

Это несколько более сложная вариация предыдущего шага. Чтобы получить больше данных, иногда достаточно обновить метаданные. Иногда для сбора нужных данных может потребоваться изменить некоторые процессы.

Большая часть компаний уже извлекла всю возможную бизнес-ценность из данных в традиционных хранилищах. Иногда при добавлении новых наборов данных эффективность прогнозов возрастает. Особенно это касается добавления неструктурированных данных, например историй болезни, которые ведутся врачами, или записей разговоров сотрудников колл-центра с клиентами.

Как правило, чем больше данных, тем точнее результаты. Во время тестирования аналитического проекта попробуйте последовательно добавлять новые данные, и вы увидите, как будут изменяться результаты. Если качество анализа продолжает улучшаться, вы, скорее всего, не достигли той точки, когда у проблем нет решения.

Если же рост качества замедляется, оцените издержки, связанные с использованием различных подходов, по отношению к возможному доходу. Стоит также помнить, попытки с максимальной точностью спрогнозировать поведение потребителя могут завести все усилия в тупик.