Knigionline.co » Компьютеры » BIG DATA. Вся технология в одной книге

BIG DATA. Вся технология в одной книге - Андреас Вайгенд (2017)

BIG DATA. Вся технология в одной книге
Информация, в принципе, делается самым значимым сектором экономики, и базы данных понимают о любом определенном человеке более, чем ведомо ему самому. Чем больше информации о любом из нас попадает в базы данных, что в наименьшей степени мы присутствуем.

BIG DATA. Вся технология в одной книге - Андреас Вайгенд читать онлайн бесплатно полную версию книги

В области социальных данных меня больше всего интересуют эксперименты с элементами прескрипции, в которых пользователь получает возможность изменить некий параметр и увидеть, как это повлияет на результаты. Обработка данных о пробке на дороге позволяет предупредить водителей, сообщить им о том, насколько увеличится время в пути, и предложить альтернативные варианты маршрута. Если большинство водителей изберет какой-то один альтернативный маршрут, то на нем может возникнуть еще одна дорожная пробка. Для подобных ситуаций может быть предложен набор различных вариантов объезда и информация о том, какая часть водителей уже выбрала определенный маршрут, чтобы позволить принять решение поехать другой дорогой. Эти же данные можно использовать и для того, чтобы в целях оптимизации транспортного потока изменить частоту смены сигналов светофоров.

Один из лучших умов в области А/В-экспериментов – мой бывший коллега Рон Кохави, покинувший Amazon в 2005 году, чтобы возглавить работу по созданию экспериментально-аналитической группы в Microsoft. Чтобы создать базовые практики удачного онлайн-экспериментирования, Ронни и его команда провели сотни экспериментов примерно на двадцати интернет-сайтах (в том числе на MSN.com и Bing). Исходя из своего опыта Ронни утверждает: «Получить цифры легко; получить цифры, заслуживающие доверия, – трудно»[62]. Я полностью с этим согласен. Более того, то же самое можно сказать и о наиболее фундаментальных аспектах обработки данных: создавать рекомендации просто, оценивать рекомендации – трудно.

При проведении А/В-экспериментов на интернет-сайтах очень многое может пойти не так. Для начала: от 15 до 30 процентов просмотров страниц некоторых сайтов приходится на долю поисковых роботов, и эти визиты надо идентифицировать и отделить от посещений людей (если, конечно, обработку данных не проводят с целью оптимизации роботов).

Существует также искушение разделять пользователей на экспериментальные и контрольные группы по каким-то признакам, а не произвольно. Однако, каким бы разумным это ни выглядело на первый взгляд, большинство неслучайных способов выборки искажают результаты экспериментов и загрязняют аналитику. Например, если пользователь часто удаляет со своего компьютера cookie-файлы, его могут отнести к одной группе во время первого визита на сайт и к другой во время следующего. В некоторых экспериментах отнесение к той или иной группе коррелирует с сайтом, на котором был пользователь, прежде чем попасть на экспериментальную или контрольную страницу. Действительно ли люди более склонны кликать рекламу зонтиков на сайте WeatherChannel, где постоянно предупреждают о грядущих ураганах? Если выборки делались не по принципу случайности, результаты окажутся искаженными.

Кроме того, ученые стараются учитывать переменные, которые могут влиять на поведение пользователя, но не включены в эксперимент. Результаты эксперимента могут быть искажены багом, который появился в версии программного обеспечения, предложенной одной группе, но отсутствует во всех остальных. Проблемой могут быть и особенности работы программного обеспечения на различных платформах. Люди, использующие для доступа в сеть айфоны, и люди, использующие для этого телефоны на Андроиде, не являются равномерно распределенными и не зависимыми друг от друга группами населения. По результатам эксперимента может казаться, что на сайт чаще заходят пользователи с айфонами, но на самом деле различались не клиентские базы, а программное обеспечение – частота обновления страниц по умолчанию в айфонах выше. Придумывать такого рода версии и расследовать их – ежедневная работа детективов мира данных.

Перейти
Наш сайт автоматически запоминает страницу, где вы остановились, вы можете продолжить чтение в любой момент
Оставить комментарий