Knigionline.co » Компьютеры » BIG DATA. Вся технология в одной книге

BIG DATA. Вся технология в одной книге - Андреас Вайгенд (2017)

BIG DATA. Вся технология в одной книге
Информация, в принципе, делается самым значимым сектором экономики, и базы данных понимают о любом определенном человеке более, чем ведомо ему самому. Чем больше информации о любом из нас попадает в базы данных, что в наименьшей степени мы присутствуем.

BIG DATA. Вся технология в одной книге - Андреас Вайгенд читать онлайн бесплатно полную версию книги

Людям нравится считать свои решения обоснованными. Возможность перечислить все «за» и «против» («Стоит ли принять предложение работы в другом городе или согласиться с конкурентным предложением моего нынешнего работодателя?»), сравнить варианты и выбрать то, что лучше соответствует ситуации, текущим целям и кажется наименее рискованным, придает уверенности. В прошлом люди собирали информацию, разговаривая с родными, друзьями, коллегами и наставниками. Они принимали решения в мире «небольших данных».

Сегодня можно обратиться к рейтингам удовлетворенности работой портала Glassdoor, где на условиях анонимности оценивают условия и оплату труда[46]. Там собраны отзывы сотрудников о более чем 400 000 компаний и ежегодно поступает более полумиллиона новых комментариев. Например, по компании Amazon собрано 8000 отзывов о работе, 8000 – о собеседованиях при приеме на работу и 14 000 – о зарплате. Человек, рассматривающий возможность работы в компании, получает доступ к значительно большему количеству информации о ней, чем когда-либо прежде, однако времени на то, чтобы ознакомиться со всеми 8000 отзывов и сравнить их с условиями своего нынешнего места работы, у него нет. Какие из этих отзывов достоверны, какие соответствуют рассматриваемой позиции? А если кто-то неверно понял вопрос или случайно кликнул более низкую оценку, чем хотел?

Ошибки свойственны любой информации. Во времена небольших данных люди, собиравшие информацию, считали своим долгом досконально разобраться в ней и лично вычистить и исправить ошибки. И это было очень хорошо, поскольку от информации, полученной от небольшого количества людей, иногда зависели решения, затрагивающие всю общину или даже целый штат. Ошибка в количестве заявок на пособие по безработице, полученных за неделю в каком-то штате (например, опечатка вроде «254» вместо «2541»), могла привести к искажению данных по безработице, которые в свою очередь влияют на государственную экономическую политику. Долгосрочное исследование тенденций занятости, которое проводит Статистическое управление министерства труда США, охватывает выборку примерно в 10 000 человек, то есть основывается на порядке цифр, сопоставимых с количеством отзывов сотрудников Amazon на Glassdoor[47].

Разумно предположить, что доля ошибочной информации не снижается пропорционально росту количества собранных данных. Если в наши дни мы имеем доступ к объему информации, в сто раз превышающему прежний, можно ожидать, что и количество ошибок в этом потоке увеличится в сто раз. Но теперь у нас нет возможности отслеживать и вычищать каждую ошибку в массиве информации.

Однако решение проблемы экспоненциального роста количества ошибочной информации содержится в самом факте экспоненциального роста объемов данных. Поскольку люди постоянно реагируют на продукцию инфопереработки созданием новых данных, алгоритмы могут учиться выявлять то, что может являться ошибкой ввода. Если в строке поиска ввести «Андреас Вайганд», Google поинтересуется, не имелся ли в виду «Андреас Вайгенд».

Перейти
Наш сайт автоматически запоминает страницу, где вы остановились, вы можете продолжить чтение в любой момент
Оставить комментарий