Knigionline.co » Компьютеры » BIG DATA. Вся технология в одной книге

BIG DATA. Вся технология в одной книге - Андреас Вайгенд (2017)

BIG DATA. Вся технология в одной книге
Информация, в принципе, делается самым значимым сектором экономики, и базы данных понимают о любом определенном человеке более, чем ведомо ему самому. Чем больше информации о любом из нас попадает в базы данных, что в наименьшей степени мы присутствуем.

BIG DATA. Вся технология в одной книге - Андреас Вайгенд читать онлайн бесплатно полную версию книги

Вместо того чтобы тратить силы на разграничение личного и публичного и выстраивать стены, ограждающие информацию (или ограждающие от нее), давайте сосредоточимся на возможности быть самими собой. Это позволит нам в полной мере использовать инфопереработку и достичь баланса между потенциально негативными и потенциально позитивными последствиями распространения социальных данных.

Все в интернете знают, что ты собака

В том, что касается социальных данных, тайны частной жизни не существует. Ее больше нет. Подпись под знаменитой карикатурой из журнала «Нью-Йоркер» гласила: «В интернете никто не знает, что ты собака»[88]. С 1993 года, когда была опубликована эта карикатура, изменилось очень многое. Сегодня правильнее было бы сказать: «Весь интернет знает, что ты собака. Ошейник у тебя синий. Ты гоняешь кошек. А твои хозяева уехали отдыхать». Это потому, что ты сам сообщил эту информацию инфопереработчикам, чтобы иметь возможность общаться с друзьями и получать персональные рекомендации. Это твоя плата за возможность ознакомиться с рекламой кормов Purina Puppy Chow. А все думали, что в интернете можно оставаться анонимным.

Но информация была привязана к «удостоверению личности» задолго до появления Facebook. В середине 1990-х годов теоретик информатики Латания Суини решила выяснить, насколько в действительности анонимна «анонимная» база данных о состоянии здоровья[89]. Штат Массачусетс решил, что предоставление научному сообществу информации о посещениях госслужащими врачей в клиниках соответствует государственным интересам. Не будучи совсем дураками, чиновники понимали, что передавать эти данные с указанием имен людей нельзя, и удалили ряд идентификаторов – фамилии, адреса и номера карточек социального страхования. Но поскольку статистика предназначалась для целей совершенствования системы здравоохранения, кое-какие данные о пациентах в ней оставили – пол, дату рождения и почтовый индекс. Сопоставив эти три элемента информации с другой базой данных – списками избирателей, зарегистрированных по городскому округу Кембриджа, официально доступных любому человеку за плату в двадцать долларов, Суини смогла вычислить медицинскую карту губернатора штата. После чего доктор Суини «сделала театральный жест, направив копию медицинской карты губернатора со всеми диагнозами и выписанными рецептами прямо ему в офис»[90].

По оценке Суини, зная пол, возраст и почтовый индекс человека, можно идентифицировать 87 процентов населения США[91]. Более поздние исследования понизили этот показатель до примерно 63 процентов – тоже поразительно много, учитывая, что это можно сделать без использования намного более точных сведений, которыми люди постоянно делятся в Facebook и на других сайтах, где собирают социальные данные[92]. Почему для идентификации личности человека нужно столь мало информации, поясняет порядковый расчет. В США примерно 40 000 активных почтовых индексов и около 300 миллионов человек населения, из чего следует, что на один почтовый индекс приходится примерно по 7000 жителей, которые приблизительно поровну делятся на мужчин и женщин[93]. Если предположить, что количество новорожденных равномерно распределяется по количеству дней в году, то получается, что «привязанными» к одному почтовому индексу будут по десять мужчин или женщин с одинаковым днем рождения.

Перейти
Наш сайт автоматически запоминает страницу, где вы остановились, вы можете продолжить чтение в любой момент
Оставить комментарий