Knigionline.co » Компьютеры » BIG DATA. Вся технология в одной книге

BIG DATA. Вся технология в одной книге - Андреас Вайгенд (2017)

BIG DATA. Вся технология в одной книге
Информация, в принципе, делается самым значимым сектором экономики, и базы данных понимают о любом определенном человеке более, чем ведомо ему самому. Чем больше информации о любом из нас попадает в базы данных, что в наименьшей степени мы присутствуем.

BIG DATA. Вся технология в одной книге - Андреас Вайгенд читать онлайн бесплатно полную версию книги

Для начала давайте рассмотрим различия между первичной и переработанной информацией. Когда я ввожу в поисковую строку «Андреас Вайгенд», Google докладывает, что эти два слова обнаружены в «примерно в 122 000 результатов». Отсмотреть все эти страницы вручную невозможно: если на каждую тратить хотя бы пять секунд (феноменально высокая скорость просмотра), на это потребуется целая неделя, что совершенно нереально. Поэтому остается положиться на порядок выдачи результатов. Во главу списка Google может поставить самые свежие упоминания. Это будет прекрасно в случае, если я интересуюсь последними новостями о себе, но не так здорово, если я ищу видео семинара, который вел несколько лет назад. Другой вариант – посчитать, сколько раз мое имя упоминается на страничке, и ранжировать релевантность результатов в соответствии с наибольшим количеством таких упоминаний. Это может оказаться полезным, если я просматриваю статьи и хочу найти ту, где меня цитируют чаще, чем в остальных. Но представьте себе, что вместо своего имени я набрал в поисковой строке «айпад по дешевке» – это будет примерно 350 000 результатов, и над полезностью такой выдачи стоит задуматься. Специалисты по рекламным ловушкам наверняка поработали над страничками с популярными поисковыми запросами (что действительно так), и мне придется долго блуждать от результата к результату в поисках действительно полезной информации.

Чтобы повысить эффективность поиска, Google рассматривает полезность страницы с учетом многих характеристик, а не только наличия слов из запроса. Разработчики компании начинали с ранжирования релевантности страниц по принципу количества ссылок на них в других местах, что давало возможность судить об уровне внимания аудитории. Когда народ понял важность входящих ссылок для места странички в выдаче поисковика, появилась сфера деятельности под названием «поисковая оптимизация» с одиозными «фермами ссылок», или линкопомойками. Алгоритмы Google пришлось усовершенствовать, чтобы они могли отличать входящие ссылки реальных заинтересованных пользователей от созданных по заказу владельца сайта. Сегодня у Google помимо структуры ссылок сети есть накопленные за два десятилетия данные о том, на какие сайты, предложенные по поисковому запросу, заходили люди и сколько времени проводили на них, прежде чем вернуться к странице результатов поиска. Если на сайт заходят многие, но, лишь бегло взглянув на него, уходят искать что-то более интересное, релевантность страницы в поиске Google падает, и она опускается ниже в результатах поиска. Тем не менее высокое место странички в результатах поиска в Google не гарантирует достоверность представленной на ней информации, а является лишь свидетельством проявляемого к ней внимания.

Сколько поисковых запросов проходит через Google ежедневно? Сколько фотографий размещается в Facebook? Умение различать достоверные, недостоверные и невероятные данные – один из базовых навыков информационной грамотности. Точные цифры не столь важны: информационная грамотность означает умение видеть разницу между чем-то вполне приемлемым и явной ошибкой на порядок. В подобных оценках физики часто рассуждают с позиций порядковых величин, то есть десятикратных различий. Они скажут, что количество пользователей Google или Facebook составляет порядка миллиарда человек, поскольку оно точно больше 100 миллионов и меньше 10 миллиардов[37]. Далее они сделают допущение о том, что типичный пользователь делает в среднем 10 поисковых запросов в день, поскольку их точно больше одного, но меньше 100. При оценке количества фотографий в Facebook они будут исходить из показателя одно фото на пользователя в день, поскольку их точно больше, чем одно в месяц и меньше 10 в день. Таким образом, мы получаем порядковые оценки ежедневного количества поисковых запросов и размещаемых фотографий – 10 миллиардов и 1 миллиард соответственно. И это только два вида операций в области социальных данных[38].

Перейти
Наш сайт автоматически запоминает страницу, где вы остановились, вы можете продолжить чтение в любой момент
Оставить комментарий