Knigionline.co » Компьютеры » Яндекс для всех

Яндекс для всех - Абрамзон М. Г (2007)

Яндекс для всех
  • Год:
    2007
  • Название:
    Яндекс для всех
  • Автор:
  • Жанр:
  • Язык:
    Русский
  • Издательство:
    БХВ-Петербург
  • Страниц:
    245
  • ISBN:
    978-5-9775-0144-6
  • Рейтинг:
    0 (0 голос)
  • Ваша оценка:
Речь ведется о лидере среди поисковых ресурсов российской части Интернета — Яндексе. Описаны его сервисы для поиска музыкальных произведений, блогов и адресов, товаров и документов и новостей. Проанализированы и сервис для создания и размещения сайтов и почтовый сервис на Народ. ру. Человек, читающий это наполняется знаниями о том, что такое "электронные деньги" и как данной валютой оплатить товар. Обширный интерес уделяется доступным абсолютно для всех программам предназначенным для поиска, которые Яндекс предлагает своим посетителям для поиска даже на своем компьютере, не говоря уже и о поиске на сайтах. На компакт-диске записаны программы Яндекса, описываемые в книге, и дополняющие материалы.
Для людей которые только начинают пользоваться сетью Интернет.

Яндекс для всех - Абрамзон М. Г читать онлайн бесплатно полную версию книги

Директива Extensions задает расширения файлов данного формата. Если для получения содержимого документа используется файловая система, документы в файлах с заданными расширениями будут считаться имеющими медиатип, указанный в директиве MimeType. Тем не менее если для получения содержимого документа используется веб-сервер, возвращающий заголовок Content-type, в качестве медиа-типа используется значение этого заголовка. Пример секции DocFormat приведен в листинге 10.4.

Листинг 10.4. Пример секции DocFormat

<DocFormat>

MimeType text/html

Extensions.htm, html, asp

Config attr.cfg

</DocFormat>

Парсеры

Одно из важнейших свойств поисковой системы — возможность индексирования файлов произвольного формата. Это обеспечивается с помощью отдельных модулей — парсеров (еще их называют интерпретаторами форматов документов). Для каждого типа файлов применяется свой модуль. В платную версию поисковика включены парсеры для документов в форматах XML, RTF, PDF, MP3, FLASH, MS Word, MS Excel, MS PowerPoint, помимо входящих в стандартную поставку парсеров для форматов text/html и text/plain. Используя спецификацию, независимые разработчики могут разработать и иные парсеры, необходимые для используемых ими форматов данных, однако подключить их можно только к платной версии.

Из всех парсеров, поставляемых с программой, два являются конфигурируемыми. Это парсеры HTML и XML-документов. Остальные используются "как есть". В документации, входящей в комплект поставки, есть разделы, посвященные вопросам настройки парсеров под решение конкретных задач.

Внимание

На сайте Яндекса представлена программа mystem (

technology/products/mystem/mystem.xml). Это — парсер, осуществляющий морфологический анализ текста на русском языке. Программа предназначена для некоммерческого использования.

У большинства типов документов есть своя внутренняя структура, определенные элементы которой несут свойственную лишь им смысловую нагрузку. В почтовых письмах это могут быть поля from, to, Subj, в вебдокументах — это заголовок, тело документа, ключевые слова. В теле могут присутствовать заголовки различных уровней, ссылки, картинки и т. д. Различные части структурированных таким образом документов в Яндексе называются

зонами.

Основная задача парсера — выделить из документа нужный для индексирования текст. Текст, выделяемый парсером, может быть помечен как принадлежащий определенной зоне документа или как имеющий определенные свойства (атрибуты). На основании элементов форматирования документа парсер может указать границы предложений и абзацев, а также вес данного отрывка текста.

Разбиение документа на зоны происходит во время индексирования на основании меток, возвращаемых парсером. Впоследствии каждая зона может стать объектом независимого поиска (вспомните то, что мы уже говорили про поиск — поиск по заголовкам документов, заголовкам писем, адресатам, тегам и т. д.). Каждая поисковая зона имеет точки начала и конца в теле документа. Начало и конец зон всегда приходятся на границы слов.

Индексирование с учетом зон и их характеристик обеспечивает в дальнейшем возможность поиска с учетом нахождения требуемых сведений в определенных зонах. Это очень хорошо заметно на примере языка запросов, о котором мы поговорим, применительно к Яndex.Server, чуть позже.

10.1.2. Как группируются результаты

Перейти
Наш сайт автоматически запоминает страницу, где вы остановились, вы можете продолжить чтение в любой момент
Оставить комментарий