|
|||||||||
|
Глава 5. Структура поисковых систем5.1. Поиск. С помощью каталогов, подобно оглавлению книги, можно найти информацию или нужный сайт, расположенный в тематической рубрике. Другой способ более распространенный это - ссылки (гипертекстовые). И третий способ это поиск с помощью определенного слова набранного в стоке поисковой системы, более привычно поиск по ключевым словам в индексе поисковика. 5.2 Составление индекса (основные принципы). База поисковых систем состоит из множества адресов (сайтов и их страниц), есть форма по добавлению новых сайтов, периодически робот поисковой машины обходит базу адресов для того, чтобы обновить индекс, какие-то страницы выпадают, добавляются новые, обновляются старые. Еще этот процесс называется апдейт или индексация. Важным условием является наличие ссылки на страницу. Существуют несколько роботов или программ участвующих в этом процессе. Примерно так: поисковый "паук" выкачивает весь текст из добавленных страниц и передает информацию индексному роботу, который наводит порядок - располагает текст в алфавитном порядке, нумерует их и извлекает слова, добавляя их в индекс и удаляя лишнее. Есть "быстрый" робот для индексации часто изменяющихся страниц. И в конечном итоге пользователи вводят в стоке запроса нужное ключевое слово, и программа обработчик обращается к индексу и извлекает наиболее подходящий список сайтов. Возможно использование расширенного поиска с помощью языка запросов, включающего различные операторы условия. 5.3. Устройство индекса. Страницы очищаются от языка разметок (тегов) HTML, чистый текст располагается в алфавитном порядке согласно правилам машинной морфологии, скорее всего робот обрезает слова, оставляя их начальную форму. В случае новых или незнакомых слов, а также опечаток они хранятся в индексе "как есть". Возможно данные располагаются в таблице. Более распространен "координатный" индекс, учитывающий местоположение слов на странице. Итак, происходит инвертация от слов к странице и к точному месту на странице
Кроме того существует "прямой" индекс - сжатая копия страницы, что позволяет восстанавливать страницы. 5.4. Правила индексации. Не индексируются - служебные символы, пробелы, теги, знаки препинания и изображения, сценарии JavaScript, запросы к базам данных. Индексируются - стоп-слова (союзы, предлоги, цифры, междометия), любые комбинации слов и цифр, ссылки и Flash (т.е. текст скрытый в исходнике), документы в форматах Word, Exel и PDF. В некоторых поисковиках индексируются только русскоязычные сайты. 5.5. Релевантность. Поисковик не может знать, что на уме у пользователя, вводящего запрос, но благодаря точному словосочетанию и фраз, можно найти относящуюся к делу страницу. Можно классифицировать запросы - по конкретному месту, информации (телефон, название, более точное описание), услугам, транзакционные (купить), общие запросы. Полнота поиска - количество найденных страниц, включает различные варианты ответов. Точность - количество относящихся к делу страниц, расположенных в правильном порядке. Учитывая содержание сайта и его авторитетность. Наиболее известные мерки это Тематический индекс цитирования (тИЦ), для всего сайта и Page Rank, для каждой страницы. Еще благодаря ссылкам с определенным словосочетанием с других сайтов, возможно, поднять страницу в выдаче на более релевантную, даже если на самом сайте не встречается данное выражение, это называется ссылочное ранжирование. Известно, что Google лучше находит запрос по местонахождению, а Яндекс - информацию. |
||||||||
| obryvalin.ru : Продвижение и создание сайта : Учебный материал : Полезные ссылки : | |||||||||