"Составлению множества книг не будет конца, и увлекаться ими - утомительно..."
Экклезиаст 12:12 ( до1000 г. до н.э.)

КНИГИ

ОПТИМИЗАЦИЯ САЙТА
Глава 1. Интернет - как искать информацию
Глава 2. Сайт приносящий доход
Глава 3. Посетители сайта
Глава 4. Поисковое продвижежние сайта
Глава 5. Структура поисковых систем
Глава 6. Влияние на индексацию
Глава 7. Поисковый анализ

Глава 5. Структура поисковых систем

5.1. Поиск.

С помощью каталогов, подобно оглавлению книги, можно найти информацию или нужный сайт, расположенный в тематической рубрике. Другой способ более распространенный это - ссылки (гипертекстовые). И третий способ это поиск с помощью определенного слова набранного в стоке поисковой системы, более привычно поиск по ключевым словам в индексе поисковика.

5.2 Составление индекса (основные принципы).

База поисковых систем состоит из множества адресов (сайтов и их страниц), есть форма по добавлению новых сайтов, периодически робот поисковой машины обходит базу адресов для того, чтобы обновить индекс, какие-то страницы выпадают, добавляются новые, обновляются старые. Еще этот процесс называется апдейт или индексация. Важным условием является наличие ссылки на страницу.

Существуют несколько роботов или программ участвующих в этом процессе. Примерно так: поисковый "паук" выкачивает весь текст из добавленных страниц и передает информацию индексному роботу, который наводит порядок - располагает текст в алфавитном порядке, нумерует их и извлекает слова, добавляя их в индекс и удаляя лишнее. Есть "быстрый" робот для индексации часто изменяющихся страниц.

И в конечном итоге пользователи вводят в стоке запроса нужное ключевое слово, и программа обработчик обращается к индексу и извлекает наиболее подходящий список сайтов. Возможно использование расширенного поиска с помощью языка запросов, включающего различные операторы условия.

5.3. Устройство индекса.

Страницы очищаются от языка разметок (тегов) HTML, чистый текст располагается в алфавитном порядке согласно правилам машинной морфологии, скорее всего робот обрезает слова, оставляя их начальную форму. В случае новых или незнакомых слов, а также опечаток они хранятся в индексе "как есть". Возможно данные располагаются в таблице. Более распространен "координатный" индекс, учитывающий местоположение слов на странице. Итак, происходит инвертация от слов к странице и к точному месту на странице

Слово
Страница
Место на странице
Страница
Место на странице

Кроме того существует "прямой" индекс - сжатая копия страницы, что позволяет восстанавливать страницы.

5.4. Правила индексации.

Не индексируются - служебные символы, пробелы, теги, знаки препинания и изображения, сценарии JavaScript, запросы к базам данных.

Индексируются - стоп-слова (союзы, предлоги, цифры, междометия), любые комбинации слов и цифр, ссылки и Flash (т.е. текст скрытый в исходнике), документы в форматах Word, Exel и PDF. В некоторых поисковиках индексируются только русскоязычные сайты.

5.5. Релевантность.

Поисковик не может знать, что на уме у пользователя, вводящего запрос, но благодаря точному словосочетанию и фраз, можно найти относящуюся к делу страницу.

Можно классифицировать запросы - по конкретному месту, информации (телефон, название, более точное описание), услугам, транзакционные (купить), общие запросы.

Полнота поиска - количество найденных страниц, включает различные варианты ответов. Точность - количество относящихся к делу страниц, расположенных в правильном порядке. Учитывая содержание сайта и его авторитетность. Наиболее известные мерки это Тематический индекс цитирования (тИЦ), для всего сайта и Page Rank, для каждой страницы. Еще благодаря ссылкам с определенным словосочетанием с других сайтов, возможно, поднять страницу в выдаче на более релевантную, даже если на самом сайте не встречается данное выражение, это называется ссылочное ранжирование.

Известно, что Google лучше находит запрос по местонахождению, а Яндекс - информацию.


Rambler's Top100 obryvalin.ru : Продвижение и создание сайта : Учебный материал : Полезные ссылки :