Страницы, которые связаны с уже проиндексированными страницами других поисковых систем, обнаруживаются автоматически и не требуют специального добавления. Некоторые поисковые системы, например Yahoo !, предлагает платную услугу, которая гарантирует, что веб-паук будет просматривать сайт за определенную фиксированную плату или за клик. Такие сервисы обеспечивают включение в базу данных, но не обеспечивают конкретную позицию при отображении результатов поиска. Два больших каталога, Yahoo Directory и Open Directory Project, требуют ручного ввода веб-сайта и проверки редакторами. Каталог — это веб-сайт, который устроен немного иначе, чем обычные поисковые системы. Контент управляется администраторами-людьми. Каталоги с большим количеством данных носят более общий характер. Большинство из них меньше по размеру и ориентированы на определенный жанр.
Google предлагает консоль поиска Google (ранее — Инструменты для веб-мастеров, набор инструментов для веб-мастеров), которая позволяет создавать XML-карту сайта, которая позволяет поисковому роботу обнаруживать все веб-страницы и подстраницы, особенно те страницы, которые сканер не может обнаружить путем автоматического отслеживания. ссылки.
При просмотре сайта веб-пауки учитывают множество факторов. Поисковые системы не индексируют каждый сайт. Расстояние между корневым каталогом и подстраницами может играть важную роль при просмотре веб-поисковым роботом. Проблемы просмотра веб-страниц также вызваны веб-страницами с разнообразной графикой, флэш-файлами и динамическим содержимым.
Запретить поисковым роботам просматривать страницы редактировать
Веб-мастера могут запретить поисковому роботу просматривать нежелательный контент. файлы и каталоги через файл robots.txt, расположенный в исходном каталоге веб-сайта. Веб-сайт также может быть исключен из базы данных поисковой системы с помощью специального метатега, который может прочитать веб-паук. В некоторых случаях нужен аудит база данных. Мета-метатег позволяет вам определять важные ключевые слова, релевантные при поиске веб-сайта. Все метатеги должны быть помещены между тегами… и …в HTML-коде на веб-странице. Следует отметить, что многие поисковые системы больше не используют этот значок (но он также не опасен, если они находятся на веб-сайте).
Когда паук посещает веб-сайт, он сначала читает файл robots.txt, который сообщает ему, какие страницы не следует просматривать. Поскольку сканер долгое время хранил этот файл в памяти, он может не заметить новую версию файла и по-прежнему искать страницы, которые владелец сайта не хотел индексировать. Типичными страницами, которые обычно запрещены для пауков, являются различные страницы с процедурами входа в систему (например, онлайн-корзина) и пользовательским контентом, таким как результаты внутреннего поиска. В марте 2007 года Google предупредил администраторов сайтов, чтобы они не индексировали внутренний поиск, так как это считается мусором.