Deep web (invisible web, hidden web)

Автор: Елена Сагалаева

Термин Глубокий веб относится к веб-страницам, которые по каким-то причинам не индексируются поисковыми роботами.

Примера сайтов с такими страницами в Рунете - банки данных вакансий и резюме. В англоязычных источниках упоминаются всякие разные базы данных: базы данных патенов, базы данных научных статей и т.п. Также не будет проиндексирован контент, закрытый паролем, страницы, на которые нет ссылок. Обычно не индексируются страницы, запрещенные к индексированию файлом robots.txt. Некоторое время останутся непроиндексированными новые страницы. Могут остаться непроиндексированными файлы в нетекстовом формате (.pdf, .doc), сайты на флэше.

Патент на поиск через формы Searching through content which is accessible through web-based forms.

“Indexing the invisible web: a survey”, Yanbo Ru и Ellis Horowitz - статья посвящена работе с информацией, расположенной в открытых бесплатных базах данных, к которым пользователь может обращаться через веб-формы.

CompletePlanet - Discover over 70,000+ databases and specially search engines.

ewiki.info русская энциклопедия:

В 2000 году поисковая компания «BrightPlanet» провела исследование, которое показало, что в глубокой паутине находится в 500 раз больше документов, чем доступно через поисковые системы. Конечно, эти цифры нужно воспринимать с осторожностью. Например, существует трудность в различении разных представлений одного и того же материала в базах данных. Но, тем не менее, цифры поражают воображение, и неэффективность современных поисковых систем просто шокирует.


Предыдущий текст разделе: «
Последующий текст в разделе: »

11 Январь 2007 |
Подписаться на сообщения RSS 2.0

Опубликовано в разделах: Интернет, поиск



Один комментрий к “Deep web (invisible web, hidden web)”

  1. 1 boldachev 7 Февраль 2007 @ 13:27

    tours-tv.com - Туристическое интернет-телевидение Алексея Днепрового. Здесь Вы сможете познакомиться с последними новостями туризма и видео с наиболее популярных мест отдыха и путешествий. Лучше один раз увидеть, чем семь раз прочитать.

URL этой страницы: http://www.boldachev.com/internet/deep-web-invisible-web-hidden-web/



Искать On-line кабинет Александра Болдачева

рабочий кабинет

архив

Собеседникам

  • Войти
  • [После регистарции и входа вам не надо будет каждый раз набирать свои данные при оставлении комментариев.]

RSS сообщений
RSS комментариев

Вы можете получать информацию об обновлении сайта по e-mail

Рассылки Subscribe.Ru

Наверх . Рабочий стол . Статьи . Библиотека .
On-line кабинет Александра Болдачева © 2007