16 нояб. 2008 г.

Глубокий поиск становится бесплатнее

Платный сервис DeepDyve, предназначенный для поиска информации в так называемом "глубоком Вебе", стал ближе к народу. Теперь им можно пользоваться и бесплатно, хотя при этом придётся терпеть присутствие рекламы, сообщает Wired.com.

Суть глубокого (или "невидимого") Веба детально описана в книге "Invisible Web" Криса Шермана (Chris Sherman) и Гэри Прайса (Gary Price), вышедшей в 2001 году. Вкратце: в силу ряда причин традиционные поисковые системы индексируют далеко не все имеющиеся в Интернете данные, а следовательно, не зная прямых ссылок, добраться до части находящейся в свободном доступе информации невозможно.

Точно оценить объём "невидимого Интернета" нельзя, однако даже по самым оптимистичным оценкам он составляет половину всей Сети. Исследование, проведённое в Университете Беркли в 2003 году, показывает, что в действительности ситуация значительно хуже: на "поверхности" находится только 167 терабайт информации, при этом поисковики игнорируют более 90 тысяч терабайт.

DeepDyve как раз и позволяет совершать поиск в этих скрытых терабайтах. Для этого сервис вооружён технологиями, использующимися в молодой науке геномике для идентификации цепочек ДНК. Специальный алгоритм индексирует целые выражения длиной до 20 слов, при этом отсутствует необходимость в семантическом анализе. Как поясняет исполнительный директор DeepDyve Уильям Парк (William Park), алгоритм совершенно не зависит от языка, на котором написан текст, а всё, что он по сути делает, это ищет символы по образцу.

В отличие от Google, который позволяет задать поисковую строку максимум из 32 слов, DeepDyve может быть "озадачен" большими фрагментами текста размерами до 25 тысяч символов. Строка запроса анализируется на наличие известных сегментов текста, после чего пользователю выдаётся наиболее релевантная страница.

Впрочем, на практике всё не так радужно. В настоящий момент в DeepDyve проиндексировано только полмиллиарда страниц, что на несколько порядков меньше, чем находится в базах того же Google. Чтобы увеличить размеры собственных баз, компания пытается наладить связи с издателями тех или иных научных статей.

С другой стороны, сервис ещё совсем молодой, и ситуация со временем может улучшиться. На данный же момент DeepDyve, скорее всего, не готов к обслуживанию большого количества запросов: при попытке зарегистрироваться на этом сервисе пользователю выдаётся сообщение о том, что "в связи с поразительным интересом", проявленным к DeepDyve со стороны интернет-общественности, логин и пароль будут высланы ему "на следующей неделе".

Ссылка

Комментариев нет: