Разделяй и властвуй: кластерные поисковики

16 лет назад 26 марта 2008 в 15:04 2163

У всех ведущих современных интернет-поисковиков есть одна общая черта – они выдают результаты единым списком, отсортированным по релевантности. Данная схема порождает для пользователей проблемы, связанные с большим количеством ссылок на странице.

Н е секрет, что мало кто просматривает на поисковике больше одной-двух страниц результатов, на которых зачастую так и не находится искомой информации. В то же время нужные данные в итоге могут размещаться на сайте, занимающем какую-нибудь 108-ю позицию в общем списке. Получается парадоксальная ситуация: информация в Сети есть, она вроде бы найдена, однако останется навсегда скрытой для пользователя, если он не сможет грамотно уточнить запрос или составить сложное поисковое выражение.
Одним из решений данной проблемы стала технология кластеризации результатов интернет-поиска. Ее преимущество по сравнению с аналогами – возможность сравнительно легкой автоматизации процесса. Кластерные технологии не требуют какой-либо специфической разметки веб-страниц, как это происходит в случае Semantic Web. Не нуждаются они, в отличие от веб-каталогов, и в сравнительно трудоемкой предварительной подготовке массива интернет-ресурсов. Цена этого преимущества – некоторый процент информационного шума, неизбежного при автоматической обработке результатов поиска в Сети.
Кластерный поисковик, как и обычная поисковая система, сначала находит в своей базе соответствующие запросу веб-страницы. Акробатика начинается на этапе сортировки результатов. Система проводит анализ подобранных ресурсов и находит на них дополнительные ключевые слова, встречающиеся вместе с терминами из поступившего запроса. Полученные в результате такого анализа подмножества страниц с большой вероятностью связаны тематически и относятся к разным аспектам темы запроса. Далее в недрах поисковика происходит второе важное событие: определение релевантности ссылок и их позиции в результатах поиска. Кластерная машина проделывает эту операцию отдельно для каждого кластера. При этом ссылки со страниц одного кластера, то есть аналогичной или похожей тематики, ценятся выше, чем ссылки с посторонних, пусть даже очень популярных ресурсов. Таким образом, позиция сайта в выдаче по кластеру является своеобразным отражением ее оценки коллегами по тематическому цеху, что повышает качество поиска. Кроме того, ранжирование ссылок по отдельным кластерам позволяет вытащить на свет божий полезные, но не «раскрученные» ресурсы, которым в обычных поисковиках с выдачей результатов единым списком и бесконечными войнами «оптимизаторов» мало что светит.

Крупнейший кластерный поисковик Ask.com предпочитает простые инструменты

В метапоисковике Clusty хороший выбор кластерных инструментов и фильтров

Знакомство с несколькими достойными представителями семейства кластерных интернет-поисковиков начнем с проекта Ask.com (www.ask.com), который на сегодняшний день является крупнейшей самостоятельной кластерной машиной. Его владельцы довольно долго экспериментировали со своими собственными идеями еще под вывеской AskJeeves.com, однако настоящий прорыв произошел после покупки ими кластерного поисковика Teoma, построенного на айбиэмовском алгоритме HITS и достижениях теории сообществ. В итоге Teoma исчез с карты интернета, полностью растворившись в новоиспеченном Ask.com.
Результаты кластеризации Ask.com выводятся в особой панели сбоку от списка результатов веб- и мультимедиа-поиска. Данная панель содержит три раздела: Narrow Your Search, Expand Your Search, Related Names. Первый уточняет запрос и предлагает краткий список сгенерированных тематических кластеров. Данный раздел хорошо помогает, если у термина запроса есть синонимы. Например, при поиске по слову «Windows» Ask.com предлагает сразу определиться, какие окна имеются в виду – от Microsoft или обычные стеклянные. Второй раздел работает с точностью до наоборот, предлагая кластеры более широкой по отношению к запросу тематики. Например, для подопытного запроса «Windows» там будет с десяток ссылок на кластеры, в том числе, например, на «Operating Systems» и «Glass Industry». Третий раздел панели весьма любопытен – здесь выводятся имена персон, встречающиеся в найденных документах вместе с термином из запроса. Такой автоматический подбор персоналий особенно хорош при поиске по новостям.
Если Ask.com старается быть как можно более простым для неискушенных пользователей, то следующий герой нашего обзора – Clusty (www.clusty.com) – стремится использовать кластеры по полной программе. Поскольку ресурс Clusty является метапоисковой системой, он работает с внешними базами данных. Основой для веб-поиска здесь стали базы Ask, Live, Gigablast и Open Directory. С одной стороны, отсутствие баз Google и Yahoo! серьезный недостаток, с другой – Clusty, используя альтернативные базы, помогает «зацепить» страницы, не представленные в индексных базах гигантов.
Как и в системе Ask.com, здесь применено вертикальное деление интерфейса, и все кластерные инструменты скомпонованы на особой боковой панели, которая, в свою очередь, разбита на отдельные закладки. По умолчанию там демонстрируется закладка с иерархическим списком найденных кластеров – их можно раскрывать щелчком по кнопке с «плюсом», переходя к навигации по более узким подмножествам результатов. Кроме того, в Clusty есть возможность посмотреть и полную подборку найденных кластеров, нажав кнопку More. Уточнять поиск можно и с помощью фильтра, расположенного под списком кластеров. По сути своей это поиск в найденном, который открывает в общем списке и подсвечивает цветовым выделением названия кластеров, содержащие введенные в поле фильтра слова.
Остальные вкладки кластерной панели носят вспомогательный характер и позволяют сортировать результаты веб-поиска по другим признакам – например, по поисковым машинам, с которых были получены ссылки, или же по доменам найденных интернет-сайтов. Названия и содержание вкладок изменяются в зависимости от типа поиска. Так, при подборе изображений кластеры выделяются по размерам картинок, имени и домену источника, а также типу файла.
Весьма интересным получился раздел кластерного поиска по Wikipedia. Он очень удобен в тех случаях, когда требуется не просто найти одну статью по конкретной теме, а охватить целиком некую предметную область. Выделяемые системой кластеры здорово экономят время – не надо открывать и просматривать связанные статьи из энциклопедии, как раньше.
Отметим наличие у Clusty интерфейса, оптимизированного для мобильных устройств (m.clusty.com). Здесь кластеры сгруппированы горизонтальной линейкой в верхней части страницы результатов, а вместо строки фильтра появился раздел Refine Query, предлагающий около десятка вариантов уточнения запроса.
Значительным минусом как Ask.com, так и Clusty являются плохие результаты поиска по запросам на русском языке – эти машины явно заточены под английский. Однако нам с вами не придется чувствовать себя обделенными на этом кластерном празднике жизни, по крайней мере до тех пор, пока существует проект Nigma (www.nigma.ru).
Метапоисковик Nigma был запущен весной 2005 года. Его непосредственная разработка ведется в МГУ им. М. В. Ломоносова, а финансируют данный проект компания Nigma.ru Ltd. и Фонд содействия развитию малых форм предприятий в научно-технической сфере.
Nigma опрашивает все крупные базы русскоязычных документов, в том числе Google, Yahoo!, AltaVista, MSN, Yandex и Rambler, что обеспечивает отличный охват источников. Кроме того, постепенно генерируется собственная индексная база. По заявлениям создателей проекта, со временем они планируют отказаться от внешних источников и научить Nigma работать только со своей базой, что позволит ускорить обработку запроса.

Nigma.ru – единственный ресурс, предлагающий кластерный метапоиск по документам на русском языке

Экспериментальный AJAX-интерфейс Nigma.ru

Особенно приятно отметить тот факт, что разработчики Nigma не пошли по соблазнительному для многих пути создания «кальки» уже существующего ресурса, а сделали ставку на инновации. Сильнейшей стороной Nigma является тщательный учет специфики русскоязычных запросов. Это проявляется в собственном алгоритме кластеризации результатов, а также в оригинальном поиске по различным морфологическим формам, синонимам слов из запроса пользователя и обобщенным понятиям. Такой поиск запускается, если по исходной словоформе было найдено слишком мало документов. Так что если вы увидите рядом с линком в результатах поиска букву «М», знайте – эта ссылка была найдена именно с использованием автоматического преобразования запроса.
Упоминания заслуживает мощная система исправления орфографических ошибок и опечаток в запросах. Nigma умеет исправлять прямо-таки клинические случаи: до четырех ошибок в слове, набранном в неправильной раскладке, причем предлагаемые варианты сортируются на основе близости к звучанию исправляемого слова. Кроме того, в систему встроен собственный словарь компьютерных терминов – думаю, не надо рассказывать, сколько может быть вариантов написания заимствованных слов из данной предметной области и какие проблемы из-за этого возникают при поиске в Сети.
Интерфейс Nigma построен на традиционном для современных кластерных поисковиков решении – кластеры выводятся иерархическим списком на боковой панели. Щелчком по кластеру открывается не только страница соответствующих результатов, но и перечень вложенных кластеров, позволяющих уточнить запрос. В Nigma также действует система фильтрации найденного – проставив «птички» напротив нерелевантных кластеров, их можно быстро исключить из общей выборки. Особенно удобно, что интернет-магазины собираются в отдельный кластер. Это позволяет либо сразу перейти к подбору товаров, либо полностью убрать коммерцию из результатов поиска.
Nigma дает пользователям возможность выбирать поисковики, на которые отправляются запросы. Для этого возле главного поля поиска расположен соответствующий список с чекбоксами, манипулируя которыми можно составить оптимальную подборку баз данных или вообще превратить Nigma в своеобразный кластерный интерфейс к одной из них. Есть у этого метапоисковика и альтернативный AJAX-интерфейс, в котором кластеры отображаются в виде облака тегов. При щелчке по тегу загружается список результатов поиска из соответствующего кластера, а также перестраивается само облако тегов – на нем подсвечиваются кластеры, связанные с активным в данный момент кластером.
Уникальным разделом Nigma стал поиск по сетевым электронным библиотекам. Несмотря на свой статус альфа-версии, эта поистине архиполезная вещица экономит массу времени за счет охвата в едином поиске ряда крупнейших российских сетевых библиотек. В данном разделе, как и при поиске по вебу, работает кластерная тематическая группировка результатов.
Nigma.ru также предлагает метапоиск по базам изображений тех же поисковиков, которые задействованы при обычном подборе документов. Здесь кластеризация используется не так активно – доступна только группировка по размерам картинок. UP

Иван Петров

Никто не прокомментировал материал. Есть мысли?

Это интересно. Вряд ли самостоятельно задумаешься «а что это всё яндекс да яндекс?». Попробовал Nigma. Нравится. Правда по запросу «тропический попугай» тукана быстрее нашёл в яндексе. Всё-таки не привычно влево поглядывать.

Ответить

Разделяй и властвуй: кластерные поисковики

Отменить ответ