Система улучшения поиска в крупных ПС
Relona - проект достаточно необычный и полезный для того, чтобы рассказать о нем детально. Начнем с истории появления проекта. Еще в середине 2001 года, как раз в то время, когда доткомовский ажиотаж был на пике, Kumar Ramanathan - имигрант из Индии, выпускник
Индийского Интститута Технологий, пришел к выводу о том, что поисковые приложения будут и в дальнейшем одними из основных приложений в интернет и неплохо было б создать собственное приложение, способное увеличить релевантность поиска. И приступил к делу. Результатом 3 недельных разработок стал алгоритм «Perfect Search». После некоторых усилий по анонсу алгоритма среди ведущих кодеров ПС-ем, в его приобретении оказались заинтересованы около 20% из числа получивших анонс. Отсюда, судя по всему, и начался поисковый стартап Relona. Но до создания отдельного сервиса было еще далеко, потому как работал алгоритм только будучи установленным на сервере ПС и ни в коем случае как отдельный код, из которого можно было бы изготовить стартап. В своем первоначальном виде проект просуществовал до 2005 года, когда Kumar Ramanathan начал работу над системой, требующей в качестве входных данных существующих листингов поисковика и не опирающейся на данные, которые могут находиться только в распоряжении непосредственно самих поисковых машин. В результате появился Calculus - семантически выстроенный алгоритм. При анализе запросов Calculus исследует намерения пользователя, составляет заключения о предполагаемых вариантах групп искомых данных. Результаты используют более широкую базу фильтрации страниц, предоставляя лучшие листинги конечному пользователю. Relona не зависит от направления поиска и работает одинаково хорошо и при узкоспециализированных, вертикальных запросах и при пространных многословных запросах. Relona использует статистические модели, основанные на «весах» терминов из строки запроса. При всем перечисленном Relona не является киллером Google или другого лидера рынка, а работает совместно, параллельно с ними.
Пора перейти к демонстрации действия механизмов стартапа. Известно, что даже лидеры мирового поиска часто не справляются с запросами, состоящими из многих слов. Длинное предложение обработано будет, но релевантность листингов останется сомнительной. То есть отдельные слова запроса будут взвешены и выведены, но смысловая составляющая вполне может потеряться. Relona во многом исходит из предположения о том, при экспоненциальном росте количества документов в веб, пользователь будет использовать сложные запросы для того, чтобы максимально точно сформулировать свою цель. Отсюда и суть эксперимента. Кстати сказать, похожим образом проводят демонстрацию алгоритма и на основном сайте стартапа. Но, остановимся для чистоты опыта на самостоятельно сформулированном запросе - сразу скажу, что с русским языком система работает хуже, поэтому запрос такой: «which programming languages web developers do use»
Каждая оранжевая кнопка соответствет листингам с участием алгоритмов Relona по запросу сформулированному слева для ПС обозначенной вверху. Приводить листинги причин особых нет, заметим, что при использовании Relona результаты точнее. В количественном выражении на основе оценки релевантности результаты выглядят так: ASK улучшен на 25%, MSN - 20%, Yahoo! - 35%, что сделало Yahoo! на 5% релевантнее Google.