Несколько дней назад в Сети был выложен доклад компании «Яндекс«, подготовленный для конференции WWW 2009, которая проходила в конце апреля в солнечном Мадриде. Доклад был выложен на сайте конференции на русском и английском языках. Ключевым моментом данного документа является информация о новом методе идентификации платных ссылок, разработанный специалистами «Яндекса» на основе алгоритма HITS.
Интересно, что «Яндекс» не считает платные ссылки спамом, «поскольку встречаются в основном на вполне приличных страницах наряду с другими полезными ссылками и часто указывают на ценные коммерческие сайты». Однако разработчики все же считают выявление платных ссылок довольно важной задачей, поскольку это повышает эффективность рейтингов поисковых машин.
Суть нового алгоритма заключается во фразе «Главная задача алгоритма — выявление непосредственно платных ссылок, а не сайтов, их продающих и покупающих». То есть, говоря простым языком, поисковая машина будет обращать внимание не на ресурс, который продает или покупает такие ссылки — владельцам таких ресурсов пока бояться нечего, а на сами ссылки, влияние которых, возможно, будет занижено.
Специалисты из «Яндекса» уже провели проверку нового алгоритма, сообщая о его высокой точности (95%) и эффективности (93-96%). Еще одним интересным моментом является то, что «Яндекс» считает покупные ссылки вредными не для коммерческих запросов, а для популярных некоммерческих.
«Идентификация платных ссылок позволяет оценивать релевантность ссылок для коммерческих и некоммерческих запросов независимо друг от друга. В первом случае, платные ссылки учитываются при вычислении коммерческого рейтинга, а во втором — игнорируются. Это делает формулу вычисления рейтингов более эффективной и повышает качество поиска, нейтрализуя влияние чрезмерной оптимизации на некоммерческие поисковые запросы и делая результаты поиска более разнообразными», — сообщает один из докладчиков.
В то же время, разработчиками «Яндекс» был разработан еще один алгоритм, позволяющий исключать из поисковых результатов ресурсы, которые пользуются чужими новостными материалами. Об этом сообщил руководитель проекта «Яндекс.Новости» Дмитрий Иванов. Иванов считает, что новый алгоритм позволяет «как на ладони отследить путь новости в Рунете». Другими словами, поисковый сервис позволяет узнать, когда новость появилась, кто, где и когда ее скопировал, остались ли ссылки на первоисточник.
Данная проблема всегда беспокоила сайты-партнеры проекта «Яндекс.Новости», владельцы которых весьма недовольны тем, что в списке постоянно появляются сайты-плагиатчики, без зазрения совести копирующие громадное количество чужих новостей.
Интересно то, что пользователи читают копии новостей, то есть плагиат, примерно в полтора раза чаще, чем сам оригинал. Осенью проводилось исследование, показавшее, что «копипастом» можно считать около 38% новостей.
Пока что неизвестно, когда именно оба алгоритма будут использоваться на практике, но вероятно, что уже в ближайшем будущем пользователи «Яндекса» увидят результаты работы данных нововведений. Главное, чтобы заявленная эффективность работы алгоритмов отвечала действительности, ведь автомат не будет разбирать, кто прав, а кто виноват, наказывая и тех и других.