Наука о ранжировании корреляций: как работает PageRank?

Наука о ранжировании корреляций: как работает PageRank? SEO SMM интернет маркетинг

[ad_1]

Я занимаюсь поисковой оптимизацией довольно давно — почти 8 лет. За все это время я все еще не мог избавиться от опьяняющего наркотика, выдаваемого панелью инструментов Google, — той «маленькой зеленой волшебной пыли», называемой PageRank. Интеллектуально я знаю, что он ошибочен множеством способов, но очень много людей в нашей области (и в более широком сообществе веб-мастеров / маркетологов) все еще говорят о «веб-сайтах с PR 4» и о том, что «у меня есть PR 6, но он все еще превосходит меня. » Я ловлю себя на том, что думаю об этом, использую в разговорах и, да, даже считаю, что это показатель рейтинга.

Зависимость от PageRank: первый шаг - признать, что у нас есть проблема

Существует так много причин, по которым PageRank не должен быть основным показателем для SEO:

  • Нечасто обновляется — Google обновляет оценки PR на панели инструментов 2–4 раза в год по непредсказуемому и неопубликованному графику. Оценка PageRank, которую вы видите сегодня, может кардинально отличаться от оценки PageRank, которую Google использует при расчетах ранжирования / сканирования.
  • 1 из 200+ рейтинговых сигналов — Представители Google постоянно повторяли, что PageRank — это лишь один из «более чем двухсот» сигналов, которые движок применяет к уравнению ранжирования.
  • Применяется к страницам, а не к сайтам — Оценка PR основана на отдельных URL-адресах, а не на доменах. Технически не существует такого понятия, как веб-сайт «PR 5», только веб-сайт с URL-адресом домашней страницы, на панели инструментов которого отображается цифра «5».
  • Неточный — PageRank — это логарифмическая оценка при установке значения от 0 до 10 на панели инструментов. Мы оценили базу журнала примерно в 8–10, что означает, что URL PR5 имеет в 8–10 раз больше PageRank, чем PR4. Тем не менее, между значениями нет гранулярности. Одна страница PR4 может иметь в 5 раз больше PageRank, чем другая страница PR4, но оценка Google не скажет вам, пока порог базы журнала не пересечет следующий маркер значения.
  • Намеренно неточно — Google уже много лет использует панель инструментов PageRank, чтобы визуально наказывать страницы и сайты за покупку / продажу ссылок, но они с готовностью признают, что используют этот фильтр периодически, чтобы не выдавать спамеров. Таким образом, при оценке PageRank мы никогда не уверены, снизился ли PageRank страницы / сайта и влияет ли это на рейтинг (или значение, передаваемое неманипулятивными ссылками).

Но, возможно, ничто из этого не столь убедительно, как данные, собранные нашим внутренним экспертом по корреляции, машинному обучению и моделям ранжирования Беном Хендриксоном. За последние несколько месяцев мы получили растущий поток вопросов о PageRank, связанных с нашими инструментами, mozbar и через Q + A, поэтому Бен пошел дальше и провел жесткий корреляционный анализ, чтобы помочь ответить на наш самый насущный вопрос о панели инструментов. Оценка PageRank — имеет ли значение, и если да, то насколько?

Насколько точны заявления Google о PageRank?

Насколько хорошо PageRank соотносится с рейтингом?

Короткий ответ — не очень хорошо, но недостаточно, чтобы предположить, что заявление Google, приведенное выше, полностью неточно. Пусть говорят данные:

ТОП-3 ЛУЧШИХ КРЕДИТНЫХ КАРТ ДО 1 МЛН РУБЛЕЙ ДО 365 ДНЕЙ БЕЗ ПРОЦЕНТОВ!


✅Кредитная карта №1
- Беспроцентный период: 365 дней без процентов
- Кредитный лимит до 500 000 рублей
- Доставка и облуживание карты БЕСПЛАТНО!

ПОДРОБНЕЕ >>>


✅Кредитная карта №2
- Беспроцентный период: до 365 дней без процентов
- Кредитный лимит до 1 000 000 рублей
- Доставка и облуживание карты БЕСПЛАТНО!

ПОДРОБНЕЕ >>>

✅Кредитная карта №3
- Беспроцентный период: до 200 дней без % на всё: покупки, переводы, снятие наличных.
- Кредитный  лимит до 1 000 000 рублей
- Доставка и обслуживание карты БЕСПЛАТНО!

ПОДРОБНЕЕ>>>

Корреляция PageRank в поисковых системах - Bing, Yahoo !, Google.com и Google.co.uk

Используя корреляцию Спирмена, мы видим, что для упорядочивания результатов на первой странице (корреляция, которую мы измерили для всех этих диаграмм), PageRank панели инструментов Google составляет около 0,18. Идеальная корреляция была бы 1,00, а совершенно бесполезная / случайная корреляция — 0,00. Другими словами, PageRank имеет положительную корреляцию, но не особенно предсказуемую.

Интересно, что PageRank еще более бесполезен для упорядочивания результатов Yahoo! И результатов Google.co.uk (британские специалисты по поисковой оптимизации заметят!), Но почти так же хорош для Bing.com, как и результаты Google в США.

В следующий раз, когда ваш начальник или клиент спросит вас об увеличении их PageRank; покажите им эту диаграмму. Это лучшее доказательство того, что мы в SEOmoz должны подтвердить заявление «PageRank не имеет большого значения». Владельцы веб-сайтов и маркетологи должны заботиться о таких показателях, как трафик, конверсии и общая ценность посещений, отправленных поисковыми системами. PageRank (и аналогичные показатели) с этим совершенно не помогают. SEO-специалисты, однако, ценят любые прокси или показатели, которые они могут получить в свои руки, которые помогут лучше объяснить рейтинг. Мы воспользуемся остальной частью сообщения, чтобы решить эту проблему.

PageRank — лучший показатель в своем роде?

Еще один интересный вопрос, который мы должны задать: стоит ли использовать другие похожие показатели, моделирующие себя на основе данных PageRank (и графа ссылок Google в Интернете). Приведенная ниже диаграмма напрямую отвечает на этот вопрос:

Корреляция похожих итеративных алгоритмов на основе цепей Маркова с рейтингом Google

На этой диаграмме мы смотрим исключительно на корреляцию с рейтингом Google.com (в США). PageRank и собственный mozRank SEOmoz чрезвычайно близки, но, что, возможно, удивительно, mozTrust (который использует алгоритм, подобный PageRank, ориентированный на доверенные исходные источники) и внешний mozRank (который учитывает только mozRank для URL, поступающего из внешних ссылок), имеют более высокую корреляцию. .

Это говорит о том, что, как часто говорили представители Google, «то, что о вас говорят другие, важнее, чем то, что вы говорите о себе». Анализ количества внешних ссылок, перетекающих на страницу, может быть лучшим показателем, чем просто общий объем ссылок на этой странице (включая значения как внутренних, так и внешних ссылок).

Лучше ли коррелированы другие общедоступные показатели?

Когда мы увидели, что некоторые показатели, подобные PageRank, могут быть более пригодными для использования (или, по крайней мере, очень конкурентоспособными заменителями) для этой цели, мы, естественно, спросили: «А как насчет показателей, не относящихся к PageRank?» Следующая таблица дает некоторые ответы:

Корреляция часто используемых SEO-показателей с рейтингом Google (в сравнении с PageRank)

Данные здесь особенно интересны. Количество ссылок Yahoo! Намного лучше, чем PageRank Google в отношении корреляции с собственными результатами поиска Google!

Возможно, неудивительно, что авторитет страницы, показатель, который Бен строит с помощью моделирования ранжирования, имеет наибольшую корреляцию с рейтингом Google.com. Это примерно на 51% «лучше» коррелировано, чем PageRank — большой шаг вперед, но все же далеко не полный рассказ. Хотя может показаться, что эти данные заставляют метрики SEOmoz выглядеть неплохо, на самом деле наше необработанное количество ссылок немного хуже, чем у Yahoo !, что говорит о том, что нам все еще нужно улучшить сканирование и индексирование Linkscape.

Можем ли мы оценивать сайты / домены с помощью PageRank (или других показателей)?

Еще один большой вопрос, на который нам нужно ответить, связан с концепцией «рейтинга страницы домашней страницы», которая является мерой способности сайта работать в рейтинге Google. На этот вопрос достаточно грамотно могут ответить корреляционные данные:

Метрики на уровне домена и корреляция с рейтингами

Неудивительно, что корреляции здесь значительно хуже. Оценить рейтинг страницы на основе показателей, специфичных для страницы, достаточно сложно, но сделать это, используя только имеющиеся у нас данные о домене, на котором размещена страница, чрезвычайно сложно. Тем не менее, мы видим, что некоторые метрики, отличные от тех, которые мы использовали ранее, могут дать некоторое представление. PageRank на главной странице Google, конечно, невысок, но он также не намного хуже, чем лучший показатель, который у нас есть — авторитет домена.

Также крайне любопытно, что рейтинг трафика Compete.com превосходит PageRank, а количество ссылок Yahoo! На домен ниже, особенно с учетом его впечатляющих показателей в показателях для конкретных страниц. Мы также пытались получить данные Alexa, но обнаружили, что скорость и согласованность настолько низки, что мы не смогли получить их все до публикации.

История с метриками на уровне домена, которую я хотел бы вам рассказать, — это «использовать авторитет домена», но, будучи TAGFEE, я должен сказать, что сегодня ни одна метрика, IMO, не является достаточно хорошей. Мы будем усердно работать над их улучшением в ближайшие недели и месяцы, но мы также хотели бы видеть другие усилия, которые помогут решить эту загадку. Оценка способности домена ранжировать страницы в Google может быть сложной задачей, но это очень стоящая цель.

Где / как получить доступ к этим показателям

В вышеупомянутом корреляционном анализе мы использовали множество показателей, и мы, безусловно, приглашаем вас использовать любые, которые представляют интерес для вашей собственной работы:

  • Рейтинг Google PageRank
    • через панель инструментов Google
    • Также доступно, хотя и потенциально противоречит УО Google, через контрольную сумму PageRank (пожалуйста, выполните свой собственный поиск)
  • Количество ссылок Yahoo!
    • через Yahoo! Сайт Эксплорер
    • через Y! SE API
  • Рейтинг Compete.com
    • через бесплатный инструмент Compete.com на их веб-сайте
    • через API Compete.com
  • Рейтинг Alexa
    • через Alexa.com
    • через API сервисов данных Alexa
  • Метрики SEOmoz
    • через API SEOmoz (бесплатно до 1 миллиона звонков в месяц)
    • через Open Site Explorer
    • через Мозбар
    • через Linkscape

Информация о наборе данных, используемом для этого анализа

Мы подозревали, что у людей возникнут вопросы о том, как собирались данные, об источнике ключевого слова / информации о ранжировании и о некоторых других вещах. Бен любезно ответил на многие из них ниже:

Сколько рейтингов ключевых слов мы собрали?

Более 4000 результатов поиска для Google.com и более 2000 результатов для других поисковых систем (Google.co.uk, Bing.com, Yahoo.com).

Каков уровень нашей точности с этими данными?

Стандартная ошибка варьировалась от 0,00528743 до 0,00559586 для корреляций Google.com.

Стандартная ошибка дает некоторое представление о том, насколько наш ответ может измениться, если мы рассмотрим намного больше запросов, чем мы. Если бы мы могли просмотреть бесконечное количество запросов, подобных тем, которые мы тестировали (игнорировать это было бы невозможно), ответ, который мы получили бы, с вероятностью 68% был бы в пределах одной стандартной ошибки ответа, который мы измерили здесь. , и 99,73% шанс оказаться в пределах трех.

Какой источник предоставил ключевые слова / рейтинги, которые мы использовали?

Из предложенных Google AdWords ключевых слов для разных категорий. Если вы объявляете вместе все ключевые слова для всех верхних категорий со всеми подкатегориями на один уровень ниже, получается чуть более 11 000 уникальных ключевых слов. Из этого списка мы произвольно выбрали ключевые слова.

Почему мы использовали корреляцию Спирмена, а не Пирсона?

Корреляция Пирсона хороша только для измерения линейной корреляции, а многие из рассматриваемых нами значений — нет. Если что-то хорошо экспоненциально коррелировано (как обычно, количество ссылок), мы не хотим несправедливо занижать их.

[Update April 22nd 6pm: I should give sferguson credit for suggesting using Spearman’s to us]

Как мы справлялись с «связями» в результатах (когда, например, PageRank не был достаточно детализированным)?

Мы точно следуем методологии, предложенной для Спирмена в учебниках, которая рассматривает все связанные значения как имеющие ранжированные индексы, равные среднему из индексов связанных значений. Это может дать неожиданное преимущество менее детализированным метрикам (таким как PageRank панели инструментов), потому что они могут хеджировать и голосовать «привязанными» к закрытым запросам, тогда как более детализированные метрики этого не делают. Судя по этим данным, кажется, что это не сильно влияет на результаты, поскольку результаты кажутся похожими на другие способы обработки связей, которые не имеют такого эффекта.

Общая картина всего в нескольких словах

Рейтинг страницы Google действительно немного коррелирует с их рейтингом (а также с рейтингом других основных поисковых систем). Однако другие показатели на уровне страницы значительно лучше, в том числе количество ссылок от Yahoo! и авторитет страницы.

PR домашней страницы гораздо меньше связан с рейтингом страниц на этом сайте, но не совсем бесполезен. Авторитет домена — немного лучший показатель для этой цели, как и рейтинг трафика домена Compete.com. Однако ни один из них не является достаточно убедительным, чтобы быть весьма полезным сегодня (на наш взгляд). Лучшее, что они могут сделать, — это служить доверенным лицом до тех пор, пока (надеюсь) не появятся более точные показатели.

Общая картина с корреляцией PageRank

Жду ваших комментариев и вопросов, как всегда!

О, и если вы нашли этот пост ценным, мы будем благодарны за твиты 🙂

[ad_2]

Оцените статью
( Пока оценок нет )
Добавить комментарий

Top.Mail.Ru