Когда-то PageRank был сердцем поиска и сделал Google такой империей, какой она является сегодня.

Даже если вы думаете, что поиск произошел от PageRank, нельзя отрицать, что эта концепция уже давно широко распространена в отрасли.

Каждый SEO-специалист должен иметь хорошее представление о том, что такое PageRank и чем он является сегодня.

В этой статье мы рассмотрим следующее:

  • Что такое PageRank?
  • История развития PageRank.
  • Как PageRank произвел революцию в поиске.
  • PageRank панели инструментов против PageRank.
  • Вот как работает PageRank.
  • Как PageRank перемещается между страницами.
  • PageRank все еще используется?

давайте погрузимся

Что такое PageRank?

Разработанный основателями Google Ларри Пейджем и Сергеем Брином, PageRank представляет собой алгоритм, основанный на совокупной относительной силе всех гиперссылок в Интернете.

Большинство людей утверждают, что название основано на фамилии Ларри Пейджа, в то время как другие утверждают, что «Пейдж» относится к веб-сайту. Обе позиции, вероятно, верны, и совпадение, вероятно, было преднамеренным.

Когда Пейдж и Брин учились в Стэнфордском университете, они написали статью под названием: Рейтинг цитирования PageRank: наведение порядка в Интернете.

Статья, опубликованная в январе 1999 года, демонстрирует относительно простой алгоритм оценки надежности веб-страниц.

Изображение с сайта patches.google.com, апрель 2023 г.

Газета стала одной патент в США (но не в Европе, где математические формулы непатентоспособны).

От начала до конца процесса PageRankИзображение с сайта patches.google.com, апрель 2023 г.

Стэнфордский университет владеет патентом и передал его Google. В настоящее время срок действия патента истекает в 2027 году.

Процессная часть PagerankИзображение с сайта patches.google.com, апрель 2023 г.

История развития PageRank

Во время учебы в Стэнфорде в конце 1990-х Брин и Пейдж изучали методы сбора информации.

В то время использование ссылок для определения того, насколько «важна» каждая страница по сравнению с другой, было революционным способом ранжирования страниц. Это было вычислительно сложно, но ни в коем случае не невозможно.

Идея быстро переросла в Google, который в то время был небольшим игроком в мире поиска.

Таково было институциональное убеждение некоторых сторон в подходе Google, что компания изначально запустила свою поисковую систему без возможности получения дохода.

ЧИТАТЬ  Результаты поиска Google Light Found Poine при подвеске

И хотя Google (тогда известный как «BackRub») был поисковой системой, PageRank был алгоритмом, используемым для ранжирования страниц на страницах результатов поисковой системы (SERP).

Гугл Танец

Одна из проблем PageRank заключалась в том, что математика, хотя и простая, должна была обрабатываться итеративно. Расчет выполняется несколько раз для каждой страницы и каждой ссылки в Интернете. На рубеже тысячелетий для обработки этой математики требовалось несколько дней.

За это время поисковая выдача Google двигалась вверх и вниз. Эти изменения часто были нерегулярными, поскольку для каждой страницы рассчитывались новые PageRank.

Это было известно как «танец Google», и оно останавливало SEO-специалистов того времени каждый раз, когда Google запускал свое ежемесячное обновление.

(Позже Google Dance стал названием ежегодной вечеринки, которую Google устраивал в своей штаб-квартире в Маунтин-Вью для профессионалов SEO.)

Надежные семена

Более поздняя итерация PageRank представила идею «доверенного начального числа» для запуска алгоритма, вместо того, чтобы давать каждой странице в Интернете одно и то же начальное число.

Разумный серфер

Еще одна итерация модели представила идею «разумного серфера».

Эта модель предполагает, что PageRank страницы не может равномерно распределяться между страницами, на которые она ссылается, но что относительная ценность каждой ссылки может быть взвешена на основе того, насколько вероятно, что пользователь нажмет на нее.

Отступление PageRank

Алгоритм Google изначально считался «не спамным» внутри компании, поскольку важность страницы определялась не только ее содержанием, но и своего рода «системой голосования», генерируемой ссылками на страницу.

Однако доверие Google длилось недолго.

По мере роста индустрии обратных ссылок, PageRank начал становиться проблематичным. В результате Google удалил его из публичного доступа, но продолжал полагаться на него в своих алгоритмах ранжирования.

Панель инструментов PageRank была упразднена в 2016 году, и в конечном итоге весь публичный доступ к PageRank был ограничен. Но особенно Majestic (инструмент SEO) смог довольно хорошо сопоставить свои расчеты с PageRank.

Вплоть до января 2017 года Google долгие годы отговаривал специалистов по поисковой оптимизации от подмены ссылок с помощью документации своих «Руководств Google» и советов своей группы по борьбе со спамом во главе с Мэттом Каттсом.

Алгоритмы Google также изменились за это время.

Компания меньше полагалась на PageRank, и после приобретения MetaWeb и ее собственного Knowledge Graph (получившего название Freebase в 2014 году) Google начала индексировать информацию со всего мира различными способами.

ЧИТАТЬ  Google Search IAит с кнопкой Shuffle

PageRank панели инструментов против PageRank

Поначалу Google так гордился своим алгоритмом, что был рад сделать результат своих вычислений общедоступным для всех, кто хотел его увидеть.

Наиболее заметным представлением было расширение панели инструментов для таких браузеров, как Firefox, которое отображало оценку от 0 до 10 для каждой страницы в Интернете.

На самом деле, PageRank имеет гораздо более широкий диапазон значений, но от 0 до 10 дал специалистам по поисковой оптимизации и потребителям мгновенный способ оценить важность любой страницы в Интернете.

Панель инструментов PageRank сделала алгоритм чрезвычайно наглядным, что, однако, также сопровождалось осложнениями. В частности, это означало, что ссылки — самый простой способ обмануть Google.

Чем больше ссылок (или, точнее, чем лучше ссылка), тем выше рейтинг страницы в поисковой выдаче Google по каждому целевому ключевому слову.

Это означало, что был создан вторичный рынок для покупки и продажи ссылок на основе PageRank URL-адреса, по которому ссылка была продана.

Эта проблема усугубилась, когда Yahoo запустила бесплатный инструмент под названием Yahoo Search Explorer, который позволял любому находить ссылки на определенную страницу.

Позже два инструмента — Moz и Majestic — создали бесплатный вариант, создав свои собственные индексы в Интернете и оценивая ссылки отдельно.

Как PageRank произвел революцию в поиске

Другие поисковые системы в значительной степени полагались на анализ содержимого каждой страницы в отдельности. Используя эти методы, было почти невозможно отличить влиятельную страницу от просто написанной со случайным (или манипулятивным) текстом.

Это означало, что SEO-специалистам было чрезвычайно легко манипулировать методами поиска других поисковых систем.

Таким образом, алгоритм Google PageRank был революционным.

В сочетании с относительно простой концепцией «нграмм«Чтобы определить релевантность, Google нашел формулу успеха.

Вскоре он обогнал основных игроков того времени, таких как AltaVista и Inktomi (которые, среди прочего, управляли MSN).

Работая на уровне страниц, Google также нашел гораздо более масштабируемое решение, чем подход Yahoo и более поздний «каталоговый» подход DMOZ, хотя изначально DMOZ (также известный как Open Directory Project) мог открыть исходный код собственного каталога Google.

Как работает PageRank

Формула PageRank представлена ​​в разных формах, но ее можно объяснить в нескольких предложениях.

Во-первых, каждой странице в Интернете присваивается приблизительный рейтинг PageRank. Это может быть любое число. В прошлом PageRank представлялся публике как значение от 0 до 10, но на практике оценки не обязательно должны начинаться с этого диапазона.

ЧИТАТЬ  Google разработал систему определения экспертности контента

Затем PageRank для этой страницы делится на количество ссылок со страницы, что дает меньшую долю.

Затем PageRank распределяется по связанным страницам — и то же самое относится к любой другой странице в Интернете.

Затем для следующей итерации алгоритма новая оценка PageRank для каждой страницы представляет собой сумму всех долей страниц, которые указывают на любую данную страницу.

Формула также включает «демпфирующий фактор», который описывается как вероятность того, что человек, пользующийся Интернетом, вообще перестанет заниматься серфингом.

Перед началом каждой следующей итерации алгоритма предлагаемый новый PageRank уменьшается на коэффициент демпфирования.

Этот метод повторяется до тех пор, пока значения PageRank не достигнут сбалансированного равновесия. Полученные числа затем для удобства обычно переводили в более узнаваемый диапазон от 0 до 10.

Один из способов представить это математически:

Формула PageRankИзображение автора, апрель 2023 г.

Где:

  • PR = PageRank в следующей итерации алгоритма.
  • d = коэффициент демпфирования.
  • j = номер страницы в Интернете (если каждая страница имеет уникальный номер).
  • n=общее количество страниц в Интернете.
  • i = итерация алгоритма (изначально установлено на 0).

Формула также может быть выражена в матричной форме.

Проблемы и итерации формулы

Формула представляет некоторые проблемы.

Если страница не ссылается на другую страницу, формула не достигнет равновесия.

В этом случае PageRank будет распространяться на каждую страницу в Интернете. Таким образом можно было получить даже страницу без входящих ссылок. некоторый PageRank, но он не будет накапливаться настолько, чтобы быть значительным.

Другая, менее документированная проблема заключается в том, что могут быть доступны более новые страницы. более более важны, чем старые страницы, имеют более низкий PageRank. Это означает, что старый контент может иметь непропорционально высокий PageRank с течением времени.

Время нахождения страницы в сети в алгоритме не учитывается.

Как PageRank перемещается между страницами

Если страница начинается с 5 баллов и содержит 10 ссылок, каждая страница, на которую она ссылается, будет иметь PageRank 0,5 (минус коэффициент демпфирования).

Вот как PageRank перемещается по сети между итерациями.

Когда в Интернет попадают новые страницы, они изначально имеют низкий PageRank. Однако, когда другие сайты начинают ссылаться на эти сайты, их PageRank со временем увеличивается.

PageRank все еще используется?

Хотя публичный доступ к PageRank был удален в 2016 году, считается, что оценка по-прежнему доступна инженерам поисковых систем в Google.

Утечка факторов, используемых Яндексом, показала, что PageRank по-прежнему является фактором, который он может использовать.

Инженеры Google предложили заменить первоначальную форму PageRank новой аппроксимацией, которая требует меньше вычислительной мощности для расчета. Хотя формула ранжирования страниц Google менее важна, она остается неизменной для любой веб-страницы.

И независимо от того, какие другие алгоритмы может использовать Google, PageRank, вероятно, укоренился во многих системах поискового гиганта и по сей день.

Диксон более подробно объясняет, как работает PageRank, в этом видео:



Оригинальные патенты и статьи для углубленного чтения:

Дополнительные ресурсы:


Рекомендуемое изображение: VectorMine/Shutterstock



Source