Масштабная утечка кода Яндекса раскрывает факторы ранжирования российских поисковых систем
Почти 45 ГБ файлов с исходным кодом, предположительно украденных бывшим сотрудником, раскрыли основы многих приложений и сервисов российского технологического гиганта «Яндекс». Также были выявлены ключевые факторы ранжирования поисковой системы Яндекс, которые почти никогда не раскрываются публично.
« Гит-исходники Яндекса » были опубликованы в виде торрент-файла 25 января и показывают файлы, якобы снятые в июле 2022 года и относящиеся к февралю 2022 года. Инженер-программист Арсений Шестаков утверждает , что проверял у нынешних и бывших сотрудников Яндекса, что некоторые из архивов «вероятно содержать актуальный исходный код сервисов компании». Яндекс сообщил блогу безопасности BleepingComputer , что «Яндекс не был взломан» и что утечка произошла от бывшего сотрудника. Яндекс заявил, что «не видит угрозы для пользовательских данных или производительности платформы».
В частности, файлы относятся к февралю 2022 года, когда Россия начала полномасштабное вторжение в Украину. Бывший руководитель Яндекса сказал BleepingComputer, что утечка была «политической», и отметил, что бывший сотрудник не пытался продать код конкурентам Яндекса. Код защиты от спама также не просочился.
Хотя неясно, имеет ли раскрытие исходного кода Яндекса последствия для безопасности или структуры, утечка 1922 факторов ранжирования в алгоритме поиска Яндекса, безусловно, наделала много шума. Консультант по SEO Мартин Макдональд описал взлом Twitter как «вероятно, самое интересное, что произошло в SEO за последние годы» ( как отмечает Search Engine Land ). В ветке, подробно описывающей некоторые из наиболее заметных факторов, исследователь Алекс Буракс предполагает , что «есть много полезной информации и для Google SEO».
Яндекс, четвертая по величине поисковая система, якобы нанимает нескольких бывших сотрудников Google. Яндекс отслеживает многие факторы ранжирования Google, указанные в его коде, и активно конкурирует с Google. Российское подразделение Google недавно объявило о банкротстве после потери своих банковских счетов и платежных сервисов. Буракс отмечает, что первым фактором в списке факторов ранжирования Яндекса является «PAGE_RANK», который, по-видимому, связан с базовым алгоритмом, созданным соучредителями Google .
Как подробно рассказал Burax (в двух темах ), движок Яндекса отдает предпочтение страницам, которые:
- не слишком старый
- Иметь много органического трафика (уникальных посетителей) и меньше поискового трафика.
- Их URL должен содержать меньше цифр и косых черт.
- Иметь оптимизированный код, а не «жесткую пессимизацию» с «PR = 0».
- Размещение на защищенных серверах
- Быть страницами Википедии или ссылками из Википедии
- Размещены или связаны со страницами более высокого уровня в домене
- Имейте ключевые слова в своем URL (до трех)
Вы можете искать и щелкать по всем факторам в скомпилированном поисковом инструменте Роба Осби . Вы могли заметить, что почти 1000 факторов ранжирования имеют тег «TG_DEPRECATED», а более 200 указаны как «TG_UNUSED». Поскольку код датирован февралем 2022 года и получен в июле 2022 года, поиск Яндекса с тех пор, безусловно, изменился. Но утечка дает редкую возможность взглянуть на то, как составляются поисковые рейтинги на сайте, который обслуживает одну из крупнейших стран мира.
Ранее код поисковой системы Яндекс исчез в 2015 году, когда бывший сотрудник попытался продать его на черном рынке за 28 000 долларов, чтобы профинансировать собственный стартап. Удивительно низкая цифра кода ядра основного продукта Яндекса указывала на то, что он не знал о его реальной ценности. Этот сотрудник был приговорен к двум годам лишения свободы условно, и кодекс так и не был обнародован.
Добавить комментарий