Une fuite massive de code Yandex révèle les facteurs de classement des moteurs de recherche russes
Près de 45 Go de fichiers de code source qui auraient été volés par un ancien employé ont révélé les fondements de nombreuses applications et services du géant russe de la technologie Yandex. Il a également révélé des facteurs de classement clés pour le moteur de recherche Yandex qui ne sont presque jamais divulgués publiquement.
» Yandex git sources » a été publié sous forme de fichier torrent le 25 janvier et montre des fichiers qui auraient été pris en juillet 2022 et datant de février 2022. L’ ingénieur logiciel Arseniy Shestakov affirme qu’il a vérifié auprès des employés actuels et anciens de Yandex que certaines des archives « probablement contenir un code source à jour pour les services de l’entreprise. » Yandex a déclaré au blog de sécurité BleepingComputer que « Yandex n’a pas été piraté » et que la fuite provenait d’un ancien employé. Yandex a déclaré qu’il « ne voit pas de menace pour les données des utilisateurs ou les performances de la plate-forme ».
Plus précisément, les dossiers remontent à février 2022, lorsque la Russie a lancé une invasion à grande échelle de l’Ukraine. L’ancien dirigeant de Yandex a déclaré à BleepingComputer que la fuite était « politique » et a noté que l’ancien employé n’essayait pas de vendre le code aux concurrents de Yandex. Le code anti-spam n’a pas été divulgué non plus.
Bien qu’il ne soit pas clair si la divulgation du code source de Yandex a des implications sur la sécurité ou la structure, la fuite de 1 922 facteurs de classement dans l’algorithme de recherche de Yandex a certainement fait beaucoup de bruit. Le consultant en référencement Martin McDonald a décrit le piratage de Twitter comme « probablement la chose la plus intéressante qui se soit produite dans le référencement depuis des années » ( comme l’a noté Search Engine Land ). Dans un fil de discussion détaillant certains des facteurs les plus notables, le chercheur Alex Buraks suggère qu ‘«il existe également de nombreuses informations utiles pour le référencement Google».
Yandex, le quatrième plus grand moteur de recherche, aurait embauché plusieurs anciens employés de Google. Yandex suit de nombreux facteurs de classement Google identifiés dans son code et concurrence agressivement Google. La division russe de Google a récemment déposé son bilan après avoir perdu ses comptes bancaires et ses services de paiement. Burax note que le premier facteur sur la liste des facteurs de classement de Yandex est « PAGE_RANK », qui semble être lié à l’ algorithme sous-jacent créé par les co-fondateurs de Google .
Comme Burax l’a expliqué en détail (dans deux sujets ), le moteur Yandex préfère les pages qui :
- pas trop vieux
- Ayez beaucoup de trafic organique (visiteurs uniques) et moins de trafic de recherche.
- Leur URL doit contenir moins de chiffres et de barres obliques.
- Avoir du code optimisé, pas de « pessimisation dure » avec « PR = 0 ».
- Hébergé sur des serveurs sécurisés
- Être des pages Wikipédia ou des liens de Wikipédia
- Hébergé ou lié à des pages de niveau supérieur dans le domaine
- Avoir des mots-clés dans votre URL (jusqu’à trois)
Vous pouvez rechercher et cliquer sur tous les facteurs dans l’outil de recherche compilé de Rob Osby . Vous avez peut-être remarqué que près de 1000 facteurs de classement ont la balise « TG_DEPRECATED » et plus de 200 sont répertoriés comme « TG_UNUSED ». Étant donné que le code est daté de février 2022 et reçu en juillet 2022, la recherche Yandex a certainement changé depuis lors. Mais la fuite donne un aperçu rare de la façon dont les classements de recherche sont compilés sur un site qui dessert l’un des plus grands pays du monde.
Auparavant, le code du moteur de recherche Yandex avait disparu en 2015 lorsqu’un ancien employé avait tenté de le vendre au marché noir pour 28 000 dollars afin de financer sa propre startup. Le chiffre étonnamment bas du code principal du produit principal de Yandex indiquait qu’il n’était pas au courant de sa valeur réelle. Cet employé a été condamné à deux ans de prison avec sursis et le code n’a jamais été rendu public.
Laisser un commentaire