Catégories
français

Calculer le PageRank Interne avec Python

Introduction à l’algorithme PageRank

Origine et concepts clés

L’algorithme PageRank, développé par Larry Page et Sergey Brin, les fondateurs de Google, est une méthode pour mesurer l’importance d’une page web en fonction de la qualité et de la quantité des liens qui pointent vers elle. Ce concept est basé sur l’idée que les liens agissent comme des votes, et que les pages recevant des liens de pages importantes obtiennent un score d’importance plus élevé. Ce concept vient d’Eugène Garfield et son Science Citation Index. Le PageRank est utilisé par Google pour classer les pages web dans certains résultats de recherche.

Le PageRank est un indicateur de la popularité et de l’importance d’une page dans le réseau de pages web. Il est utilisé par les moteurs de recherche pour déterminer l’ordre d’affichage des pages dans leurs résultats de recherche. Le PageRank est donc un élément clé du SEO (Search Engine Optimization), qui vise à améliorer la visibilité et le classement des sites web dans les résultats de recherche.

Alors, quelles sont les bases du PageRank ?

Le PageRank repose sur l’analyse d’un graphe de liens constitué par l’ensemble des pages et des liens entre elles. Chaque page est considérée comme un nœud (node en anglais) dans ce graphe, et chaque lien sortant d’une page est considéré comme une arête (edge en anglais). L’algorithme calcule ensuite le PageRank de chaque page en prenant en compte la popularité des pages qui lui sont liées en amont (celles qui lui font un lien).

En utilisant des techniques de programmation, comme le langage Python, il est possible de calculer le PageRank théorique d’une page sur le site en analysant les liens qui la connectent aux autres pages du site. Lorsqu’on calcule le PageRank interne d’un site, on considère que le site représente le réseau entier, mais ça ne permet pas de prendre en compte l’autorité provenant de l’extérieur.

Ces calculs reposent sur le traitement de grandes quantités de données, telles que les scores de popularité, les liens sortants et les liens entrants, afin de déterminer l’importance d’une page relative aux autres pages web.

Importance des liens dans le classement des pages web

Dans l’algorithme PageRank, chaque lien est considéré comme un vote de confiance. Cependant, tous les votes ne sont pas égaux. Un lien provenant d’une page ayant un PageRank élevé vaut plus qu’un lien provenant d’une page ayant un PageRank faible. C’est cette pondération des liens qui permet d’établir une hiérarchie des pages en fonction de leur importance relative sur le web.

Fonctionnement de l’algorithme PageRank

L’algorithme attribue un score à chaque page web, basé sur le nombre et la qualité des liens entrants. Le PageRank d’une page est calculé de manière itérative, en prenant en compte le PageRank des pages qui la lient, et en distribuant ce score proportionnellement au nombre de liens sortants de chaque page.

Implication dans le SEO et les moteurs de recherche

Le PageRank a un impact significatif sur le référencement (SEO), car il aide les moteurs de recherche à déterminer la pertinence et l’autorité des pages web. Un PageRank élevé peut améliorer la visibilité d’une page dans les résultats de recherche, augmentant ainsi le trafic et l’engagement des utilisateurs.

Implémentation de l’algorithme en Python

Extraction des liens sortants d’une page web

import requests
from bs4 import BeautifulSoup

def extract_links(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    links = [a.get('href') for a in soup.find_all('a', href=True)]
    return links

# Exemple d'utilisation
url = 'https://exemple.com'
links = extract_links(url)
print(links)

Construction du graphe représentant les pages et les liens

import networkx as nx

def build_graph(pages):
    graph = nx.DiGraph()
    for page in pages:
        links = extract_links(page)
        for link in links:
            graph.add_edge(page, link)
    return graph

# Exemple d'utilisation
pages = ['https://exemple.com/page1', 'https://exemple.com/page2']
graph = build_graph(pages)
print(graph.edges)

Calcul du score de popularité des pages

def calculate_pagerank(graph, alpha=0.85, max_iter=100):
    pagerank_scores = nx.pagerank(graph, alpha=alpha, max_iter=max_iter)
    return pagerank_scores

# Exemple d'utilisation
pagerank_scores = calculate_pagerank(graph)
print(pagerank_scores)

Code pour calculer le PageRank interne à partir d’un fichier CSV

Voici un script Python pour calculer le PageRank interne d’un site web à partir d’un fichier CSV contenant les sources, les destinations et une pondération optionnelle. Le résultat sera exporté dans un fichier CSV listant les pages et leur PageRank respectif.

import pandas as pd
import networkx as nx

def load_csv(file_path):
    df = pd.read_csv(file_path)
    return df

def build_graph_from_csv(df):
    graph = nx.DiGraph()
    for index, row in df.iterrows():
        source = row['Source']
        destination = row['Destination']
        if 'weight' in row:
            weight = row.get('weight', 1)
        else:
            weight = 1
        graph.add_edge(source, destination, weight=weight)
    return graph

def calculate_pagerank(graph, alpha=0.85, max_iter=100):
    pagerank_scores = nx.pagerank(graph, alpha=alpha, max_iter=max_iter)
    return pagerank_scores

def save_pagerank_to_csv(pagerank_scores, output_file):
    df = pd.DataFrame(list(pagerank_scores.items()), columns=['url', 'PRI'])
    df.sort_values(by='PRI', ascending=False, inplace=True)
    df.to_csv(output_file, index=False)

# Exemple d'utilisation
csv_file = 'liens_sortants.csv'
output_file = 'pagerank_output.csv'

# Charger les données depuis le fichier CSV
df = load_csv(csv_file)

# Construire le graphe
graph = build_graph_from_csv(df)

# Calculer le PageRank
pagerank_scores = calculate_pagerank(graph)

# Sauvegarder les résultats dans un fichier CSV
save_pagerank_to_csv(pagerank_scores, output_file)

Ce script permet de charger les liens depuis un fichier CSV, de construire un graphe orienté, de calculer les scores PageRank, et de sauvegarder les résultats triés par PageRank dans un nouveau fichier CSV. Assurez-vous que votre fichier CSV d’entrée a les colonnes ‘Source’, ‘Destination’, et éventuellement ‘weight’.
N’oubliez pas de pré traiter votre fichier si vous souhaitez uniquement voir les liens réalisés en interne de votre site (l’autorité transmise à l’extérieur du site n’est pas la même que celle transmise au sein du site).