Python : Extraire le contenu HTML d’une Page Web avec Requests

python, requests, web scraping, html, wikipedia, récupérer contenu, extraire données, http get, code source, requests.get, exemple

Lorsque vous souhaitez faire du web scraping avec Python, la bibliothèque Requests est un excellent point de départ. Légère et simple d’utilisation. Cette dernière vous permet d’envoyer facilement des requêtes HTTP vers n’importe quel site web et de récupérer le contenu HTML de ses pages. Dans cet article, nous allons voir comment utiliser Requests pour extraire le contenu d’une page Wikipédia de votre choix.

Installer la bibliothèque Requests

Commencez par installer Requests si ce n’est pas déjà fait. Vous pouvez le faire avec pip, le gestionnaire de paquets Python :

pip install requests

Envoyer une requête GET avec Requests

Une fois Requests installé, importez-le dans votre script Python. Ensuite, utilisez la méthode requests.get() pour envoyer une requête HTTP GET vers l’URL de la page Wikipédia souhaitée et récupérer sa réponse :

import requests

url = "https://fr.wikipedia.org/wiki/Web_scraping"
response = requests.get(url)

La variable response contient désormais la réponse HTTP complète de la page demandée.

Extraire le contenu HTML

Pour récupérer le code HTML source de la page, accédez à l’attribut content de l’objet response :

html_content = response.content

Vous pouvez maintenant afficher ou enregistrer ce contenu HTML pour une utilisation ultérieure.

Exemple complet

Voici un exemple de script Python qui extrait et enregistre le contenu HTML de la page Wikipédia sur le web scraping :

import requests

url = "https://fr.wikipedia.org/wiki/Web_scraping"
response = requests.get(url)

if response.status_code == 200:
    html_content = response.content
    with open("page_scraping.html", "wb") as f:
        f.write(html_content)
    print("Le contenu HTML a été téléchargé avec succès.")
else:
    print(f"Erreur de récupération de la page : {response.status_code}")

Ce script vérifie d’abord que la requête a réussi (code 200), puis enregistre le contenu HTML dans un fichier page_scraping.html. Vous pouvez ensuite charger et parser ce fichier avec BeautifulSoup ou une autre bibliothèque pour en extraire les données souhaitées.

Lire aussi :
Trois techniques efficaces pour le web scraping avec Python