Lorsque vous souhaitez faire du web scraping avec Python, la bibliothèque Requests est un excellent point de départ. Légère et simple d’utilisation. Cette dernière vous permet d’envoyer facilement des requêtes HTTP vers n’importe quel site web et de récupérer le contenu HTML de ses pages. Dans cet article, nous allons voir comment utiliser Requests pour extraire le contenu d’une page Wikipédia de votre choix.
Installer la bibliothèque Requests
Commencez par installer Requests si ce n’est pas déjà fait. Vous pouvez le faire avec pip, le gestionnaire de paquets Python :
pip install requests
Envoyer une requête GET avec Requests
Une fois Requests installé, importez-le dans votre script Python. Ensuite, utilisez la méthode requests.get() pour envoyer une requête HTTP GET vers l’URL de la page Wikipédia souhaitée et récupérer sa réponse :
import requests
url = "https://fr.wikipedia.org/wiki/Web_scraping"
response = requests.get(url)
La variable response contient désormais la réponse HTTP complète de la page demandée.
Extraire le contenu HTML
Pour récupérer le code HTML source de la page, accédez à l’attribut content de l’objet response :
html_content = response.content
Vous pouvez maintenant afficher ou enregistrer ce contenu HTML pour une utilisation ultérieure.
Exemple complet
Voici un exemple de script Python qui extrait et enregistre le contenu HTML de la page Wikipédia sur le web scraping :
import requests
url = "https://fr.wikipedia.org/wiki/Web_scraping"
response = requests.get(url)
if response.status_code == 200:
html_content = response.content
with open("page_scraping.html", "wb") as f:
f.write(html_content)
print("Le contenu HTML a été téléchargé avec succès.")
else:
print(f"Erreur de récupération de la page : {response.status_code}")
Ce script vérifie d’abord que la requête a réussi (code 200), puis enregistre le contenu HTML dans un fichier page_scraping.html. Vous pouvez ensuite charger et parser ce fichier avec BeautifulSoup ou une autre bibliothèque pour en extraire les données souhaitées.
Lire aussi :
Trois techniques efficaces pour le web scraping avec Python