Récupérer le contenu d’une page

Comment parser le contenu d'une page HTML ?

Surement l'utilisation de CURL la plus fréquente...

Récupérer le contenu d'une page sous forme de chaine de caractères peut être fortement utile pour de multiples raisons, comme par exemple parser le contenu d'une page afin d'en extraire des données (attention, tout n'est pas légalement permis), ou encore de dialoguer avec un web-service REST (Representational State Transfer).

Le contenu retourné par une requête CURL se récupère via la fonction curl_exec(), qui sert par la même occasion à exécuter ladite requête.

<?php

$url = 'https://www.oseox.fr';
$timeout = 10;

$ch = curl_init($url);

curl_setopt($ch, CURLOPT_FRESH_CONNECT, true);
curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);

if (preg_match('`^https://`i', $url))
{
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);
}

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

// Récupération du contenu retourné par la requête
$page_content = curl_exec($ch);

curl_close($ch);

echo $page_content;

?>

 

A propos de l'auteur

Antoine Beaumont

Antoine Beaumont est Consultant Web et Développeur. Fort d'une expérience construite au sein de grandes agences Web-marketing, pour tous types de comptes, il accompagne désormais les professionnels dans leurs projets Web, de façon souple et objective.