Récupérer le contenu d’une page
Comment parser le contenu d'une page HTML ?
Surement l'utilisation de CURL la plus fréquente...
Récupérer le contenu d'une page sous forme de chaine de caractères peut être fortement utile pour de multiples raisons, comme par exemple parser le contenu d'une page afin d'en extraire des données (attention, tout n'est pas légalement permis), ou encore de dialoguer avec un web-service REST (Representational State Transfer).
Le contenu retourné par une requête CURL se récupère via la fonction curl_exec()
, qui sert par la même occasion à exécuter ladite requête.
<?php $url = 'https://www.oseox.fr'; $timeout = 10; $ch = curl_init($url); curl_setopt($ch, CURLOPT_FRESH_CONNECT, true); curl_setopt($ch, CURLOPT_TIMEOUT, $timeout); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); if (preg_match('`^https://`i', $url)) { curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0); } curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // Récupération du contenu retourné par la requête $page_content = curl_exec($ch); curl_close($ch); echo $page_content; ?>