Rha cool ça fait un paquet de choses à tester X)
J’ai réussi à faire quelques trucs avec cheerio et webscrapper pour firefox,
mais je tombe sur un os quand je veux faire une récupération des données d’évènements publiés sur ce site de communautés de commune:
https://www.cc-paysdelimours.fr/agenda
cliquer sur un évènement ne change pas l’url, du coup le webscrapper est perdu. J’ai tenté de rentrer des liens en version popup mais sans succès.
voici ma config qui ne fonctionne pas bien mais qui comporte les champs que je recherche dans la page faiblement découpée.
{"_id":« agenda_ccpl »,« startUrl »:[« https://www.cc-paysdelimours.fr/agenda"],« selectors »:[{« id »:« lien »,« type »:« SelectorLink »,« parentSelectors »:["_root"],« selector »:".result_5365805 img »,« multiple »:true,« delay »:0},{« id »:« opening »,« type »:« SelectorText »,« parentSelectors »:[« lien »],« selector »:".openings p",« multiple »:false,« regex »:"",« delay »:0},{« id »:« tarif »,« type »:« SelectorText »,« parentSelectors »:[« lien »],« selector »:".rates p",« multiple »:false,« regex »:"",« delay »:0},{« id »:« addr_et_contact »,« type »:« SelectorText »,« parentSelectors »:[« lien »],« selector »:« div.contact »,« multiple »:false,« regex »:"",« delay »:0}]}
la personne en charge de ces évènements m’a dit qu’ils utilisaient un truc pour les associations qui s’appelle API days qui doit être un plugin wordpress, mais je ne trouve pas grand chose de concluant dessus. J’ai tenté de leur faire utiliser un openagenda mais c’est pas évident pour eux de ne serait-ce que comprendre l’intérêt d’avoir des formats ouverts pour que les gens puissent s’abonner à l’agenda, au lieu de devoir revenir sur le site web et se taper leur interface à deux sous pour avoir les infos.
si j’avais un objectif de scraping en ce moment ce serait de pouvoir récupérer automatiquement les évènements de cet agenda et les publier sur openagenda, ou autre part qui permettrait de faire un lien .ical