Récupérer les données de societe.com (scraping Python)

Dans le cadre d’un projet de recherche, on a eu besoin, avec deux amis data scientist (Mathis Mourey & Camilo Contreras) de scraper societe.com pour obtenir les données financières de plusieurs vignerons. Du coup, on s’est fait un petit code (sur Python) que je voulais partager (Gist ici et Jupyter Notebook en PJ)

Scraping_societe.com.ipynb (1.1 MB)

Il est correctement documenté mais quelques précisions :

  • pour scraper les données de telle ou telle société, il suffit d’ajouter l’URL de l’entreprise dans la liste « urlList »
  • de définir la période temporelle que vous voulez en actualisant les variables startYear et endYear
  • la troisième cellule sert juste à créer le dataframe
  • la quatrième à insérer les données scrapées dans le dataframe + créer le csv

Je reste dispo si vous avez des questions sur le script :smiley:

Pourquoi ne pas utiliser les donnés opendata diffusées pas l’inpi ?

2 Likes

Je complète… avec le lien pour y accéder directement (sans avoir à ouvrir de compte, etc):

Elles sont archivées quotidiennement par mes soins.

On a été séduit par la présentation des bilans financiers sous forme de table sur societe.com. Mais on ne connaissait pas les données de l’INPI. Merci @cquest beaucoup du partage ! poke @mathis.mourey @caarojasco

2 Likes

Les tribunaux de commerces transmettent toutes ces infos à l’INPI, qui les publie en opendata.

Ceci permet de se passer de societe.com et autres services du genre, qui étaient les seuls destinataires historiques de ces données.
De même, l’INPI diffuse gratuitement les documents scannés que beaucoup de services en ligne font payer. Exemple (pris au pif): https://data.inpi.fr/entreprises/839567146

Comme cette ouverture casse des business-model historiques, ce n’est bien sûr pas trop mis en valeur par les uns et les autres.

2 Likes

Souvenir du siècle dernier pour obtenir ces informations…

EURIDILE service issu d’un partenariat avec les tribunaux de commerce et l’INPI (déjà), qui a ensuite été disponible sur internet.

Bonjour,

Petite question car cela m’interpelle, y a t-il des lois ou des règles concernant le scrapping de données sur des sites comme société.com par exemple ? La réutilisation de ces données scrapper doit se faire dans quel cadre ?

Merci de votre retour.

J’avoue ne pas avoir creusé le sujet (ce qui n’est pas top). Je sais juste que c’est une pratique assez courante. Des journalistes du Monde et de Libération n’hésite pas à l’utiliser et à publier les données récoltées. Voir extrait d’entretien d’un rapport de recherche mentionnant ces données (p.15)

« Si l’on fait simplement du scraping sur Internet, ce n’est pas de l’open data, on est sur l’acquisition des données dont on ne maîtrise pas forcément les droits d’usage » (lead data scientist dans une société de service en informatique spécialisée en logiciels libres). « Je ne me pose jamais la question, ce qui pas forcément bien, dans notre travail si les données sont disponibles, on va les publier, ce n’est pas correct, mais, on fait comme ça » (data journaliste free‐lance, ancien du Monde et de Libération).

1 Like

En général, je jette un oeil sur les mentions légales et CGU du site en question.

Quand c’est un site de la sphère publique, il faut que j’y trouve une bonne raison pour ne pas le scraper.
Par contre, quand c’est un site de la sphère privée, c’est l’inverse…

Il y a de plus en plus de sites qui s’appuient sur des données opendata, donc un petit peu de recherche permet de remonter à la source, ce qui est préférable, ça évite les traitements intermédiaires et surtout c’est plus simple que de se lancer dans un scraping.

1 Like

Dans ma tête, il n’était pas possible de faire du scrapping et de réutiliser les données d’un site sans l’autorisation du site. Souvent même si les sites font de la récupération de données sur des sites Open data, il ajoute une valeur ajoutée à la donnée brute (cf société.com, kelquartier.com, …).

Je cherche toujours un cadre légal au scrapping.

En tout cas merci de vos éclaircissements sur ce sujet très complexe .

1 Like

@Aymerib, je serai preneur de textes/étude/documents qui donnent des indications claires à ce sujet si jamais tu as creusé le sujet.

@ArthurSz , non malheureusement je n’ai pas encore creusé le sujet, je suis preneur également de textes/études/documents. Je vais commence à regarder de mon côté et voir ce qui est légal de faire.

1 Like