Et si Google se mettait à produire des données démographiques

« The research, published by Proceedings of the National Academy of Sciences (PNAS), reveals a new methodology for measuring demographic data. Typically, the federal government completes country-wide surveys to create a large, public data set. The most famous of these surveys is the census, which occurs every 10 years, but there are others as well, like the American Community Survey, or ACS. This survey costs about $250 million per year for the Census Bureau to complete and provides information like income, race, education levels, and employment, and can often lag behind reality because it takes so long to complete each survey. But this new method uses 50 million Google Street View images to train algorithms on how to recognize different demographic factors based purely on neighborhood street scenes. »

Je trouve le papier un peu survendu, mais ce qui est drôle, c’est que l’estimation sociodémographique proposée repose entièrement sur les voitures observées sur les photos de Google street view !

(poke @mathieu)

C’est sûr. Ca paraît étonnant. Mais bon, il paraît que l’AI est capable de déterminer l’orientation sexuelle
https://www.numerama.com/tech/287536-une-ia-qui-identifie-les-homosexuels-luniversite-de-stanford-alerte-sur-un-tel-danger.html) d’une personne à partir de son visage…

Je n’ai pas lu le papier mais quand on regarde les graphiques comparant la “réalité” obtenue d’après sondages et les prédictions dans l’article, on s’aperçoit que les valeurs absolues obtenues par l’AI ne sont pas très correctes. Par contre, si on observe les valeurs prédites de façon relative : tel quartier par rapport aux voisins, les résultats semblent pas mal…Mais bon, ça ne marche que dans les grandes villes. Autrement dit, à l’échelle des USA, il semble que les sondages traditionnels soient toujours les plus indiqués pour avoir des résultats homogènes, car procédant de techniques homogènes elles aussi.

L’article mentionne l’usage d’images satellites. Un article parlait de la prédiction de la richesse d’un secteur d’après des images satellites

Un autre parlait de prédire la criminalité d’un quartier d’après des images Google Street View

Enfin, il y a cette utilisation de la cartographie des marques de mobile utilisées.

Souvent, ces solutions reposent sur des données et des services détenus par des GAFA. Au niveau ouverture et résilience, c’est assez moyen. Surtout que l’utilisation affirmée et assumée de variables simplistes telles que les marques de voiture, l’état général de la voirie et des bâtiments, la couleur de peau, peuvent conduire à une stéréotypisation de la société (“une AI peut-elle être misogyne, raciste ?” : rappelons-nous le chatbot de Microsoft sur twitter) et parfois une altération de la démocratie (“ce n’est pas moi qui ai décidé qu’il fallait intensifier les contrôles dans votre quartier, c’est l’algorithme”). Généralement, sans que le gain en terme de performance, de qualité de résultats et de coûts soit avéré par rapport à des méthodes traditionnelles (enquêtes, sondages, “crowdsourcing”) qui, elles, donnent souvent de bons résultats tout en étant stables dans le temps.

Ce serait intéressant d’avoir l’avis de l’insee par rapport à cet article :slight_smile: