Cette publication est une ressource concernant les recherches sur le thème lié Ce qu’internet fait à la politique - Chose publique 2018
« A quoi rêvent les algorithmes ? », Dominique Cardon, octobre 2015, Edts du Seuil et La République des Idées.
Fiche de lecture.
Remarque : en italique, ce qui est pris dans le texte
Comprendre la révolution des calculs Introduction p7
Comme une recette de cuisine, un algorithme est une série d’instructions permettant d’obtenir un résultat. A très grande vitesse, il opère un ensemble de calculs à partir de gigantesques masses de données (les «big data»). (…) Nous fabriquons ces calculateurs, mais en retour ils nous construisent.*
Les calculs sont partout. Nous craignons les calculateurs, leur froide rationalité (…) et redoutons que (les machines) prennent le pouvoir sur nous. Nous aimons leur opposer notre» subtile sagacité.
Il serait pourtant erroné de séparer les humains de leur environnement sociotechnique.**
L’objet de ce livre est de comprendre ce que la révolution des calculs apportée par les big data est en train de faire à nos sociétés. Il décrit le monde auquel rêvent les algorithmes (…).
Chiffrer le monde p8
Longtemps les calculs ont surtout été l’affaire des Etats et des entreprises, conçus comme des instruments politiques aux mains des décideurs sans que les statisticiens et autres acteurs ne cherchent à influencer le comportement des mesurés.
Un tournant s’est effectué à partir des politiques néolibérales des années 1980 : il y a eu une systématisation de la politique des indicateurs.(…) Les instruments statistiques sont devenus une technique de gouvernement.
Aujourd’hui, avec le développement des algorithmes, l’ampleur de la calculabilité est inédite : les chiffres (sont) devenus des signaux numériques sur les interfaces, des fils d’actualité aux trajets GPS par exemple… Deux dynamiques à ce mouvement :
● l’accélération du processus de numérisation des sociétés (chaque jour, 30 milliards de pages indexées par Google avec 3,3 milliards de requêtes ; 350 millions de photos et 4,5 milliards de like sur Facebook ; 144 milliards de mails échangés par 3 milliards d’internautes, par exemple).
● le développement des algorithmes pour donner du sens à ce magma des données brutes. La calculabilité des traces de nos activités est infinie (déplacements, tickets de caisse, clics sur Internet, consommation électronique, temps de lecture d’un livre sur les tablettes, etc.).
Ouvrir la boîte noire p12
Nous critiquons mais nous interrogeons rarement la manière dont sont produits les calculs.
Une radiographie critique des algorithmes est un enjeu démocratique aussi essentiel qu’inaperçu.
(…)
Ma conviction est qu’ ,(…), il est nécessaire d’encourager la diffusion d’une culture statistique vers un public beaucoup plus large que celui des seuls spécialistes.
Le propos de ce livre n’est pas(toutefois) mathématique : il est pleinement politique. Les calculateurs imposent une hiérarchisation des valeurs qui, finalement, en vient à dessiner les cadres cognitifs et culturels de nos sociétés. Ils opèrent dans un «milieu associé»** (…) qui les rend efficaces et pertinents. La technique n’est pas qu’un «alien».
Que valorisent nos sociétés dans leur façon de compter et de classer ?
Il suffit d’ouvrir la boîte noire des calculateurs pour constater qu’ils servent des desseins très différents à l’image des oppositions suivantes : PIB /IDH (Amartya Sen), classification en déciles/ en centiles (CF Camille Landais et Thomas Piketty, diffusion du slogan « Nous sommes les 99% » au début des années 2010).
Mais plus encore, les manières de chiffrer l’information calculent une nouvelle forme du social, la société des comportements, qui permettent aux logiques de personnalisation de s’installer dans nos vies. C’est la thèse de ce livre qui voit la relation entre le centre de la société et des individus de plus en plus autonomes se recomposer.
1- Quatre familles de calcul numérique p17
Quatre manières de produire de la visibilité avec les calculs sont proposées en fonction de la place qu’occupe le calculateur par rapport au monde qu’il entend décrire. Les mesures peuvent se trouver à côté, au-dessus, dans ou en-dessous des données numériques. (CF tableau page 18)
A côté du web : l’imprécise popularité des clics p19
La première technique de calcul, à partir des années 1990, se place à côté du web pour mesurer l’audience des sites et leur popularité.
(Cette mesure) mime le vote démocratique (…) avec une asymétrie entre un centre restreint d’émetteurs (l’espace médiatique ou encore l’espace politique) et une population silencieuse de récepteurs (les téléspectateurs ou les électeurs) que fédèrent les programmes populaires en faisant naître (une) communauté imaginée* (participant) à la formation des représentations collectives des citoyens.
L’indicateur : compter les clics des visiteurs en utilisant la notion de «visiteur unique» vérifiée à travers l’adresse IP (Internet Protocol). D’après Wikipédia, l’adresse IP est un numéro d’identification attribué de façon permanente ou provisoire à chaque périphérique relié à un réseau informatique qui utilise l’Internet Protocol (famille de protocoles -règles- de communication de réseaux informatiques conçus pour être utilisés sur Internet). Pour en revenir à notre propos, cette adresse est la principale unité de compte de la popularité des médias en ligne, donc du tarif des publicités.
La mesure d’audience sert toutefois de plus en plus à mesurer des «parts de marché» (et moins à fabriquer le «public»*) avec le paradoxe suivant accru sur le web : cette mesure est imprécise et de plus en plus contestée (par les nouvelles techniques de personnalisation) alors qu’elle obsède les sites.
Sur le web, il y a deux techniques d’enregistrement de l’audience :
● soit sur le modèle des médias de masse, centrée sur l’utilisateur ou user-centric, à partir d’un panel représentatif de la population des internautes (Médiamétrie/NetRatings, 20 000 personnes pour la France). Elle présente de redoutables imprécisions : – elle a du mal à suivre la panéliste sur les différents terminaux qu’il utilise ; – elle suppose une équivalence entre la navigation sur le web aux parcours multiples, rapides et enchevêtrés et une information lue, vue ou entendue dans les médias traditionnels ; elle ne parvient à classer qu’une infime fraction de sites populaires et centraux (le nombre de sites étant très important) en comparaison du nombre de chaînes et journaux.
Finalement, (elle) ne sert de convention que pour la petite élite au sommet du web.
● soit par une mesure centrée sur le site ou site-centric . Le trafic des sites est connu par les webmestres grâce aux outils de supervision (Google Analytics pour le plus célèbre), comme sont connus l’adresse IP de la machine qui se connecte, le site de départ, la durée de consultation de leur page. Toutefois, en l’absence de régulation du secteur, il est très facile de manipuler ces mesures d’audience. Par ailleurs, les sites d’informations cherchent à attirer de l’audience à travers des contenus divertissants, les «attrape-clicks)- ou clickbait. Ce qui fausse la mesure.
On a, ici, une mesure machinique qui ne révèle ni qui est derrière le terminal, ni si la page ouverte a été lue, ni quelles sont les propriétés sociodémographiques des visiteurs. Le cookie***,(…) fichier « mouchard » va devenir le cheval de Troie des publicitaires et des grandes plateformes du web pour pénétrer l’intimité des internautes … : le reconnaître avec le mot de passe et recueillir des informations sur ses navigations passées permettant de constituer un profil.
Entre mesure user et site centric se forment ainsi deux types de connaissance de l’audience qui dessinent (la) polarité suivante : ●l’intérêt des professionnels du marketing traditionnel pour la «qualification» de leur public ; ●la mise en place d’une connaissance par profil où les comportements sont enregistrés sans connaître vraiment les individus.
Toutefois, la popularité n’est pas gage de qualité. D’où la création d’un autre système de classement qui s’appuie sur la qualité de l’information.
Au-dessus du web : l’autorité des méritants p24
Avec l’arrivée de Google en 1998, une nouvelle méthode statistique se développe pour détecter la qualité de l’information… en plaçant le calculateur au-dessus du web.
Sergey Brin et Larry Page, les fondateurs de Google, vont « proposer » à l’algorithme de mesurer la force sociale de la page dans la structure du web en s’appuyant sur les liens hypertextes. Ils partent du principe qu’un site qui reçoit d’un autre un lien, reçoit en même temps un témoignage de reconnaissance qui lui donne de l’autorité. Le Pagerank de Google ordonne les informations à partir de ce principe. Les sites les mieux classés sont ceux qui ont reçu le plus de liens hypertextes venant de sites qui ont, eux-mêmes, reçus le plus de liens hypertextes des autres. Le classement se fait donc à partir d’un vote censitaire au fondement méritocratique. (CF B. Kotras, « le découpage communautaire du web »)
Les lecteurs silencieux sont oubliés et le dénombrement des liens n’a rien du vote démocratique.
La qualité de la mesure dépend étroitement, à priori, du fait que ceux qu’elle mesure n’agissent pas en fonction de son existence. Mais Google doit apporter des modifications incessantes à l’algorithme, pour décourager ceux qui essaient de tromper son classement.
Deux reproches vont toutefois induire un second tournant dans l’histoire des classements numériques :
● tout d’abord le fait que l’agrégation du jugement des pairs produit de puissants effets d’exclusion et de centralisation de l’autorité. (…) L’aristocratique mesure d’autorité s’abîme alors en une vulgaire mesure de popularité.
●ensuite, il y a un effet censitaire des mesures d’autorité dans la mesure où ne participent au classement de l’information que ceux qui publient des documents comportant des liens hypertextes, comme les détenteurs de sites ou les blogueurs (…).Exit les créateurs de pages Facebook ou de comptes Twitter par exemple.
A l’intérieur du web : la fabrique de la réputation p29
Ici, les internautes se mesurent eux-mêmes : le calculateur est dans le web. Ils cherchent à se forger une réputation. Le symbole en est le « like» de Facebook.
Alors que dans le monde de l’autorité, la visibilité se mérite, dans celui des affinités numériques, elle peut se fabriquer : les internautes deviennent calculateurs.
Le websocial de Facebook, Twitter, Pinterest, Instagram, etc., s’est ainsi couvert de chiffres et de petits compteurs, des «gloriomètres» pour reprendre une expression de Gabriel Tarde.
Parallèlement, un autre ensemble de métriques est apparu : le dispositif « notes et avis» qui induit des critiques particulières comme le fait qu’une minorité active fabrique la majorité des évaluations, y compris de nombreux faux avis.
Si on écarte ce dispositif de l’analyse, un constat essentiel est que dans un espace où la visibilité est importante, il existe un décalage entre ce que les individus disent faire et ce qu’ils font réellement. Ainsi, les calculateurs vont chercher non plus uniquement à interpréter ce que disent les internautes, mais plutôt s’efforcer de suivre leurs traces.
Au-dessous du web : la prédiction par les traces p33
Le futur de l’internaute est prédit par le passé de ceux qui lui ressemblent. (… Il s’agit désormais de calculer le profil de l’utilisateur à partir des traces de ses activités, en développant des techniques d’enregistrement qui collent au plus près de ses gestes.
On parle d’un marketing comportemental en opposition au marketing traditionnel des mesures d’audience par les algorithmes de la première famille.
Le marché de l’affichage publicitaire sur le web se scinde désormais en deux :
● d’une part les pages les plus visitées des gros sites web vendant aux annonceurs des bannières publicitaires à un prix estimé raisonnable (exprimé en CPM : coût pour mille affichages) ;
● d’autre part, les pages les moins visitées où se développent des publicités comportementales ciblées affichées automatiquement et vendues à bas prix. Ce développement a été rendu possible par la techniques des cookies tiers propriété de régies publicitaires en ligne, les ad-network comme Weborama, Double-Click, Critéo ou Right Media. Les ad-network sont des ensembles de sites ou d’applications mobiles regroupés dans le cadre d’une offre publicitaire plus ou moins homogène Ainsi, lorsqu’un site web confie une partie ou la totalité de la publicité sur son site à un ad-network, il (l’)autorise à profiter des informations de navigation de l’internaute non seulement sur le site qui a servi de cheval de Troie pour introduire le cookie*** dans le navigateur, mais aussi sur l’ensemble des sites affiliés à cette régie. Mouchard local, le cookie devient alors un espion doté d’un don d’ubiquité. CF schéma du CNIL page 36
Ceci est accru par la technique dominante sur ce marché publicitaire du reciblage ou retargeting : une même publicité va être proposée sur tous les sites visités par l’internaute.
De nombreuses critiques s’élèvent à l’encontre de ces mouchards. Des internautes de plus en plus nombreux essaient de s’en prémunir, mais les réseaux publicitaires cherchent à développer des innovations plus discrètes. La guerre du traçage commence tout juste : (…) il devient urgent que les régulateurs imposent des règles beaucoup plus dures et exigent des internautes un consentement vraiment éclairé.
Pour écrire cet article nous nous sommes aidé des sources suivantes : Autres