Rotek

L’algorithme de Twitter est en ligne : ce que renferme cette boîte noire

Alexander Shatov via Unsplash

Twitter vient de mettre en ligne une partie de son code et tout ce qui concerne son algorithme. Découvrons les premiers détails trouvés sur l’algorithme de Twitter : ce qu’il renferme et pourquoi il a été publié.

À lire également : Ce que Twitter pense de vous grâce à son algorithme

Pourquoi Twitter a-t-il publié son propre algorithme ?

Ce 31 mars, dans un billet de blog, on apprend que Twitter met en ligne son algorithme de recommandation, celui agissant notamment sur l’onglet « Pour vous », le premier ouvert lorsqu’on se rend sur le réseau social. Première raison mise en avant : une volonté de transparence de la part de l’entreprise, dont l’image se ternit de plus en plus au fur et à mesure de ses décisions controversées, principalement poussées par son récent propriétaire, Elon Musk.

D’ailleurs, à partir du 15 avril, l’onglet « Pour vous », qui se base surtout sur les recommandations (et pas uniquement sur les comptes que vous suivez), n’affichera plus que deux types de tweets :

En tout cas, le code de l’algorithme de Twitter pour les recommandations est disponible sur Github et chacun peut le consulter. Toutefois, ce n’est pas parce que le code est en ligne qu’il est immédiatement compréhensible : des experts vont devoir s’y pencher en profondeur pour en comprendre les tenants et les aboutissants. La différence entre la communication de Twitter et le fonctionnement réel de l’algorithme peut être importante.

À lire également : Quels sont les mots que vous utilisez le plus sur Twitter ?

Ce qu’on apprend sur l’algorithme de Twitter en lisant son code

Dans son annonce, Twitter détaille clairement quelques manières de trier les tweets qui vont apparaître, en se focalisant sur l’onglet « Pour vous », bien que les annonces, l’exploration ou la recherche peuvent aussi se baser sur la recommandation de tweets. Premier élément, chaque tweet répond à deux questions :

Twitter précise que le « tunnel de recommandation » baptisé Home Mixer se base sur trois étapes :

  1. « Récupérer les meilleurs Tweets à partir de différentes sources de recommandation dans le cadre d’un processus appelé « sourcing » de candidats. »
  2. « Classer chaque Tweet à l’aide d’un modèle d’apprentissage automatique. »
  3. « Appliquer des heuristiques et des filtres, tels que le filtrage des Tweets d’utilisateurs que vous avez bloqués, du contenu NSFW et des Tweets que vous avez déjà vus. »
algorithme twitter

En fait, à chaque « requête » d’un utilisateur, Twitter essaie « d’extraire les 1500 meilleurs tweets d’un ensemble de centaines de millions de tweets à partir de ces sources » ; les sources étant à la fois des comptes que vous suivez et que vous ne suivez pas. Par rapport au ratio entre ces deux types de compte, Twitter assure faire du 50-50 : rappelons que récemment, le fil d’actualités a été modifié et met désormais en avant davantage de comptes non-suivis qu’auparavant.

Pour les comptes que vous suivez, la sélection est assez logique : un modèle prédit la probabilité d’engagement de l’utilisateur envers un compte qu’il suit (Real Graph). Pour chaque « twittos », il établit un score entre un utilisateur et celui-ci : plus il est élevé, plus les tweets sont susceptibles d’être montrés. Quant aux comptes que vous ne suivez pas, Twitter a recours à deux approches :

Sur les 1500 tweets susceptibles d’être affichés, Twitter réalise un classement afin de déterminer la pertinence de chaque tweet : c’est « le principal signal de classement des tweets sur votre timeline ». Pour cela, le réseau social utilise « un réseau de 48 millions de paramètres qui est continuellement entraîné ». Puis, Twitter mélange tout cela avec des filtres pour obtenir un fil relativement diversifié : il est à rappeler là aussi que Twitter a tendance à polariser les utilisateurs, et à créer des « bulles de filtre » comme tous les autres réseaux sociaux. Voilà quelques exemples de fonctionnalités qui agissent dans la création du fil :

Selon Twitter, ce Home Mixer est utilisé 5 milliards de fois par jour et fonctionne en 1,5 seconde en moyenne. Chaque exécution demande 220 secondes « de temps CPU ».

Ce que ne dit pas Twitter

Comme a pu le faire remarquer la start-up Deeplayer, tout juste créée par Defend Intelligence, influenceur et ingénieur en intelligence artificielle, il semblerait qu’il « y a des conditions sur les âges des utilisateurs », en fonction de s’ils ont plus ou moins de 30 ans. Aussi, si vous suivez « plus de 500 personnes et que le ratio following/follower est >0.6, vous serez moins vu ». Comme on pouvait s’y attendre, les comptes vérifiés (bientôt désormais tous payants », ont un score qui passe à une valeur de « 100 » directement, en termes de visibilité.

Pour Julien Topçu, dans les paramètres d’évaluation de probabilité d’interaction avec quelqu’un, « il y a le fait que le numéro de téléphone de la personne que vous suivez soit dans votre carnet d’adresse » sur votre smartphone (à condition que la permission soit activée). Parmi les interactions analysées, il y a les likes et les RT (ce qui est tout à fait normal), mais aussi les vues de profil, la lecture d’un tweet, le clic sur un lien, etc.

Aussi, le site Platformer a révélé il y a quelques jours une liste de 35 comptes favorisés dans l’onglet « Pour vous ». Une liste qui comprend bien sûr Elon Musk, mais aussi des sportifs, des influenceurs, des journalistes et des personnalités politiques par exemple : Joe Biden, LeBron James, MrBeast, etc.

Elon Musk : un traitement bien différent ?

Deeplayer précise qu’Elon Musk n’ait pas droit au même traitement que tout le monde. Mais ce n’est pas tout : il existe aussi des « power users » et des membres des partis démocrates et républicains américains, qui ont eu aussi des règles spécifiques. A priori, ces groupes seraient « là pour analyser le système de reco », pas nécessairement pour pousser le nombre de vues.

Quitter la version mobile