Il y a une semaine, des chercheurs de Google AI ont publié un article, annonçant la « publication d’une nouvelle approche de la perception de la main ». La firme est connue pour son investissement dans les nouvelles technologies, et plus particulièrement dans la recherche pour l’IA. Elle le prouve encore une fois avec ce nouveau projet, qui facilitera sans nul doute nombre la situation de beaucoup de gens.
IA Google : un projet ouvert à toutes et à tous
Deux chercheurs, Valentin Bazarevsky et Fan Zhang, ont permis ce projet : leur idée était en effet de créer un algorithme open-source, capable de capter et reconnaître les mouvements de la main. Chose importante à préciser : ils annoncent avoir posé les bases de la compréhension du langage des signes, et une porte-parole de Google a déclaré que les membres du projet étaient impatients de voir ce que les gens proposent pour améliorer le logiciel. Quant à eux, ils poursuivront leurs recherches pour renforcer cette technologie et assurer la stabilité du suivi, c’est-à-dire en augmentant le nombre de gestes que l’IA de Google est capable de reconnaître.
La méthode de détection/reconnaissance
Jusqu’à présent, lorsque des ingénieurs tentaient de suivre les mouvements des mains grâce à des programmes informatiques, ils étaient confrontés à des problèmes comme le fait que des doigts courbés peuvent cacher d’autres parties de la main. Pour faire face à ces difficultés, l’équipe de Google a modélisé un graphique de 21 points situés à différents endroits de la main, ce qui permet de reconnaître certains mouvements particuliers. Pour ce faire, les chercheurs se sont basés sur la technologie MediaPipe : un logiciel qui repose sur le machine learning et qui, grosso modo, prend en entrée des données sensorielles (tel qu’un flux audio ou vidéo), et le fait traiter par un graphique qui renvoie des informations descriptives. En prenant notre exemple, les chercheurs entrent une vidéo de mains parlant avec le langage des signes et peuvent ainsi reconnaître ce que la personne a voulu dire, grâce à un graphique prédéfini.
Le futur du projet d’IA de Google
Les chercheurs expliquent que le fait que MediaPipe soit très efficace, fonctionne en temps réel et soit multi-plateforme, permet d’ouvrir un champ de possibilités bien plus large que la simple description d’image. Aussi, ils estiment qu’ouvrir le code au public va permettre d’apporter une certaine créativité au projet, et bâtir une IA de plus en plus forte.