Dans le cadre des services de vision par ordinateur de Azure Cognitive Services, Microsoft offre un nouveau service de création automatique de légendes pour des images et des photographies, qui seraient, dans bien des cas, plus précises que les descriptions écrites par des êtres humains.

Il a en effet obtenu la parité avec les humains, puis les a dépassés, sur le benchmark nocaps – création à l’échelle de légendes pour de nouveaux objets.

C’est une avancée majeure, car les modèles traditionnels sont entraînés avec des ensembles de données où des images sont appairées à des phrases qui les décrivent.

Pour nocap, il faut émettre des descriptions pour des objets qui n’ont jamais été vus et ne font pas parti de l’ensemble de données connues.

Le nouveau service est également deux fois plus rapide que celui qu’il remplace, disponible depuis 2015.

Lijuang Wang, chercheuse en chef chez Microsoft Research, a dirigé l’équipe à l’origine de cette percée.

Ces légendes facilitent la recherche d’images pour tous.

Elles sont fondamentales pour aider les malvoyants et les aveugles.

C’est pourquoi le service est intégré à Seeing AI, une application gratuite qui décrit le monde autour de vous, disponible en allemand, anglais, espagnol, français, italien, japonais, néerlandais et turque.

Elle énonce tout texte qui apparaît devant la caméra, fournit une aide auditive pour scanner une page imprimée, dont elle reconnaît le texte, une aide auditive pour localiser les codes-barres et les scanner, reconnaît les amis et les personnes autour de vous et décrit leurs émotions, et ainsi de suite.

Plus tard cette année, le service de création de légende sera intégré à Microsoft Word et Outlook pour Windows et Mac, ainsi que PowerPoint pour Windows, Mac et le web.

Idéalement, un texte alternatif serait inclus dans toutes les images présentes dans un document, une page web ou dans les médias sociaux. Comme les gens ne le font pas, des applications exploitent le service à cet effet.

Durant les cinq dernières années, Microsoft a obtenu la parité avec les êtres humains dans cinq catégories majeures : la reconnaissance vocale, la traduction automatique, la réponse à des questions conversationnelles, la compréhension, et, en 2020, malgré le covid-19, la création automatique de légendes.