Intelligence Artificielle

Google Duplex, un drapeau sur la lune

Impossible pour moi de louper cela. Il y a environ un mois, lors de la conférence Google IO, une démonstration de Google Duplex a fait parler d’elle. Une machine qui appelle un salon de coiffure pour me prendre un rendez-vous ? Wow. Certains sont ébahis, d’autres sceptiques, d’autres encore effrayés. Que dois-je comprendre de cette démonstration de force ?

 

Le Saint-Graal quand on travaille autour de l’intelligence artificielle, c’est de passer un test de Turing. Même si les modalités de ce test sont définies de manière très précises et sont très différentes du cadre de la démonstration présentée, faire passer ce test à une intelligence artificielle revient à ce qu’un humain soit incapable de différencier cette intelligence artificielle d’un autre humain. Google offre ici une fois de plus une démonstration spectaculaire vis-à-vis du grand public de son avancée technologique. Une sorte de drapeau sur la lune de l’intelligence artificielle, qui ne peut que rappeler le match AlphaGo contre Lee Sedol il y a 1 an.

Le niveau de performance des technologies d’IA utilisées par Google

Mais que montre réellement cette démonstration sur le niveau de performance des technologies d’intelligence artificielle utilisées par Google ? Le média Axios s’interroge sur le fait que les commerçants interlocuteurs (un coiffeur et une employée de restaurant) que l’on entend dans la démonstration soient réellement des commerçants, et qu’ils soient réellement ignorants de l’expérimentation. C’est comme dans un spectacle de magie : comment savoir si mon voisin, choisi pour monter sur scène, n’est pas un complice du prestidigitateur ? Il n’y a aucune preuve tangible, mais cela importe finalement assez peu. Dans tous les cas, ces conversations ont été choisies pour la démonstration, elles ne sont donc en aucun cas des preuves réelles de performance. Il serait aisé, même pour une intelligence artificielle de très mauvaise qualité, de sélectionner 2 exemples parmi des milliers qui donnent des résultats intéressants. En d’autres termes, si la démonstration était entièrement scénarisée, elle ressemblerait exactement à celle que l’on a vue. Pour avoir une mesure objective, même qualitative, du niveau de performance, il aurait fallu avoir une démonstration en temps réel avec des interlocuteurs assurément ignorants de l’expérimentation.

Des prouesses technologiques

Mais considérons un instant que Google nous présente ici des exemples représentatifs de la performance de son assistant. Quels seraient les prouesses technologiques que cela mettrait en lumière ?

À mon sens, il faut ici distinguer trois grandes familles de technologies qui permettent de donner vie à tel assistant.

Les technologies de reconnaissance vocale et de génération vocale

D’une part il y a les technologies de reconnaissance vocale (speech-to-text) et de génération vocale (text-to-speech). Ce sont celles qui produisent généralement les résultats les plus spectaculaires et sont les plus visibles, car très présentes dans notre quotidien. Dans cette démonstration, Google impressionne avec une intonation plutôt naturelle, avec un ‘uhuh’ très humain, et la compréhension de conversations de mauvaise qualité audio avec des personnes ayant des accents très variés. Si les conversations exhibées sont représentatives de la majorité des cas réels que traite l’assistant, c’est en effet impressionnant par rapport à ce qui existe aujourd’hui, en particulier sur la compréhension d’accents variés.

« Google impressionne avec une intonation plutôt naturelle  » @NicolasMarlierTweet:

Les technologies de compréhension d’intention et d’interprétation de méta-données

D’autre part, les technologies de compréhension d’intention et d’interprétation de méta-données. En clair, la partie “la machine comprend le sens de ce qu’on lui dit”. C’est un sujet que nous connaissons bien chez Julie Desk, et il est aujourd’hui concevable qu’avec un important volume de données (dont dispose largement Google), un algorithme donne des résultats satisfaisants. Pour cette brique technologique, toute la problématique réside dans le fait de passer d’un algorithme qui se trompe dans 10% des cas, à un algorithme qui se trompe dans 5%, 1% voire 0.1% des cas. C’est une problématique que nous travaillons chez Julie Desk et l’une des raisons pour lesquelles la supervision humaine intervient. Sur cet aspect, le qualitatif ne peut pas vraiment être impressionnant, c’est le taux de compréhension quantitatif qui le serait.

Le « cerveau central » de l’assistant

Enfin, la technologie de moteur de décision, le “cerveau central” de l’assistant. La technologie qui permet de générer une action pertinente face à une demande. Par exemple, le fait que l’assistant réponde “9 personnes” si on lui demande “Combien ?” dans le cadre d’une réservation de restaurant. Sur ce sujet, la variété et la pertinence des actions prises par l’assistant dans la démonstration traduit un moteur de décision d’une bonne performance. La réelle problématique d’un tel moteur de décision est de bien réagir dans le contexte le plus ouvert possible. Si on se restreint à la prise de rendez-vous par exemple, le sujet est déjà plutôt complexe, mais les natures des demandes et des actions dans ce contexte est dénombrable et appréhendable. En revanche, si l’on souhaite que l’assistant réponde de manière pertinente sur un contexte ouvert, cela devient extrêmement plus difficile.

D’une manière générale, la démonstration est impressionnante et peut traduire une réelle avancée technologique des équipes de Google, mais sans garantie aucune. D’autre part, il est certain que sur ces familles de technologies, la difficulté la plus grande n’est pas de passer de 50% de performance à 80% de performance, mais bien de 80 % à 90%, et au-delà. En d’autres termes, il y a un monde entre cette démonstration et un système fiable utilisable.

« Il y a un monde entre cette démonstration et un système fiable utilisable » @NicolasMarlierTweet:

Enfin, un autre aspect qui est intéressant dans cette démonstration est la vision proposée, celle d’un monde pleinement digitalisé, c’est-à-dire où le monde virtuel peut interagir dans le monde réel. Il est intéressant de noter qu’au début de la démonstration, le présentateur explique que 60% des petites sociétés aux Etats-Unis ne sont pas équipées d’un système de réservation en ligne. Dans la vision d’un monde pleinement digitalisé, il faut en effet qu’une requête depuis le monde virtuel puisse réserver l’un de ces restaurants, coiffeurs ou autre. Je partage la vision d’un monde digitalisé, qui ouvre des opportunités innombrables, mais j’ai la conviction que 95% de ces sociétés seront équipées de systèmes de réservation en ligne bien avant qu’un assistant à intelligence artificielle puisse conduire des conversations complexes de manière fiable au téléphone.

Entre intrigue, peur et émerveillement le lancement de Google Duplex fait parler ! Allez-vous tester cette technologie à sa sortie ? Dites-le nous en commentaire ! 

Nicolas MarlierNicolas Marlier est l’un des co-fondateurs de Julie Desk, il en est également le CTO.

Vous pouvez retrouver son interview ici ou le suivre sur Twitter ou LinkedIn.

infographie - comment fonctionne julie desk