Les ordinateurs apprennent à lire sur nos lèvres
Dans le film 2001 l’odyssée de l’espace, l’ordinateur HAL 9000 épie la conversation de deux astronautes en lisant sur leurs lèvres. Près de 50 ans plus tard, deux scientifiques ont élaboré une méthode de lecture labiale. Non pour nous espionner, mais pour améliorer les performances des systèmes de reconnaissance automatique de la parole.
L’interaction homme-machine a progressé à pas de géant depuis l’invention des cartes perforées, mais le chemin sera encore long avant que nous puissions interagir de façon naturelle avec l’ordinateur, c’est-à-dire au moyen de paroles, gestes et expressions faciales.
Dans le domaine de la parole, les techniques de reconnaissance vocale ont suffisamment progressé pour permettre à des applications comme Siri (Apple) et Now (Google) de voir le jour, et les programmes de conversion texte-parole fonctionnent eux aussi en temps réel. Dans le domaine des expressions faciales par contre, les systèmes de reconnaissance automatique de la parole s’appuyant sur le mouvement des lèvres d’un locuteur se montrent moins performants. Une nouvelle méthode de lecture labiale laisse toutefois espérer des progrès.
Une nouvelle méthode de lecture labiale
Helen Bear et Richard Harvey, deux chercheurs de l’université anglaise d’East Anglia, ont décrit leur méthode de « décodage des visèmes » dans les comptes-rendus de la conférence ICASSP 2016 (International Conference on Acoustics, Speech, and Signal Processing).
En dehors des améliorations que cette méthode pourrait apporter aux systèmes de reconnaissance automatique de la parole, Helen Bear, qui étudie les mécanismes de reconnaissance audio-visuelle de la parole depuis des années, cite d’autres applications possibles : systèmes destinés aux personnes atteintes de troubles de l’audition, programmes d’aide aux communications en milieu bruyant, ou encore détermination des paroles d’un locuteur d’après des images uniquement vidéo, par exemple celles d’une télévision en circuit fermé. [HM]
La suite de cet article est en anglais.
Dans le domaine de la parole, les techniques de reconnaissance vocale ont suffisamment progressé pour permettre à des applications comme Siri (Apple) et Now (Google) de voir le jour, et les programmes de conversion texte-parole fonctionnent eux aussi en temps réel. Dans le domaine des expressions faciales par contre, les systèmes de reconnaissance automatique de la parole s’appuyant sur le mouvement des lèvres d’un locuteur se montrent moins performants. Une nouvelle méthode de lecture labiale laisse toutefois espérer des progrès.
Une nouvelle méthode de lecture labiale
Helen Bear et Richard Harvey, deux chercheurs de l’université anglaise d’East Anglia, ont décrit leur méthode de « décodage des visèmes » dans les comptes-rendus de la conférence ICASSP 2016 (International Conference on Acoustics, Speech, and Signal Processing).
En dehors des améliorations que cette méthode pourrait apporter aux systèmes de reconnaissance automatique de la parole, Helen Bear, qui étudie les mécanismes de reconnaissance audio-visuelle de la parole depuis des années, cite d’autres applications possibles : systèmes destinés aux personnes atteintes de troubles de l’audition, programmes d’aide aux communications en milieu bruyant, ou encore détermination des paroles d’un locuteur d’après des images uniquement vidéo, par exemple celles d’une télévision en circuit fermé. [HM]
La suite de cet article est en anglais.