Microsoft a déposé une demande de brevet sous le titre « Silent Voice Input (entrée voix silencieuse) ». De quoi s'agit-il ? La commande vocale a souvent l'inconvénient de déranger les personnes proches du locuteur. La nouvelle « reconnaissance d'élocution non voisée » interprète les commandes chuchotées. Cela a aussi un autre avantage : les chuchotements sont inintelligibles pour l'entourage.

Avec Siri, Cortana, Alexa, et autres assistant(e)s vocaux, la reconnaissance vocale gagne du terrain en domotique et dans les PC des particuliers, lentement mais sûrement. Mais, comme tous les progrès, la commande vocale s'accompagne d'inconvénients. Les deux principaux sont la gêne occasionnée envers ceux qui entendent involontairement ainsi que le risque de voir des informations confidentielles captées délibérément ou non par ceux aux oreilles desquels elles parviennent. Ce qui, à la maison reste à la rigueur acceptable, peut devenir un sérieux problème en public, au bureau et dans bien d'autres situations.

Silent Voice Input

Le brevet de Microsoft décrit un procédé dans lequel un microphone spécial est placé très près devant la bouche. Ironie du sort, cette reconnaissance vocale, est en fait une reconnaissance de chuchotement. Selon Microsoft, si vous chuchotez vos commandes, vous ne dérangez plus personne et la confidentialité reste entière. À dire vrai, il ne s'agit pas d'un chuchotement normal, mais d'une voix dite « inchoative » ou « ingressive ». Le chuchotement se fait en inspirant. C'est pourquoi les personnes proches ne devraient rien entendre.

Dans une vidéo de présentation de cette technique, nous voyons que la reconnaissance vocale fonctionne sans que personne n'entende. Avant et après, le locuteur parle normalement. Selon Microsoft, l'élocution « ingressive » empêche les distorsions de la voix. Pour que cela fonctionne, il faut que le microphone soit très près de la bouche. La distance est de l'ordre d'un à deux millimètres.

 
Vidéo YouTube : Démonstration de reconnaissance vocale d’élocution ingressive.

La faible distance est censée réduire un peu plus la diffusion des sons vers l'extérieur. Applications envisagées : objets à intelligence embarquée, par ex. montres, téléphones, smartphones, combinés casque/microphone, télécommandes TV, etc.

Utopie ?

Tout cela c'est bien beau, mais est-ce vraiment utilisable ? Les utilisateurs ne vont-ils pas être mal à l'aise de chuchoter à l'oreille – pardon, au micro – de leur montre ou smartphone plutôt que de parler normalement dans la pièce ? Et peut-on réellement attendre des gens qu'ils apprennent l’élocution ingressive et qu'ils la pratiquent ? Essayez pour voir – cela nécessite une accoutumance certaine. En théorie, cela serait probablement un progrès si la reconnaissance vocale se contentait de chuchotements normaux, mais de là à penser que les gens vont apprendre une technique spéciale d'élocution...