La dictée vocale : 10 ans déjà !

En 1996, à l’occasion d’un partenariat avec IBM et l’industrie pharmaceutique, nous avions fait découvrir aux cardiologues la dictée vocale « ViaVoice » et son dictionnaire cardiologique.

Après une phase d’engouement, cet outil a été un peu délaissé en raison des contraintes techniques et des mises à jour rendues nécessaire par l’évolution rapide des processeurs et des logiciels (Windows et Word) et du fait de la décision d’IBM de ne plus maintenir et distribuer les nouvelles versions en France (ViaVoice 10 USA).

Mais depuis, des produits matures et très efficaces sont venus sur le marché.

La reconnaissance vocale ou ASR (Automatic Speech Recognition) consiste à parler ou à dicter de manière continue à un PC, sans pause entre chaque mot, comme s’il s’agissait d’une conversation, pour obtenir une retranscription textuelle de la dictée. L’objectif est de remplacer totalement le clavier et la souris, c’est-à-dire les principales « interfaces » de l’ordinateur et d’augmenter ainsi le confort et le rendement professionnel de l’utilisateur au maximum.

Plusieurs études indépendantes ont confirmé que l’on peut générer un texte en le dictant à un PC seize fois plus rapidement que ne le ferait la meilleure dactylo du monde ! Nous parlons sept fois plus vite que nous ne transcrivons, ce qui signifie à l’évidence que la saisie au clavier prend beaucoup de temps. Lorsque la reconnaissance vocale est utilisée, les mots dictés sont transformés en texte en temps réel. La relecture et la mise en page du document ne prennent alors que quelques secondes.

Facile et ergonomique !

Les utilisateurs peuvent dicter directement dans la fenêtre du traitement de textes ou dans tout autre programme de Windows disponible sur le marché, comme Word, les programmes de courrier électronique et surtout dans les logiciels de gestion patients.

Actuellement, deux systèmes dominent le marché médical : – Dragon Naturally Speaking V8 (Mysoft), plus proche de ViaVoice ( IBM), elle permet de travailler seul ou en réseau avec sa secrétaire ; – SpeechMagic (Philips Speech Processing – Annotext DictaPlus) , permet, bien sûr, de travailler de façon isolée mais est plus adapté aux grosses structures avec notion de flux de travail via un serveur central, les documents étant traités par un pool de secrétaires.

Dragon Naturally Speaking V8

Naturally Speaking Professional est la version la plus performante de la gamme Dragon et permet de dicter sans avoir à marquer de pause entre les mots, à 160 mots par minute et plus.

à noter tout particulièrement : – dictée précise et vocabulaire immédiatement opérationnel, avec sa gestion multidictionnaires (21 dictionnaires de spécialités médicales), elle permet d’utiliser des vocabulaires optimisés, assurant une précision encore accrue ; – dictée du texte avec attachement du fichier son : idéal pour travailler avec un secrétariat, le traitement de texte de Dragon NaturallySpeaking Professional permet de sauvegarder le fichier texte avec le son attaché. Quand la secrétaire finalise le texte, elle peut, comme avec un magnétophone, vérifier ce que vous avez dicté ; – récupération des fichiers son d’enregistreurs numériques : avec les enregistreurs numériques compatibles, il suffit de connecter l’enregistreur au PC et le fichier son se transforme automatiquement en fichier texte ; – automatisation de textes et de comptes- rendus types : si vous utilisez fréquemment les mêmes textes, vous pouvez les faire apparaître à l’écran par un simple mot-clé. Cette automatisation ne connaît pas de limite de taille de textes et les textes peuvent comprendre des mises en forme pour une mise en page professionnelle ; – automatisation de commandes répétitives : le langage de macrocommandes et de scripts de Dragon NaturallySpeaking Professional vous permet de déclencher par une seule commande vocale les opérations les plus complexes. Dès lors le pilotage à la voix de votre PC ne connaît plus de limite… à part celle de votre imagination ; – optimiser Dragon Naturally- Speaking pour votre vocabulaire et vos tournures de phrases en lui faisant auditer des textes déjà rédigés ; – de nombreux périphériques peuvent être utilisés, enregistreur numérique, microphone à main, microphone sur pied, micro-casque sans fil, micro-casques USB afin d’optimiser les performances de Dragon NaturallySpeaking et de l’utiliser avec une ergonomie qui vous convient au mieux.

SpeechMagic

Philips, avec son logiciel SpeechExecPro , insiste plus sur la notion de flux de travail afin d’accélérer le traitement des documents et d’augmenter la mobilité tout en gardant son efficacité : – la convivialité de l’interface rend la prise en main facile et rapide ; – les inscriptions « parlées » améliorent la communication avec la secrétaire ; – les notifications « tâche démarrée » et « tâche terminée » réduisent le temps de traitement ; – les indexations de priorité permettent de définir aisément les tâches urgentes ; – le logiciel de dictée et transcription possèdent de multiples options de tri et filtrage ; – le transfert des fichiers dictés peut se faire sur le réseau du cabinet (intranet), par Email ou serveur FTP, autorisant ainsi le télé secrétariat, solution incontournable dans un futur proche ; – la protection des données par cryptage limite l’accès des documents aux seules personnes autorisées ; – le format DSS garantit la qualité de la voix et une taille minimale (quelques Ko) ; – de nombreux périphériques sont proposés, offrant la possibilité de dicter directement sur PC avec Speechmike ou d’utiliser -en déplacement- un Pocket mémo numérique voire téléphone mobile.

En conclusion, la dictée numérique associée à la reconnaissance vocale est maintenant arrivée à maturité et permet une organisation optimale du travail en diminuant les contraintes humaines et financières.

Informations complémentaires et adresses utiles : _ http://www.mysoft.fr _ http://www.dictation.philips.com _ DictaPlus France – Parc Esprit 1 – Rue Albert-Einstein, 18000 BOURGES _ Tél. : + 33 2 48 23 43 83 – Fax : + 33 2 48 23 43 89 – Site à consulter : http://www.dictaplus.fr _ Contact : Anne DURAND-BADEL – anne.annotext@wanadoo.fr

_ |

Domaine de recherche

La reconnaissance vocale peut se rattacher à de nombreux pans de la science : linguistique, théorie des langages formels, théorie de l’information, traitement du signal, réseaux neuronaux, intelligence artificielle… _ Aujourd’hui, la reconnaissance vocale est un domaine à forte croissance grâce à la déferlante des systèmes embarqués.

Principe de base

Une phrase enregistrée et numérisée est donnée au programme de reconnaissance vocale. Dans le formalisme ASR, le découpage fonctionnel est le suivant : – le traitement acoustique (front-end) permet principalement d’extraire du signal de parole l’image acoustique la plus significative possible sur des tranches de temps d’environ 30 ms. Cette image se présente souvent sous la forme d’un vecteur de caractéristiques (features extraction) de taille d’environ 10 coefficients ; – l’apprentissage (training) réalise une association entre les segments élémentaires de paroles et les éléments lexicaux. Cette association fait appel à une modélisation statistique entre autres par modèles de Markov cachés (HMM, Hidden Models Markov) et/ou par réseaux de neurones artificiels (AAN) ; – la reconnaissance (back-end) qui en concaténant les segments élémentaires de paroles précédemment appris reconstitue le discours le plus probable. Il s’agit donc d’une correspondance de motif (pattern matching) temporelle, réalisée souvent par l’algorithme de déformation temporelle dynamique (DTW).|

Jean-Pierre Huberman

image_pdfimage_print

Soyez le premier à commenter

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.