Vous en avez assez de taper manuellement des textes dans des éditeurs de documents comme Word et Notepad ? Utilisez le service Microsoft speech to text. Ce service a été lancé en 2020, parallèlement au service de synthèse vocale, qui comprend de célèbres voix générées par ordinateur comme Microsoft Sam et son frère, Mike. Dans cette courte lecture, vous apprendrez ce qu'est le service Microsoft Azure Speech to Text et ses capacités. Je vous présenterai également les meilleures alternatives à Microsoft Azure STT. Allons-y !
Dans cet article
Partie 1 : Qu'est-ce que Microsoft Azure et Speech Studio ?
Microsoft Azure STT et TTS font partie de Microsoft Cognitive Services Speech. Ces services cognitifs sont dotés d'une intelligence de pointe couvrant la reconnaissance vocale, la reconnaissance du locuteur, la traduction automatique et l'OCR ( Optical Character Recognition). Le service Microsoft speech to text utilise Azure Machine Learning (Azure ML) pour reconnaître, analyser et convertir automatiquement les voix humaines en textes éditables et consultables.
Cela dit, Azure STT vous permet de transcrire des flux audio, des commentaires de micro ou des fichiers audio locaux. Il prend en charge plus de 100 langues, dont l'anglais, l'allemand, le français, le swahili, l'hindi, l'ukrainien, le turc, l'arabe, etc. N'oubliez pas que ce service prend également en charge la transcription par lots, ce qui vous permet de transcrire plusieurs fichiers audio par lots.
En attendant, Azure STT est disponible dans de nombreux formats, notamment Speech SDK. Speech SDK (Software Development Kit) vous permet d'utiliser les langages de programmation les plus courants pour créer une application vocale. Il est compatible avec Java, JavaScript, Python, Visual Studio C++, Swift et Objective-C.
Si vous n'êtes pas doué pour les langages de programmation, utilisez Speech CLI, un outil de commande qui vous permet d'utiliser le service de reconnaissance vocale sans saisir de code. En d'autres termes, elle se caractérise par une installation minimale et des exigences précises. De plus, il comporte à peu près tout ce que vous trouverez dans Speech SDK. Cela dépend donc de vos compétences et de vos préférences.
Il convient également de noter qu'Azure Speech Studio prend en charge la reconnaissance des mots-clés ou le repérage des mots-clés. Vous pouvez générer des modèles de reconnaissance de mots-clés et spécifier n'importe quelle courte phrase ou n'importe quel mot. Les utilisateurs peuvent également personnaliser les mots-clés avec les ponctuations correctes. Et surtout, il n'y a pas de frais supplémentaires pour la personnalisation des mots-clés.
Partie 2 : Guide étape par étape pour transcrire la parole en texte avec Microsoft Speech Studio
Voyons maintenant comment utiliser les services de reconnaissance vocale de Microsoft Azure. N'oubliez pas que la conversion peut ne pas être précise si l'audio contient beaucoup de jargon propre à un domaine ou de bruits ambiants. Par conséquent, utilisez un son clair et net avec un micro externe ou entraînez le logiciel à reconnaître des mots spécifiques ou des mots-clés. C'est parti !
Étape 1 : Commencez par créer un compte Microsoft Azure. Vous commencerez par la version gratuite, qui vous donne un crédit de 200 $ à utiliser dans les 30 jours. Après avoir épuisé les crédits gratuits, utilisez le modèle de paiement à l'utilisation, qui permet de débloquer plus de 40 services Azure.
Étape 2 : Après avoir créé un portail Microsoft Azure, vous verrez tous les services Azure. Cliquez sur l'onglet Services vocaux ou recherchez " services vocaux " dans la barre de recherche. Cliquez maintenant sur Créer, puis remplissez les détails du projet. Ensuite, cliquez sur Réviser et Créer avant de cliquer sur Créer.
Étape 3 : Le programme prendra un certain temps pour déployer une instance. Appuyez maintenant sur Clés et points de terminaison dans le volet de gauche et copiez la clé et l'identifiant de région, car vous pourriez en avoir besoin ultérieurement.
Étape 4 : Téléchargez et installez Microsoft Visual C++ et .NET Core 3.1 Runtime. Ensuite, installez Speech CL sur .NET en exécutant cette commande " dotnet tool install -global Microsoft.CognitiveServices.Speech.CLI ". Vous pouvez également télécharger et installer Speech CLI pour les PC Windows sous forme de fichier ZIP.
Étape 5 : Saisissez maintenant l'identifiant régional Azure et la clé d'abonnement sur Windows Terminal ou PowerShell. Pour configurer la région et la clé, exécutez les commandes suivantes : " spx config @key --set SUBSCRIPTION-KEY et spx config @region --set REGION ".
Étape 6 :Il est maintenant temps de convertir la parole en texte à l'aide du service Azure STT. Pour ce faire, exécutez " spx recognize -microphone " sur Terminal ou PowerShell. Azure Speech CLI écoutera l'entrée sonore et la convertira en texte. Et voilà !
Partie 3 : Quelles sont les alternatives gratuites au service Speech to Text de Microsoft ?
Nous sommes tous d'accord pour dire que l'utilisation du service vocal Azures de Microsoft n'est pas une simple démarche. Vous devez avoir quelques connaissances en programmation et en Windows Command Prompt. Pire encore, vous devrez payer chaque fois que vous voudrez convertir de la parole en texte après avoir épuisé les crédits gratuits.
Heureusement, les convertisseurs parole-texte gratuits pour les débutants ne manquent pas. Ainsi, dans cette partie, nous allons discuter de quelques alternatives gratuites à Microsoft Azure STT pour les débutants.
1.Wondershare Filmora 11 - Gratuit avec un plan premium de 49 $.
Commençons par le meilleur convertisseur parole-texte hors ligne pour les systèmes macOS et Windows - Filmora 11. Il s'agit d'un éditeur vidéo permettant de créer des vidéos primées sans connaissances préalables en matière de montage. Il suffit de télécharger votre vidéo locale et de l'éditer comme bon vous semble. Et oui, il fonctionne avec une multitude de formats vidéo.
Pour en revenir au sujet d'aujourd'hui, Filmora 11 utilise une intelligence artificielle avancée couplée à un apprentissage automatique profond pour transcrire l'audio rapidement et avec précision. La fonction STT convertit les sons audibles en textes ou sous-titres éditables avec une synchronisation très précise. Cet outil prend en charge plus de 16 langues, dont l'anglais, le français, l'allemand, etc. En outre, vous pouvez télécharger le texte extrait au format SRT.
Suivez ces étapes pour transcrire de l'audio en texte avec Filmora 11 :
Étape 1 : Installez la dernière version de Wondershare Filmora ou mettez à jour votre version vers Filmora 11. Ce n'est qu'avec la version mise à jour que vous obtiendrez les fonctions STT et TTS. Néanmoins, commencez un nouveau projet.
Étape 2 : Ensuite, cliquez sur Importer un média pour charger le fichier vidéo ou audio que vous souhaitez convertir en texte. Après avoir téléchargé la vidéo, faites-la glisser vers la timeline d'édition et séparez l'audio de la vidéo. Pour ce faire, cliquez avec le bouton droit de la souris sur la vidéo et choisissez Détacher l'audio. L'idée est d'extraire des textes de votre fichier audio.
Étape 3 : Sélectionnez maintenant la piste audio et cliquez sur l'icône Speech-to-Text. Ou bien, faites un clic droit sur la piste audio et choisissez Speech-to-Text. Vous verrez apparaître une fenêtre contextuelle dans laquelle vous pourrez sélectionner la langue et le mode de transcription. Vous pouvez transcrire un clip spécifique ou la totalité de la timeline. Cliquez sur Ok pour commencer la numérisation et la transcription de l'audio en texte.
Étape 4 : Après un processus de transcription réussi, vous verrez une ligne de temps de texte ajoutée. Double-cliquez pour afficher les pistes de texte et les modifier. Vous pouvez ajouter une nouvelle piste de sous-titres, modifier le texte, ajuster la taille, changer la couleur, etc. Si vous êtes satisfait du texte extrait, faites un clic droit sur la ligne de temps du texte et cliquez sur Exporter le fichier de sous-titres. Voilà, c'était facile !
2. Google Docs - Gratuit
Si vous recherchez un logiciel de saisie vocale gratuit, vous ferez mieux de vous tourner vers Google Docs. La plupart d'entre vous ne savent peut-être pas que Google Docs peut convertir avec précision la parole en texte. Cela en fait un outil pratique si vous trouvez qu'il est plus facile de parler que d'écrire. Comme prévu, cet outil de transcription vocale reconnaît des centaines de langues, comme l'anglais, le français, l'italien, l'hindi, etc.
Mais bien qu'il fasse un travail louable, un son moins clair ne vous permettra pas d'obtenir des transcriptions précises. De plus, il ne comporte pas de points, virgules et autres ponctuations. Par conséquent, utilisez une application professionnelle comme Filmora pour transcrire vos données audio en texte.
Étapes à suivre pour convertir une voix en texte avec Google Docs :
Étape 1 : Ouvrez un nouveau document sur Google Docs, puis cliquez sur Saisie vocale. Le microphone intégré se lance automatiquement.
Étape 2 : Ensuite, cliquez sur la flèche déroulante de la langue du microphone pour choisir la langue de transcription. Vous pouvez dicter des textes en anglais, espagnol, français, italien, afrikaans, arabe, etc.
Étape 3 : Cliquez sur l'icône Microphone pour commencer à dicter des textes sur Google Docs. Après avoir dicté suffisamment de textes, appuyez sur l'icône rouge du microphone et modifiez votre texte. C'est aussi simple que cela !
3. Audtext - 60 $ de frais uniques
Si le service de reconnaissance vocale de Google est trop lent à votre goût, pensez à Audtext. Il s'agit d'un programme en ligne très bien noté qui utilise une technologie d'apprentissage automatique de pointe pour transcrire de l'audio en texte dans plus de 60 langues. Vous pouvez facilement former ce programme pour identifier le locuteur dans votre interview ou votre fichier podcast.
Parallèlement, Audtext peut transcrire les formats vidéo et audio courants, notamment MP3, WAV, M4A, MP4, MOV, etc. Et après avoir transcrit l'audio en texte, exploitez l'éditeur de texte intégré pour retoucher et rendre votre texte présentable.
Voyons comment fonctionne ce service STT :
Étape 1 : Créez un compte de transcription sur Audtext et cliquez sur New Upload pour choisir le mode de transcription. Vous pouvez choisir la transcription automatique qui utilise l'IA ou la transcription professionnelle par des personnes réelles. Alors, choisissons Automatique.
Étape 2 : Glissez-déposez votre fichier vidéo ou audio sur le programme, puis choisissez la langue de transcription. Après avoir ajouté votre fichier, cliquez sur Télécharger pour le numériser et le transcrire. Cela devrait prendre un certain temps.
Étape 3 : Enfin, cliquez sur le fichier texte transcrit pour l'éditer avec de nouveaux textes et ponctuations sur l'éditeur intégré. Vous pouvez exporter votre transcription aux formats .txt, .srt ou .docx. L'exportation directe vers Google Drive est également disponible.
Conclusions
Jusqu'à présent, vous devriez être prêt à démarrer avec le Microsoft Cognitive Services Speech. La fonction de conversion de la parole en texte vous permet de convertir un nombre illimité de voix en texte sur votre ordinateur. Cependant, le programme peut être difficile à configurer si vous n'êtes pas un technicien.
Dans ce cas, utilisez une option plus simple comme Google Docs pour dicter des textes sur l'éditeur de texte. Vous pouvez également envisager Filmora 11 pour encoder tout fichier audio ou vidéo local en texte éditable. Il est temps d'essayer !