Filmora
Filmora - Éditeur Vidéo IA
Éditez Vite, Intelligent et Facile
OUVRIR
Éditeur vidéo Filmora
Créez des vidéos sans effort avec l'IA.
  • Divers outils d'édition IA pour augmenter l'efficacité de la création vidéo.
  • Modèles populaires et des ressources créatives libres de droits.
  • Fonctionnalité multiplateforme pour l'édition partout.
Essai gratuit Essai gratuit
qrcode-img
Scannez pour l'app Filmora
Sicherer Download Sécurité 100 % vérifiée | Aucun abonnement requis | Aucun logiciel malveillant

Reconnaissance et identification de locuteur en temps réel avec Python

Marion Dubois
Marion Dubois mis à jour Jun 10, 25

Vous montez une vidéo avec plusieurs intervenants, peut-être un podcast ou une interview. L'ajout manuel de sous-titres est fastidieux - vous devez écouter, taper et synchroniser chaque mot prononcé. Qu'en serait-il si votre éditeur vidéo pouvait reconnaître automatiquement les différentes voix et générer des sous-titres pour chaque locuteur ? C'est là que la reconnaissance de locuteur en Python change la donne.

Python est le langage de programmation de choix pour le développement d'applications vocales grâce à ses bibliothèques robustes. Ces bibliothèques vous aident à implémenter et à déployer des modèles de reconnaissance de locuteur pour le traitement, l'analyse et l'identification de la parole en temps réel. Par exemple, le SDK Pico Voice Eagle permet une identification de locuteur rapide et précise pour les applications basées sur IA.

Alternativement, il existe des plateformes d'édition vidéo qui intègrent l'intelligence artificielle de la reconnaissance vocale. Ils fonctionnent en analysant le son de la vidéo, en distinguant les locuteurs et en générant des sous-titres synchronisés.

Ce guide explorera comment implémenter l'identification de locuteur en Python. Nous verrons également les meilleures alternatives sans code pour un sous-titrage vidéo sans effort.

speaker identification
Dans cet article
  1. Principes fondamentaux du traitement audio
  2. Identification de locuteur en temps réel avec Picovoice Eagle SDK
  3. Existe-t-il des moyens plus simples d'effectuer la reconnaissance de locuteur ?
  4. Où puis-je utiliser les applications de reconnaissance de locuteur ?

Partie 1 : Principes fondamentaux du traitement audio

audio processing

Tout système de reconnaissance vocale commence par le traitement audio. Le son se propage sous forme de signaux analogiques continus, mais les ordinateurs nécessitent des formats numériques. Pour convertir la parole en données, nous utilisons des fréquences d'échantillonnage et des techniques d'encodage audio.

Le taux d'échantillonnage définit la fréquence d'enregistrement du son par seconde. La norme pour la reconnaissance de locuteur en Python est de 16 kHz, assurant une grande précision. Le format du fichier audio est également important - WAV, MP3 et FLAC sont des options courantes, WAV étant préféré pour les tâches d'apprentissage automatique.

Python simplifie l'identification de locuteur en temps réel grâce à des bibliothèques spécialisées telles que PyAudio et Picovoice Eagle SDK. En utilisant ces outils, les développeurs peuvent capturer, analyser et former des modèles pour l'identification de locuteur en temps réel en Python.

Partie 2 : Identification de locuteur en temps réel avec Picovoice Eagle SDK

Picovoice Eagle SDK est un outil de haute performance pour la reconnaissance de locuteur en Python. Contrairement aux modèles traditionnels, il traite l'audio localement. Ce SDK est crucial pour l'identification en temps réel de locuteur en Python, notamment dans les systèmes de sécurité IA et les assistants intelligents.

De plus, il est léger et fonctionne parfaitement sur plusieurs plateformes, notamment Windows, macOS, Linux, Android, iOS et même Raspberry Pi. Il vous suffit de vous inscrire sur la console Pico Voice et d'obtenir votre clé d'accès pour authentifier votre utilisation.

Installation et configuration du Pico Voice Eagle SDK en Python

Pour intégrer Picovoice Eagle SDK pour la reconnaissance de locuteur en Python, installez-le d'abord. Avant de faire cela, assurez-vous que Python 3.6+ est installé.

Ouvrez un terminal (Linux/macOS) ou une invite de commande (Windows) et exécutez :

python --version

ou

python3 --version

Si Python est installé, il affichera quelque chose comme :

Python 3.8.10

Si la version est 3.6 ou supérieure, vous êtes prêt à démarrer.

Pour commencer, installez les bibliothèques nécessaires. Exécutez la commande suivante dans votre terminal :

pip install SpeechRecognition pyaudio librosa pvrecorder

Pour Picovoice Eagle SDK, téléchargez et installez :

pip install pvporcupine pveagle

Guide étape par étape pour implémenter l'identification de locuteur en temps réel en utilisant Picovoice Eagle SDK en Python

  • Étape 1 : Installez Python.. Sur le site officiel de Python, sélectionnez l'option de téléchargement de la version la plus récente, Python 3.x.x.
python download
  • Étape 2 : Ensuite, inscrivez-vous pour un compte Picovoice Console gratuit et récupérez votre clé d'accès. Cette clé est nécessaire pour authentifier vos requêtes lors de l'utilisation du SDK Eagle Speaker Recognition.
pico-voice access key inquiry
  • Étape 3 : Installez les paquets Python nécessaires. Exécutez la commande suivante dans votre terminal :
pip install pveagle pvrecorder

Ceci installera PV Eagle (pour la reconnaissance de locuteur) et PV Recorder (pour la capture audio).

  1. Étape 4 : Créez deux fichiers dans votre VsCode. Le premier fichier servira à inscrire un locuteur. L'inscription est le processus de création d'un profil de locuteur basé sur des données vocales. Suivez ces étapes :
  2. Importez les bibliothèques nécessaires
  3. Initialisez EagleProfile avec votre clé d'accès
  4. Utiliser l'enregistreur PV pour capturer des échantillons de voix
  5. Envoyez des trames audio à EagleProfile jusqu'à ce que l'inscription soit terminée.
  6. Exportez le profil de locuteur en vue d'une reconnaissance ultérieure
enroll speaker python file

Voici le code pour l'inscription de locuteur :

import pveagle
from pvrecorder import PvRecorder

access_key = "YOUR_ACCESS_KEY"

try:
eagle_profiler = pveagle.create_profiler(access_key=access_key)
except pveagle.EagleError as e:
print(f"Failed to create Eagle Profiler: {e}")
exit(1)

DEFAULT_DEVICE_INDEX = -1
recorder = PvRecorder(
device_index=DEFAULT_DEVICE_INDEX,
frame_length=eagle_profiler.min_enroll_samples
)

recorder.start()

enroll_percentage = 0.0
while enroll_percentage < 100.0:
audio_frame = recorder.read()
enroll_percentage, feedback = eagle_profiler.enroll(audio_frame)
print(f"Enrollment: {enroll_percentage:.2f}% - {feedback}")

recorder.stop()

speaker_profile = eagle_profiler.export()

with open("speaker_profile.eagle", "wb") as f:
f.write(speaker_profile.to_bytes())

recorder.delete()
eagle_profiler.delete()
  • Étape 5 : Allez dans votre terminal et enregistrez en entrant le code ci-dessous
python3 enroll_speaker.py

Une fois le script est en cours d'exécution, essayez de parler dans le microphone. Si votre voix correspond au profil de locuteur enregistré, il affichera « Locuteur reconnu ! ». Sinon, il indiquera un locuteur inconnu.

recording voice in Picovoice
  • Étape 6 : Maintenant que le profil du locuteur est prêt, créons un code pour la reconnaissance de locuteur en temps réel sur le deuxième fichier. Ceci charge un profil de locuteur et reconnaît un locuteur en temps réel en utilisant le Pico Voice Eagle SDK.
code for recognizing sound

Cela implique

  1. Création d'une instance Eagle avec votre clé d'accès et votre profil de locuteur
  2. Utilisation de PV Recorder pour capturer l'audio en direct
  3. Transmission des trames audio à Eagle pour une reconnaissance en temps réel

Voici le code :

import pveagle
from pvrecorder import PvRecorder

access_key = "YOUR_ACCESS_KEY"

with open("speaker_profile.eagle", "rb") as f:
speaker_profile_bytes = f.read()

speaker_profile = pveagle.EagleProfile.from_bytes(speaker_profile_bytes)

try:
eagle = pveagle.create_recognizer(
access_key=access_key,
speaker_profiles=[speaker_profile]
)
except pveagle.EagleError as e:
print(f"Failed to create Eagle Recognizer: {e}")
exit(1)

DEFAULT_DEVICE_INDEX = -1 # Use the default audio input device
recorder = PvRecorder(
device_index=DEFAULT_DEVICE_INDEX,
frame_length=eagle.frame_length
)

recorder.start()

try:
while True:
audio_frame = recorder.read()
scores = eagle.process(audio_frame)
print(scores)
except KeyboardInterrupt:
pass

recorder.stop()
recorder.delete()
eagle.delete()
  • Étape 7 : Testez et exécutez l'application.
Python3 recognize_speaker.py
testing sound

0 = Voix non reconnue

1 = Voix reconnue

icon note
Remarque : contrairement aux modèles basés sur le cloud, Picovoice Eagle SDK traite les données localement. Cela garantit des résultats plus rapides, une meilleure confidentialité et aucune dépendance à Internet.

L'identification de locuteur en Python ne peut être comprise et exécutée que par des programmeurs professionnels. Vous devez avoir des connaissances en programmation dans une certaine mesure pour comprendre le processus.

Partie 3 : Existe-t-il des moyens plus simples d'effectuer la reconnaissance de locuteur ?

filmora

La création d'un système de reconnaissance de locuteur en Python nécessite des compétences en codage et des connaissances techniques. Bien que l'identification en Python soit puissante, elle peut s'avérer difficile pour les non-programmeurs. De nombreux utilisateurs préfèrent des outils prêts à l'emploi qui offrent des fonctionnalités similaires de reconnaissance de locuteur et de la parole. C'est un meilleur moyen d'accomplir la tâche sans avoir de compétences en codage.

Un tel outil est wondershare Filmora , un éditeur vidéo avec reconnaissance de locuteur et édition vocale intégrées. Il permet aux utilisateurs de détecter, transcrire et modifier des enregistrements vocaux sans écrire une seule ligne de code.

Contrairement à la reconnaissance de locuteur en Python, qui nécessite un apprentissage manuel du modèle, des outils intégrés de Filmora automatisent le processus. Vous pouvez éditer et améliorer des fichiers audio sans avoir besoin de connaissances en Python ou en apprentissage automatique. Cela rend l'identification du locuteur accessible aux créateurs de contenu, aux spécialistes du marketing et aux utilisateurs professionnels.

Fonctionnalités de détection de locuteur et d'édition vocale de Filmora sur mobile

Filmora intègre un outil assisté par IA qui simplifie l'édition audio et la reconnaissance de locuteur. Grâce à sa version mobile, les utilisateurs peuvent accéder aux fonctionnalités de détection de locuteur et d'édition vocale.

  • Détection du locuteur : la détection de locuteur analyse l'audio et fait la distinction entre différents locuteurs. Au lieu d'écouter et de marquer manuellement les voix, l'IA identifie qui parle et à quel moment.
  • Édition de la parole. L'édition de la parole peut être fastidieuse, mais la fonction d'édition de la parole de Filmora simplifie le processus. Il permet aux utilisateurs de modifier les enregistrements vocaux, d'ajuster la clarté et de supprimer les bruits de fond.

Comment reconnaître la voix, convertir en texte et éditer en utilisant Filmora en déplacement

Filmora simplifie la reconnaissance de locuteur en quelques clics. Voici un guide étape par étape :

  • Étape 1 : Téléchargez Filmora, cliquez sur « nouveau projet » et importez la vidéo avec la voix.
create a new project
secure-icontéléchargement sécurisé
  • Étape 2 : Sélectionnez le texte pour convertir les mots parlés en texte.
select the text tab
  • Étape 3 : Cliquez sur « sous-titre IA » pour lancer le processus de reconnaissance vocale.
select ai caption
  • Étape 4 : Cliquez sur l'option Détection de locuteur avant de sélectionner Ajouter des sous-titres.
select speaker detection
ai processes the voice
  • Étape 6 : Double-cliquez sur le texte généré dans la timeline pour accéder à l'option d'édition de la parole. Ici, vous pouvez ajouter une animation, modifier le modèle de texte, la police, le style, l'art, etc.
change the text appearance
  • Étape 7 : Exportez la vidéo
save and export file
icon note
Remarque : vous devez comprendre que la reconnaissance de locuteur en Python offre un contrôle total sur l'apprentissage du modèle. Mais Filmora propose une approche automatisée. Sa fonction IA garantit une reconnaissance efficace de locuteur sans les complexités de la programmation.

Partie 4 : Où puis-je utiliser les applications de reconnaissance de locuteur ?

sound emulators

La reconnaissance de locuteur en Python est en train de transformer diverses industries, sans aucun doute. Cette technologie offre un moyen rapide et fiable d'identifier les voix dans les vidéos ou fichiers audio. C'est en train de devenir un élément fondamental de différentes industries. Vous trouverez ci-dessous les domaines où ces applications sont applicables.

  1. Assistants intelligents et appareils à commande vocale. Des applications comme Siri, Alexa et Google Assistant utilisent l'identification de locuteur pour distinguer les voix. Cela permet d'obtenir des réponses personnalisées, un accès sécurisé et des commandes vocales personnalisées pour différents utilisateurs.
  1. Sécurité et authentification vocale. De nombreuses entreprises utilisent l'identification de locuteur pour vérifier les utilisateurs et prévenir la fraude. Cela élimine la dépendance à l'égard des mots de passe tout en améliorant la protection des données et le confort d'utilisation.
  1. Transcription assistée par IA et notes de réunion. La reconnaissance de locuteur aide des applications comme Otter.ai à différencier les locuteurs. Cela augmente la précision de la transcription, en particulier dans le cas de plusieurs notes vocales.
  1. Centres d'appel et assistance clientèle. Les centres d'appel utilisent la reconnaissance de locuteur en Python pour améliorer l'authentification et la détection des clients. Les systèmes assistés par IA identifient les appelants par la voix, réduisant ainsi le besoin de vérification manuelle de l'identité. Cela améliore la sécurité, l'efficacité et les temps de réponse du service clientèle.
  1. Santé et accessibilité. Les hôpitaux et applications de santé utilisent l'identification de locuteur pour sécuriser l'authentification des patients. Les outils IA basés sur la voix aident les personnes à mobilité réduite à accéder aux appareils sans interaction physique. La reconnaissance de locuteur en python assure un accès médical sécurisé et améliore les soins prodigués aux patients.

Conclusion

Python est l'un des langages les plus populaires pour l'identification des locuteurs et des voix. Il propose des bibliothèques puissantes comme SpeechRecognition, PyAudio, Librosa et Pico Voice Eagle SDK.

Ces outils permettent en temps réel et avec précision une identification de locuteur en Python. Cela fait de lui la meilleure option pour les développeurs, les chercheurs en IA et les applications de sécurité. Filmora offre une alternative plus facile pour ceux qui n'ont pas de compétences en programmation. Il permet la conversion de la parole en texte, l'édition vocale et la reconnaissance de locuteur sans nécessiter de codage Python.

Essayez les outils assistés par IA de Filmora pour l'édition vocale et la transcription automatiques. Ils rendent le processus rapide et convivial.

Filmora
⭐⭐⭐⭐⭐
Les meilleurs logiciels et applications de montage vidéo IA
secure-icontéléchargement sécurisé
Partager l'article: