Création de Dataset
Sinon pas de modèle !
Qu’est-ce qu’un Dataset ?
Un dataset dans le contexte de RVC est un ensemble de fichiers audio compressés dans un fichier .zip, utilisé pour l’entraînement vocal. Cette documentation vous guidera à travers le processus de création d’un dataset efficace pour l’entraînement de modèles vocaux.
Création d’un Dataset Vocal
Collecte des fichiers audio
Tout d’abord, identifiez et téléchargez les enregistrements audio de la personne ou du personnage pour lequel vous souhaitez créer le modèle.
- Les fichiers audio doivent être au format WAV ou FLAC et doivent être de bonne qualité.
- Le dataset doit avoir une durée minimale de 10 minutes et maximale de 30 minutes pour de meilleurs résultats.
- Assurez-vous que votre dataset présente la plus grande variété de tons afin que le modèle n’ait pas de difficultés à imiter certains tons.
Isolation des voix
Il est maintenant nécessaire de séparer les voix des instruments.
Édition avec Audacity
Après avoir séparé nos audios, ouvrez Audacity pour les éditer en effectuant les opérations suivantes :
Réduction de bruit (Noise Gate)
Réduction de bruit (Noise Gate)
C’est un outil qui aide à réduire le bruit de fond dans un enregistrement audio. Sélectionnez d’abord votre audio, allez dans la section effet sous l’option Steve Daulton et sélectionnez Noise Gate. Ensuite, réglez les paramètres suivants :
Troncature du silence
Troncature du silence
Cet outil est utilisé pour retirer les silences de notre dataset. Revenez maintenant dans la section effet sous l’option spéciale et sélectionnez troncature du silence. Réglez ensuite les paramètres suivants :
Avant la troncature du silence, le dataset ne doit contenir que de la parole ; tout autre type de son doit être éliminé ou réduit, comme les sifflements, les cris ou la respiration.
Exportation de l'audio traité
Enfin, exportez votre audio déjà traité et il est prêt pour l’entraînement.
Assurez-vous d’exporter votre dataset sous la forme d’un fichier audio unique, ou si vous le divisez, assurez-vous que chaque segment audio a une durée de 10 à 15 secondes par audio.