Création de Dataset
Sinon pas de modèle !
Qu’est-ce qu’un Dataset ?
Un dataset dans le contexte de RVC est un ensemble de fichiers audio compressés dans un fichier .zip, utilisé pour l’entraînement vocal. Cette documentation vous guidera à travers le processus de création d’un dataset efficace pour l’entraînement de modèles vocaux.
Création d’un Dataset Vocal
Collecte des fichiers audio
Tout d’abord, identifiez et téléchargez les enregistrements audio de la personne ou du personnage pour lequel vous souhaitez créer le modèle.
- Les fichiers audio doivent être au format WAV ou FLAC et doivent être de bonne qualité.
- Le dataset doit avoir une durée minimale de 10 minutes et maximale de 30 minutes pour de meilleurs résultats.
- Assurez-vous que votre dataset présente la plus grande variété de tons afin que le modèle n’ait pas de difficultés à imiter certains tons.
Isolation des voix
Il est maintenant nécessaire de séparer les voix des instruments.
Édition avec Audacity
Après avoir séparé nos audios, ouvrez Audacity pour les éditer en effectuant les opérations suivantes :
Avant la troncature du silence, le dataset ne doit contenir que de la parole ; tout autre type de son doit être éliminé ou réduit, comme les sifflements, les cris ou la respiration.
Exportation de l'audio traité
Enfin, exportez votre audio déjà traité et il est prêt pour l’entraînement.
Assurez-vous d’exporter votre dataset sous la forme d’un fichier audio unique, ou si vous le divisez, assurez-vous que chaque segment audio a une durée de 10 à 15 secondes par audio.