Qu’est-ce qu’un Dataset ?

Un dataset dans le contexte de RVC est un ensemble de fichiers audio compressés dans un fichier .zip, utilisé pour l’entraînement vocal. Cette documentation vous guidera à travers le processus de création d’un dataset efficace pour l’entraînement de modèles vocaux.

Création d’un Dataset Vocal

1

Collecte des fichiers audio

Tout d’abord, identifiez et téléchargez les enregistrements audio de la personne ou du personnage pour lequel vous souhaitez créer le modèle.

  • Les fichiers audio doivent être au format WAV ou FLAC et doivent être de bonne qualité.
  • Le dataset doit avoir une durée minimale de 10 minutes et maximale de 30 minutes pour de meilleurs résultats.
  • Assurez-vous que votre dataset présente la plus grande variété de tons afin que le modèle n’ait pas de difficultés à imiter certains tons.
2

Isolation des voix

Il est maintenant nécessaire de séparer les voix des instruments.

3

Édition avec Audacity

Après avoir séparé nos audios, ouvrez Audacity pour les éditer en effectuant les opérations suivantes :

Avant la troncature du silence, le dataset ne doit contenir que de la parole ; tout autre type de son doit être éliminé ou réduit, comme les sifflements, les cris ou la respiration.

4

Exportation de l'audio traité

Enfin, exportez votre audio déjà traité et il est prêt pour l’entraînement.

Assurez-vous d’exporter votre dataset sous la forme d’un fichier audio unique, ou si vous le divisez, assurez-vous que chaque segment audio a une durée de 10 à 15 secondes par audio.