Foire aux Questions !
Qu'est-ce que RVC ?
RVC (Retrieval-Based Voice Conversion) est une technique de clonage vocal avancée utilisant la synthèse vocale pour convertir ou modifier une voix cible en utilisant l’intelligence artificielle.
Exigences pour RVC
Pour l’entraînement local, une carte graphique Nvidia RTX série 20 avec 8 Go de VRAM est nécessaire. Pour l’inférence, un CPU décent avec au moins 4 Go de VRAM suffit. Les processeurs Celeron devraient envisager d’autres alternatives disponibles ici.
Utilisation de RVC sur un Mac
RVC peut être utilisé sur un Mac uniquement pour l’inférence. L’installation doit être réalisée comme sur Linux.
Epochs
Un “epoch” désigne un cycle complet de passage de l’ensemble des données à travers le réseau lors de l’entraînement d’un modèle. Plusieurs centaines d’epochs peuvent être nécessaires pour optimiser la performance du modèle. Un nombre excessif d’epochs peut toutefois mener à un surapprentissage, diminuant la capacité du modèle à généraliser.
Pitch
Le “pitch” en musique détermine la hauteur d’un son. Modifier le pitch d’une mélodie peut la rendre plus aiguë ou plus grave, influençant ainsi les émotions et l’ambiance transmises.
Feature Retrieval
Le “Feature Retrieval” concerne l’extraction de caractéristiques spécifiques d’un signal audio, telles que le timbre, le rythme, ou le volume. Ces caractéristiques sont utilisées pour analyser ou modifier le signal audio de manière ciblée.
'f0Detector'
Le choix du modèle “f0Detector” dépend de la manière dont vous comptez l’utiliser, que ce soit pour chanter, parler, rapper, etc. Voici des recommandations pour différents cas d’utilisation :
Sélectionnez le modèle en fonction de vos besoins spécifiques pour obtenir les meilleurs résultats possibles avec la conversion vocale.
Dataset
Un dataset, en français “ensemble de données”, est une collection structurée de données qui sont généralement organisées en tableaux, listes, fichiers ou d’autres formats similaires. Ces données peuvent être de nature variée, telles que des chiffres, des textes, des images, des vidéos, etc. Pour crée des voix les données seront des audio.
Modèle
Un Modèle est le résultat d’un entraînement.
Index ajouté
L’index ajouté contient le Dataset compressé et gère les tonalités du modèle lors de l’inférence.
Pth
Pth stocke toutes les données du modèle entraîné utilisées pour l’inférence.
Taille du Lot (Batch Size)
La taille du lot indique la quantité de GPU utilisée pour l’entraînement. Des tailles plus grandes réduisent la durée d’entraînement. Il est recommandé d’utiliser des multiples de 4, avec 8 étant le plus courant.
Inférence et Artifacting
L’inférence transforme un audio avec le modèle vocal. L’artifacting décrit les distorsions sonores telles que le bruit de fond et la modulation robotique lors de l’inférence.
Modèle Pré-entraîné et Sur-entraînement
Un modèle pré-entraîné utilise des audios de longue durée comme base d’entraînement. Le sur-entraînement survient lorsque le modèle devient moins capable d’articuler clairement et sonne robotique.
Rôles de G et D dans le Modèle
G (Générateur) et D (Discriminateur) stockent et traitent les données d’entraînement. G tente de reproduire des résultats fidèles à l’original, tandis que D différencie les données réelles des créations de G.
FileNotFoundError
Cette erreur indique que le chemin d’accès au répertoire nécessaire n’est pas correctement configuré. Ajouter le chemin d’accès au répertoire ‘runtime/scripts’ d’Applio-RVC-Fork à la variable PATH de Windows peut résoudre ce problème.
Quels réglages devrais-je utiliser si la voix est plutôt grave ou plutôt aiguë ?
Les ajustements dépendent de la tonalité de la voix et des caractéristiques désirées. Il est conseillé de tester différents réglages pour trouver ceux qui conviennent le mieux à chaque cas.
Quels sont les GPU recommandés pour réaliser du clonage vocal ?
Cependant, il est important de noter que les performances en matière de clonage vocal dépendent également du logiciel que vous utilisez. Certains logiciels de clonage vocal peuvent tirer parti des spécificités de certaines cartes graphiques ou d’autres accélérateurs matériels. Avant d’acheter une carte graphique pour le clonage vocal, vérifiez les recommandations spécifiques du logiciel que vous utilisez.
J'ai toujours des erreurs 'No module named'. Que faire ?
Déjà :
Sinon :
Si vous continuez à obtenir des erreurs “No module named”, cela signifie que Python ne peut pas trouver certaines bibliothèques. Voici comment résoudre cela :
Répétez cette étape pour chaque module manquant jusqu’à ce que toutes les erreurs disparaissent. Si rien ne fonctionne supprimer tout et reinstaller.
Plutôt GPU ou CPU ?
Utiliser un GPU accélère considérablement le traitement par rapport à un CPU, surtout pour des tâches exigeantes comme le traitement vocal.
Lorsque je fais CTRL + B sur Audacity, rien ne se passe.
Vérifier les raccourcis clavier dans les préférences d’Audacity pour s’assurer que la commande est correctement configurée.
Que dois-je faire à l'étape 'Enter the path of the audio file to be processed' ?
Indiquer le chemin d’accès complet au fichier audio que l’on souhaite traiter. Assurez-vous que le chemin est correct et que le fichier existe.
Quels réglages devrais-je utiliser si la voix est plutôt grave ou plutôt aiguë ?
Les ajustements doivent être expérimentés et ajustés progressivement. L’écoute attentive permettra de trouver les réglages les plus adéquats pour chaque type de voix.
J'obtiens le message d'erreur : 'No such file or directory.'
Ce message indique que le fichier ou le répertoire spécifié n’existe pas. Vérifiez le chemin d’accès et assurez-vous que le fichier ou le dossier existe bien à l’emplacement spécifié.
On ne m'entend pas quand j'ai le Voice Changer Realtime
« [MME] CABLE Input (VB-Audio Virtual Cable) »
pour la sortie.Assurez-vous que votre casque est correctement configuré comme périphérique de sortie par défaut dans les paramètres système.
Si vous utilisez d’autres logiciels tels que Discord, configurez-les comme suit :
« CABLE Output »
.Je saccade/la voix est horrible avec le Voice Changer Realtime
Tout d’abord, passez par VB-Audio Cable, je trouve que c’est plus simple que Voicemeeter, donc ce tuto sera uniquement pour VB Audio. Le lien si jamais vous voulez le télécharger : https://vb-audio.com/Cable/
Vous le téléchargez sur Windows ou Mac selon sur quoi vous êtes. Une fois téléchargé, vous allez exécuter VBCABLE_Setup
en administrateur, si rien ne s’ouvre, faites pareil avec VBCABLE_Setup_x64
(en administrateur aussi). Lorsque l’application s’ouvre, installez-la et redémarrez votre pc.
Une fois le redémarrage effectué, ouvrez RVC, et en bas à gauche, dans la catégorie “AUDIO”, dans “output” vous mettez “CABLE Input (VB-Audio Virutal Cable)”. Sur discord, dans “Voix & Vidéo”, vous mettez dans le périphérique d’entrée “CABLE Output (VB-Audio Virtual”. Essayez de voir si vous vous entendez, normalement, il y a de grandes chances pour que ce soit toujours saccadé.
La dernière étape, allez dans votre “Gestionnaire des tâches”, puis dans “Détails”, puis dans audiodg.exe
. Vous faites clic droit sur audiodg.exe
, sur “Définir la priorité”, puis sur “Haute”. Pour finir, faites clic droit encore une fois sur audiodg.exe
, puis “définir l’affinité”, puis cliquez sur la case “Tous les processeurs”, et cliquez uniquement sur la case “UC 2”.
Voilà, votre problème est normalement réglé !
Foire aux Questions !
Qu'est-ce que RVC ?
RVC (Retrieval-Based Voice Conversion) est une technique de clonage vocal avancée utilisant la synthèse vocale pour convertir ou modifier une voix cible en utilisant l’intelligence artificielle.
Exigences pour RVC
Pour l’entraînement local, une carte graphique Nvidia RTX série 20 avec 8 Go de VRAM est nécessaire. Pour l’inférence, un CPU décent avec au moins 4 Go de VRAM suffit. Les processeurs Celeron devraient envisager d’autres alternatives disponibles ici.
Utilisation de RVC sur un Mac
RVC peut être utilisé sur un Mac uniquement pour l’inférence. L’installation doit être réalisée comme sur Linux.
Epochs
Un “epoch” désigne un cycle complet de passage de l’ensemble des données à travers le réseau lors de l’entraînement d’un modèle. Plusieurs centaines d’epochs peuvent être nécessaires pour optimiser la performance du modèle. Un nombre excessif d’epochs peut toutefois mener à un surapprentissage, diminuant la capacité du modèle à généraliser.
Pitch
Le “pitch” en musique détermine la hauteur d’un son. Modifier le pitch d’une mélodie peut la rendre plus aiguë ou plus grave, influençant ainsi les émotions et l’ambiance transmises.
Feature Retrieval
Le “Feature Retrieval” concerne l’extraction de caractéristiques spécifiques d’un signal audio, telles que le timbre, le rythme, ou le volume. Ces caractéristiques sont utilisées pour analyser ou modifier le signal audio de manière ciblée.
'f0Detector'
Le choix du modèle “f0Detector” dépend de la manière dont vous comptez l’utiliser, que ce soit pour chanter, parler, rapper, etc. Voici des recommandations pour différents cas d’utilisation :
Sélectionnez le modèle en fonction de vos besoins spécifiques pour obtenir les meilleurs résultats possibles avec la conversion vocale.
Dataset
Un dataset, en français “ensemble de données”, est une collection structurée de données qui sont généralement organisées en tableaux, listes, fichiers ou d’autres formats similaires. Ces données peuvent être de nature variée, telles que des chiffres, des textes, des images, des vidéos, etc. Pour crée des voix les données seront des audio.
Modèle
Un Modèle est le résultat d’un entraînement.
Index ajouté
L’index ajouté contient le Dataset compressé et gère les tonalités du modèle lors de l’inférence.
Pth
Pth stocke toutes les données du modèle entraîné utilisées pour l’inférence.
Taille du Lot (Batch Size)
La taille du lot indique la quantité de GPU utilisée pour l’entraînement. Des tailles plus grandes réduisent la durée d’entraînement. Il est recommandé d’utiliser des multiples de 4, avec 8 étant le plus courant.
Inférence et Artifacting
L’inférence transforme un audio avec le modèle vocal. L’artifacting décrit les distorsions sonores telles que le bruit de fond et la modulation robotique lors de l’inférence.
Modèle Pré-entraîné et Sur-entraînement
Un modèle pré-entraîné utilise des audios de longue durée comme base d’entraînement. Le sur-entraînement survient lorsque le modèle devient moins capable d’articuler clairement et sonne robotique.
Rôles de G et D dans le Modèle
G (Générateur) et D (Discriminateur) stockent et traitent les données d’entraînement. G tente de reproduire des résultats fidèles à l’original, tandis que D différencie les données réelles des créations de G.
FileNotFoundError
Cette erreur indique que le chemin d’accès au répertoire nécessaire n’est pas correctement configuré. Ajouter le chemin d’accès au répertoire ‘runtime/scripts’ d’Applio-RVC-Fork à la variable PATH de Windows peut résoudre ce problème.
Quels réglages devrais-je utiliser si la voix est plutôt grave ou plutôt aiguë ?
Les ajustements dépendent de la tonalité de la voix et des caractéristiques désirées. Il est conseillé de tester différents réglages pour trouver ceux qui conviennent le mieux à chaque cas.
Quels sont les GPU recommandés pour réaliser du clonage vocal ?
Cependant, il est important de noter que les performances en matière de clonage vocal dépendent également du logiciel que vous utilisez. Certains logiciels de clonage vocal peuvent tirer parti des spécificités de certaines cartes graphiques ou d’autres accélérateurs matériels. Avant d’acheter une carte graphique pour le clonage vocal, vérifiez les recommandations spécifiques du logiciel que vous utilisez.
J'ai toujours des erreurs 'No module named'. Que faire ?
Déjà :
Sinon :
Si vous continuez à obtenir des erreurs “No module named”, cela signifie que Python ne peut pas trouver certaines bibliothèques. Voici comment résoudre cela :
Répétez cette étape pour chaque module manquant jusqu’à ce que toutes les erreurs disparaissent. Si rien ne fonctionne supprimer tout et reinstaller.
Plutôt GPU ou CPU ?
Utiliser un GPU accélère considérablement le traitement par rapport à un CPU, surtout pour des tâches exigeantes comme le traitement vocal.
Lorsque je fais CTRL + B sur Audacity, rien ne se passe.
Vérifier les raccourcis clavier dans les préférences d’Audacity pour s’assurer que la commande est correctement configurée.
Que dois-je faire à l'étape 'Enter the path of the audio file to be processed' ?
Indiquer le chemin d’accès complet au fichier audio que l’on souhaite traiter. Assurez-vous que le chemin est correct et que le fichier existe.
Quels réglages devrais-je utiliser si la voix est plutôt grave ou plutôt aiguë ?
Les ajustements doivent être expérimentés et ajustés progressivement. L’écoute attentive permettra de trouver les réglages les plus adéquats pour chaque type de voix.
J'obtiens le message d'erreur : 'No such file or directory.'
Ce message indique que le fichier ou le répertoire spécifié n’existe pas. Vérifiez le chemin d’accès et assurez-vous que le fichier ou le dossier existe bien à l’emplacement spécifié.
On ne m'entend pas quand j'ai le Voice Changer Realtime
« [MME] CABLE Input (VB-Audio Virtual Cable) »
pour la sortie.Assurez-vous que votre casque est correctement configuré comme périphérique de sortie par défaut dans les paramètres système.
Si vous utilisez d’autres logiciels tels que Discord, configurez-les comme suit :
« CABLE Output »
.Je saccade/la voix est horrible avec le Voice Changer Realtime
Tout d’abord, passez par VB-Audio Cable, je trouve que c’est plus simple que Voicemeeter, donc ce tuto sera uniquement pour VB Audio. Le lien si jamais vous voulez le télécharger : https://vb-audio.com/Cable/
Vous le téléchargez sur Windows ou Mac selon sur quoi vous êtes. Une fois téléchargé, vous allez exécuter VBCABLE_Setup
en administrateur, si rien ne s’ouvre, faites pareil avec VBCABLE_Setup_x64
(en administrateur aussi). Lorsque l’application s’ouvre, installez-la et redémarrez votre pc.
Une fois le redémarrage effectué, ouvrez RVC, et en bas à gauche, dans la catégorie “AUDIO”, dans “output” vous mettez “CABLE Input (VB-Audio Virutal Cable)”. Sur discord, dans “Voix & Vidéo”, vous mettez dans le périphérique d’entrée “CABLE Output (VB-Audio Virtual”. Essayez de voir si vous vous entendez, normalement, il y a de grandes chances pour que ce soit toujours saccadé.
La dernière étape, allez dans votre “Gestionnaire des tâches”, puis dans “Détails”, puis dans audiodg.exe
. Vous faites clic droit sur audiodg.exe
, sur “Définir la priorité”, puis sur “Haute”. Pour finir, faites clic droit encore une fois sur audiodg.exe
, puis “définir l’affinité”, puis cliquez sur la case “Tous les processeurs”, et cliquez uniquement sur la case “UC 2”.
Voilà, votre problème est normalement réglé !