Хех, в Silero (отечественном сервисе с нейроголосами) дорвались до технологии voice-to-voice. Пользоваться ей я, конечно, не буду, а вот рекомендации расшарю.

---
Мы почитали отзывы юзеров, по voice-to-voice есть ряд на первый взгляд неочевидных моментов:

- Голоса обычных людей, обычно работают сильно стабильнее, чем голоса персонажей по ряду причин. В частности например Артас не очень стабильный;

- Чем лучше качество аудио, тем лучше получается результат. Сравните с телефона и через микрофон, например;

- Чем сильнее ваш голос похож на голос персонажа, тем лучше работает. Зачастую проблемы бывают, когда голос сильно выше / ниже, чем целевой;

- Пока с визгом, криком, пением, пыхтением, сопением есть проблемы ... но с другой стороны это позволяет генерировать смешные аудио в промышленных масштабах;