Хех, в Silero (отечественном сервисе с нейроголосами) дорвались до технологии voice-to-voice. Пользоваться ей я, конечно, не буду, а вот рекомендации расшарю.
---
Мы почитали отзывы юзеров, по voice-to-voice есть ряд на первый взгляд неочевидных моментов:
- Голоса обычных людей, обычно работают сильно стабильнее, чем голоса персонажей по ряду причин. В частности например Артас не очень стабильный;
- Чем лучше качество аудио, тем лучше получается результат. Сравните с телефона и через микрофон, например;
- Чем сильнее ваш голос похож на голос персонажа, тем лучше работает. Зачастую проблемы бывают, когда голос сильно выше / ниже, чем целевой;
- Пока с визгом, криком, пением, пыхтением, сопением есть проблемы ... но с другой стороны это позволяет генерировать смешные аудио в промышленных масштабах;