Email or username:

Password:

Forgot your password?
Тр3тий Сергеевич

Старые посты потёрлись, конечно, но я когда-то писал, что едва успеваю следить за трендами в области генеративных сетей (Stable Diffusion, ChatGPT, вот это всё). Но то, что касается обработки звука, снесло мне крышу.

Даже для выполнения такой задачи, как отделение вокала от фона (Ultimate Vocal Remover передает привет), люди уже вывели целые сеты нейронок на тот или иной случай. Нужно убрать реверб? Пропускаем через одну нейронку. Нужно вытащить бэк-вокал? Прогоняем через такой-то сет.

Просто голова пухнет.

Но одно я могу сказать: даже базовые настройки работают круче, чем тот же spleeter. С разбивкой на басы/барабаны/проч. я ещё не экспериментировал, но результат уже впечатляет.

3 comments
twꙮ

@th3rdsergeevich@mastodon.ml хочу тоже в звук поковыряться. Не подкинешь "входных" ресурсов каких-нибудь?

Тр3тий Сергеевич

@pastecat
Для начала - WebUI "все-в-одном": github.com/gitmylo/audio-webui. Движки TTS, retrieval-based voice conversion (RVC), генерация музыки по текстовым запросам... Подходит для "пробы пера", если машина потянет. Проверено лично мной на GTX1660 6GB.

Ultimate Vocal Remover: github.com/Anjok07/ultimatevoc. Набор моделек для извлечения вокала. Также проверено на GTX1660 6GB.

Go Up