Старые посты потёрлись, конечно, но я когда-то писал,...

Старые посты потёрлись, конечно, но я когда-то писал, что едва успеваю следить за трендами в области генеративных сетей (Stable Diffusion, ChatGPT, вот это всё). Но то, что касается обработки звука, снесло мне крышу.

Даже для выполнения такой задачи, как отделение вокала от фона (Ultimate Vocal Remover передает привет), люди уже вывели целые сеты нейронок на тот или иной случай. Нужно убрать реверб? Пропускаем через одну нейронку. Нужно вытащить бэк-вокал? Прогоняем через такой-то сет.

Просто голова пухнет.

Но одно я могу сказать: даже базовые настройки работают круче, чем тот же spleeter. С разбивкой на басы/барабаны/проч. я ещё не экспериментировал, но результат уже впечатляет.

Like 5 Jul 2023 at 8:20 | Open on mastodon.ml

3 comments

twꙮ

@th3rdsergeevich@mastodon.ml хочу тоже в звук поковыряться. Не подкинешь "входных" ресурсов каких-нибудь?

5 Jul 2023 at 10:08 | Open on shitpost.poridge.club

Тр3тий Сергеевич

@pastecat
Для начала - WebUI "все-в-одном": https://github.com/gitmylo/audio-webui. Движки TTS, retrieval-based voice conversion (RVC), генерация музыки по текстовым запросам... Подходит для "пробы пера", если машина потянет. Проверено лично мной на GTX1660 6GB.

Ultimate Vocal Remover: https://github.com/Anjok07/ultimatevocalremovergui. Набор моделек для извлечения вокала. Также проверено на GTX1660 6GB.

5 Jul 2023 at 12:36 | Open on mastodon.ml

twꙮ

@th3rdsergeevich@mastodon.ml благодарю

5 Jul 2023 at 12:44 | Open on shitpost.poridge.club