Старые посты потёрлись, конечно, но я когда-то писал, что едва успеваю следить за трендами в области генеративных сетей (Stable Diffusion, ChatGPT, вот это всё). Но то, что касается обработки звука, снесло мне крышу.
Даже для выполнения такой задачи, как отделение вокала от фона (Ultimate Vocal Remover передает привет), люди уже вывели целые сеты нейронок на тот или иной случай. Нужно убрать реверб? Пропускаем через одну нейронку. Нужно вытащить бэк-вокал? Прогоняем через такой-то сет.
Просто голова пухнет.
Но одно я могу сказать: даже базовые настройки работают круче, чем тот же spleeter. С разбивкой на басы/барабаны/проч. я ещё не экспериментировал, но результат уже впечатляет.
@th3rdsergeevich@mastodon.ml хочу тоже в звук поковыряться. Не подкинешь "входных" ресурсов каких-нибудь?