В варианте с веб-расширением я пока не пробовал хайджек аудио-потока, но точно видел, что в интерфейсе Jitsi уже есть анимация громкости участника, с которой можно считывать показатель и делать новую. Не уверен, что аудио-поток оверлею вообще нужен для чего-то другого, поэтому не задумывался о хайджеке. Можно попыхтеть с <audio> элементами... если найдутся.
Видео-потоки показа экрана и вебки, которые участники добавляют, я бы попробовал перехватить покадровым взятием blob-ов на элементах <video>, но пока больше вопросов, чем ответов. Во всяком случае, это минует накладные HTTP-запросы...
Насчёт умения в 3D и веб-морд, three.js и другие приличные либы приходят на ум. Оптимизация вроде чин по чину давно.
@vint Я уже посмотрел доки по three.js, там есть подхват через элементы (в случае audio - ещё и через MediaStream). По анимации громкости ещё нужно покурить доки по Jitsi, особенно в части iframe.