@mo очень странно. Когда я Whisper испытывал, он русский понимал настолько хорошо, что знаки препинания расставлял в соответствии с интонацией (проверял одинаковыми предложениями).
А соотношение скорости и качества можно регулировать выбором модели. Меня small для голосовых команд устроил, но для менее контролируемых сред, вероятно, надо модельку побольше.
@dside ну я скачала готовый ggml для tiny. Без суффикса en, так что должен быть мультиязычный он кряхтел 20 секунд, грузя четыре ядра на 100%, и выдал вот это