@limping угу. Причём не любой, а именно в 16кГц (опция -ar 16000 в ffmpeg).

Это особенность самих моделей, как я понял, так что любое решение с их применением будет вынуждено преконвертировать входные файлы, если хочет поддерживать другие форматы. Но на фоне общих вычислительных мощностей, нужных для транскрибирования, это получается капля в море.