у меня была теория, что обработка файлов Whisper'ом зависит от того, сколько материала на языке в него вложили (читай - более крупные языки обрабатываются быстрее)
я решила это проверить и запустила Whisper на сериях примерно одинаковой длительности и интенсивности речи на языках, которые я знаю
теория подтвердилась:
английский - 2ч 37мин
русский - 2ч 54мин
боснийский - 4ч 50мин
@wonderfox видимо зависимость доли в обущающей выборке и скорости очень не линейная. При всём уважении к великому и могучему, до английского в смысле количества материала ему далеко.
Интересно бы взять какую-то короткую сцену из голливудского фильма с кучей вариантов дубляжа, и прогнать их все