добавил и сделал основным распознаватель голосовух от gemini
из плюсов — может больше 1 минуты распознать(в теории до 8000 токенов на выходе и до 1млн на входе), а обычный бесплатный гугол (андроидовский? я даже хз откуда он но не требует авторизацию и работает прилично) только минуту работает
может сразу текст обработать, исправить и облагородить, эканья убрать наверное тоже можно, экономия вызовов получается
из минусов... скорость вроде ниже но хз. приходится закачивать файл вна облако, и потом еще удалять оттуда, такое себе воркфлоу
цензура, такая же как в обычном чате, это прямо вообще печально
Теоретически можно делать пересказ больших аудиозаписей, например тех что на ютубе не имеют субтитров, но это надо скачать оттуда звук, закачать его в облако, и держать кулачки чтоб пересказ сработал.