print(transcribe_genai('1.ogg', 'Что ты можешь рассказать про голос на записи'))

Голос на записи — женский, с легким акцентом. Говорит уверенно, энергично, с легкой интонацией, которая придает речи оптимистический тон. Голос скорее всего принадлежит молодой женщине.

youtube.com

gemini вроде может отвечать на вопросы по аудио файлам, не по тексту а по самому звуку. но это не точно