джемини шикарные транскрипции для аудиозаписей делает. 8 минут речи меньше чем за минуту почти без ошибок, ошибки в основном совсем мелкие и не значительные
думаю попробовать делать транскрипции (и пересказ) для роликов вна ютубе у которых почему то нет субтитров(авторы сами запрещают или почему их нет?)
для этого надо каким то образом резать на части аудиофайлы, ну то есть не тупо по минутам(хотя тоже вариант, все равно получится лучше чем есть сейчас у ютуба) а как то искать паузы в заданном районе. как?
некоторые люди говорят так быстро что в 5 минут могут наговорить все 20 и тогда транскрипция этой части может не поместится в ответе джемини (до 8000, токенов в реальности еще меньше — не любят они на всю котлету отвечать). что с этим делать непонятно, резать на более мелкие куски только