Email or username:

Password:

Forgot your password?
D:\side\

:blobcatwhatsthis: Со вчерашней подачи[1] попробовал whisperfile:
huggingface.co/Mozilla/whisper

В принципе, попробовать напрямую whisper.cpp мог и раньше, но сходу не натыкался на билды и забивал, т. к. не хотел компилировать сам.

В целом: прикольно.
Даже в Termux работает! На моём уже далеко не новом MediaTek medium раз в 25 медленнее реалтайма ( :blobcatsad: ) и галлюцинирует Игоря Негоду ( :blobcatlul: ), но работает.

Положил в ящичек идею запилить из этого добавление в заметки диктофонных записей: ffmpeg'ать их в нужный формат (WAV в 16кГц), преобразовывать в txt и подклеивать в специальный Markdown-файл в заметках. После этого, правда, надо будет выработать привычку диктофоном пользоваться, но не попробую – не узнаю!

[1]: mastodon.ml/@gospodin/11299032

2 comments
Limping

@dside А он получается строго требует WAV?

D:\side\

@limping угу. Причём не любой, а именно в 16кГц (опция -ar 16000 в ffmpeg).

Это особенность самих моделей, как я понял, так что любое решение с их применением будет вынуждено преконвертировать входные файлы, если хочет поддерживать другие форматы. Но на фоне общих вычислительных мощностей, нужных для транскрибирования, это получается капля в море.

Go Up