Email or username:

Password:

Forgot your password?
Horhik

Хочу оцифровать одну книженцию, что б ее выложить на торренты и т.п.

подскажите, какими тулзами можно сделать пдфку с распознанным на скане текстом?

UPD: узнал о такой штуке как tesseract и лучшем решением из попробованного (gscan2pdf, ocrmypdf) был ocrmypdf

github.com/ocrmypdf/OCRmyPDF

5 comments
Dr. Quadragon ❌

@horhik
Я когда таким занимался, юзал спираченный FineReader

Limping

@drq @horhik +1, мне ещё нравится как здорово он жмёт картинку. Несколько страниц в очень высоком разрешении могут быть в PDF весом менее 1 Мб.
Это я именно про сохранение с распознанным текстом под картинкой.

Lina

@horhik gscan2dpf - увеличив контраст и яркость на 20 пунктов (это если страницы серые), дополнительно поставив галку "очистить изображение", и в качестве распозновалки галкой отметить "tesseract" - ну это чтобы "для людей" сделать.

а так - да любой сканилкой можно, и для распознования скормить tesseract или cuneiform или gocr

Horhik

@lina @drq
спасибо за наводку

чекнул gscan2pdf, с tesseract распознает норм, но вот нашел ocrmypdf он юзает его же но тестовый документ распознал в разы лучше

coniferous listener

@horhik@mastodon.ml scantailor (причём experimental, всё остальное неоч) и куча всего вокруг, зависит от качества снимков и достаточно ли ч/б. могу написать по шагам если скинешь пример странички.

.. и лучше дежавюшку, их проще делать.

Go Up