Хочу оцифровать одну книженцию, что б ее выложить на...

Horhik's posts Post Back to profile

Horhik

Хочу оцифровать одну книженцию, что б ее выложить на торренты и т.п.

подскажите, какими тулзами можно сделать пдфку с распознанным на скане текстом?

UPD: узнал о такой штуке как tesseract и лучшем решением из попробованного (gscan2pdf, ocrmypdf) был ocrmypdf

https://github.com/ocrmypdf/OCRmyPDF

Like 15 Sep 2023 at 21:42 | Open on mastodon.ml

5 comments

Dr. Quadragon ❌

@horhik
Я когда таким занимался, юзал спираченный FineReader

15 Sep 2023 at 21:49 | Open on mastodon.ml

Limping

@drq @horhik +1, мне ещё нравится как здорово он жмёт картинку. Несколько страниц в очень высоком разрешении могут быть в PDF весом менее 1 Мб.
Это я именно про сохранение с распознанным текстом под картинкой.

16 Sep 2023 at 4:30 | Open on mastodon.ml

Lina

@horhik gscan2dpf - увеличив контраст и яркость на 20 пунктов (это если страницы серые), дополнительно поставив галку "очистить изображение", и в качестве распозновалки галкой отметить "tesseract" - ну это чтобы "для людей" сделать.

а так - да любой сканилкой можно, и для распознования скормить tesseract или cuneiform или gocr

15 Sep 2023 at 21:57 | Open on mastodon.ml

Horhik

@lina @drq
спасибо за наводку

чекнул gscan2pdf, с tesseract распознает норм, но вот нашел ocrmypdf он юзает его же но тестовый документ распознал в разы лучше

15 Sep 2023 at 22:25 | Open on mastodon.ml

DELETED

@horhik@mastodon.ml scantailor (причём experimental, всё остальное неоч) и куча всего вокруг, зависит от качества снимков и достаточно ли ч/б. могу написать по шагам если скинешь пример странички.

.. и лучше дежавюшку, их проще делать.

15 Sep 2023 at 22:26 | Open on catposter.club