Email or username:

Password:

Forgot your password?
Kir4ik52 :blobfoxsanta:

Pdf-extract-API

Проект предлагает инструмент для конвертации изображений и PDF-файлов в текст форматов Markdown и JSON с высокой точностью, включая поддержку табличных данных и математических формул.

Он основан на FastAPI, использует Celery для асинхронной обработки и Redis для кэширования результатов OCR, предоставляя различные стратегии для конвертации, такие как Marker, Surya-OCR и Tesseract, а также возможность удаления персонально идентифицируемой информации.

src: github.com/CatchTheTornado/pdf

#blacktriangle #opensorce #github #OCR #tesseract_ocr #tesseract #markdown #pdf #fastapi #json #marker #Surya-OCR #Celery

2 comments
Мя :sparkles_lesbian:

@kir4ik52 то есть для того, что в принципе можно сделать на месте, мы притащим fastapi, redis и йобаный celery...

Go Up