@turbobureaucrat пдфки очень тяжело парсить. Или надо писать скрипт под каждый документ, или использовать OCR