@omgitsmishenka Там распознавание только для поиска, оверлеем. Программа пытается интерпретировать скопления не-фоновых пикселей как слова и вставлять переводы строк между ними. То есть она разбивает входную картинку на подкартинки и переупорядочивает их в выходной картинке. То есть главное, чтобы в скане не было слишком большого количества слишком больших пятен, не являющихся словами.
@omgitsmishenka В дополнение: я тестил это на книгах по теории множеств и теории категорий. Диаграммы были сохранены и корректно расположены в обоих случаях.