Регулярно возвращаюсь к теме распознавания текста. Особенно теперь в век формата djvu.
Не буду впадать в техническое описание этого формата (можно прочитать в той же Википедии), но.. минус его в том, что текстом нельзя оперировать.
Регулярно возвращаюсь к теме распознавания текста. Особенно теперь в век формата djvu. Не буду впадать в техническое описание этого формата (можно прочитать в той же Википедии), но.. минус его в том, что текстом нельзя оперировать. После более детального чтения относительно “pdf vs djvu” выяснилось,что в djvu можно так же вставлять OCR-слой, как и защищать от копирования текст из pdf.
Да, текст оцифрован. Да, это уже не многомегабайтная картинка, но это так же и не текст в том виде, к которому я привык. Его нельзя процитировать где-либо, используя несколько нажатий на кнопки мыши.
Из наиболее распространенных коммерческих проектов все знают FineReader. В принципе, для баловства и небольшой работы по оцифровке и распознавания текста его можно купить, цена не кусается — в районе полутора тысяч рублей. Функционал немного обрезан (не распознает из pdf-файлов). Но это не страшно. В комплекте с ним идет утилита для снятия снимков с экрана. Т.е проблема отсутствия возможности распознавания текста из pdf отпадает: открываем pdf-файл → переворачиваем горизонтально дабы охватить максимально большой кусок текста → «фотографируем» с помощью утилиты, и уже в графическом формате загоняем на распознавание.
В одном из своих возвращений к распознаванию текста мной был найден бесплатный проект компании Cognitive Technologies под названием «OCR Cuneiform». В последствии, компания опубликовала исходные тексты данного программного продукта чем так же меня заинтересовала.
Самый огромный минус этого продукта в том, что он еще не готов ;-). Очень сырое и нестабильное, но претендующее на оригинальность — собственная технология распознавания текста.
На момент написания этой заметки, на форуме разработчиков все еще идут жаркие дискуссии по поводу различных аспектов будущего конкурента Abbyy Наверное только это все еще удерживает меня от покупки FineReader.
Но речь сегодня не об этом 😉
Под вчерашним впечатлением от Mathcad Application Server (грубо говоря, работа с Mathcad онлайн), решил сегодня пробежаться по интернету относительно онлайновых сервисов распознавания текстов. Буквально в считанные минуты был найден (вы не поверите) сайт onlineocr.ru. Данная компания предоставляет возможность загружать изображение с текстом (до 7 мегабайт) и последующее распознавание и сохранение в нужном формате. НО! Это платный сервис. Расценки не совсем внятно расписаны. Это меня не слишком интересует. Главное то, что в демонстрационном режиме можно без регистрации вполне успешно распознавать текст. В этом режиме ограничение в 500 символов (6-7 строк книжного формата) — этого вполне может хватить для цитирования книги или другого источника. Качество распознавания вполне недурственное и при должном упорстве можно преуспеть в распознавании текста. И (самое главное!) это то, что не придется марать руки о пиратское ПО или раскошеливаться на лицензионное.
Так или иначе, с нетерпением жду OCR Cuneiform.
UPD3: Abbyy, разрабочики Finereader так же запустили онлайновый сервис распознавания текста.
UPD2: Google предоставил доступ к своему OCR API, к сожалению, доступна пока только латиница. Ждем кирилицу!
UPD1: img2txt.ru покруче будет сервис.