Как правило, если речь заходит о программах для распознавания сканированного текста (OCR, оптическое распознавание символов), большинство пользователей вспоминают единственный продукт — ABBYY FineReader, который, бесспорно, является лидером среди такого программного обеспечения в России и одним из лидеров в мире.
Тем не менее, FineReader — не единственное такого рода решение: есть бесплатные программы для распознавания текста, онлайн-сервисы для этих же целей и, более того, такие функции присутствуют и в некоторых знакомых вам программах, которые, возможно, уже установлены на вашем компьютере. Обо все этом я и постараюсь написать в этой статье. Все рассмотренные программы работают в Windows 7, 8 и XP.
Лидер распознавания текстов — программа ABBYY Finereader
Про FineReader (произносится как Файн Ридер) слышали, наверное, большинство из вас. Эта программа лучшая или одна из лучших для качественного распознавания текстов на русском языке. Программа является платной и цена лицензии для домашнего использования составляет чуть менее 2000 рублей. Также имеется возможность скачать пробную версию FineReader или же воспользоваться онлайн распознаванием текстов в ABBYY Fine Reader Online (бесплатно можно распознать несколько страниц, далее — платно). Все это доступно на официальном сайте разработчика http://www.abbyy.ru.
Установка пробной версии FineReader не вызвала никаких проблем. ПО может интегрироваться с Microsoft Office и Проводником Windows, для того чтобы было удобнее запустить распознавание. Из ограничений бесплатной пробной версии — 15 суток использования и возможность распознать не более 50 страниц.
Снимок для тестирования программ распознавания
Так как сканера у меня нет, то для проверки я воспользовался снимком с некачественной камеры телефона, в котором немного отредактировал контрастность. Качество никуда не годное, посмотрим, кто справится.
Меню программы FineReader
FineReader может получать графическое изображение текста напрямую со сканера, из графических файлов или камеры. В моем случае, достаточно было открыть файл изображения. Результат порадовал — всего пара ошибок. Сразу скажу, что это лучший результат из всех проверенных программ при работе с данным образцом — похожее качество распознавания было только на бесплатном онлайн сервисе Free Online OCR (но в этом обзоре мы говорим только о программных средствах, не онлайн распознавании).
Результат распознавания текста в FineReader
Откровенно говоря, для кириллических текстов у FineReader, наверное, нет конкурентов. Плюсами программы является не только качество распознавания текстов, но и широкая функциональность, поддержка форматирования, грамотный экспорт во множество форматов, включая Word docx, pdf и другие возможности. Таким образом, если задачи OCR — это то, с чем вы сталкиваетесь постоянно, то не пожалейте сравнительно небольшого количества денег и это вполне окупится: вы сэкономите огромное количество времени, быстро получая качественный результат в FineReader. Я, кстати, не рекламирую ничего — действительно считаю, что тем, кому нужно распознать больше десятка страниц, стоит задуматься о покупке такого ПО.
CuneiForm — бесплатная программа для распознавания текста
По моей оценке, вторая по популярности программа OCR в России — бесплатная CuneiForm, скачать которую можно с официального сайта http://cognitiveforms.ru/products/cuneiform/.
Установка программы также очень проста, никакого стороннего софта (как многое бесплатное ПО) она установить не пытается. Интерфейс лаконичен и понятен. В некоторых случаях проще всего воспользоваться мастером, для чего предназначена первая из иконок в меню.
С образцом, которым я пользовался в FineReader, программа не справилась, или, точнее, выдала что-то плохо читаемое и ошметки слов. Вторая попытка была предпринята со скриншотом текста с сайта самой этой программы, который, правда, пришлось увеличить (ей нужны сканы с разрешением 200dpi и выше, скриншоты с толщиной линий шрифтов 1-2 пикселя она не читает). Тут она справилась хорошо (часть текста не распознана, так как был выбран только русский язык).
Распознавание текста в CuneiForm
Таким образом, можно предположить, что CuneiForm — это то, что следует попробовать, особенно если у вас качественно отсканированные страницы и вы хотите распознать их бесплатно.
Microsoft OneNote — программа, которая у вас, возможно, уже есть
В состав Microsoft Office, начиная с версии 2007 и заканчивая текущей, 2013, присутствует программа для ведения заметок — OneNote. В ней также присутствуют функции распознавания текста. Для того, чтобы воспользоваться ею, просто вставьте отсканированное или любое другое изображение текста в заметку, кликните правой клавишей мыши по ней и воспользуйтесь контекстным меню. Отмечу, что по умолчанию для распознавания установлен английский язык.
Распознавание в Microsoft OneNote
Не могу сказать, что текст распознается идеально, но, насколько я могу судить, несколько лучше даже чем в CuneiForm. Плюс программы, как уже было сказано, в том, что с немалой вероятностью она уже установлена на вашем компьютере. Хотя, конечно, ее использование в случае необходимости работы с большим количеством отсканированных документов навряд ли будет удобным, скорее она подойдет для быстрого распознавания визиток.
OmniPage Ultimate, OmniPage 18 — должно быть, что-то очень крутое
Я не знаю, насколько хороша программа для распознавания текстов OmniPage: пробных версий нет, где-то скачивать не хочу. Но, если ее цена оправдана, а она обойдется примерно в 5000 рублей в версии для индивидуального использования и не Ultimate, то это должно быть что-то впечатляющее. Страница программы: http://www.nuance.com/for-individuals/by-product/omnipage/index.htm
Цена на ПО OmniPage
Если ознакомиться с характеристиками и отзывами, в том числе и в русскоязычных изданиях, в них отмечается, что OmniPage действительно обеспечивает качественное и точное распознавание, в том числе и на русском языке, сравнительно легко разбирает не самые качественные сканы и предоставляет набор дополнительных инструментов. Из недостатков выделяют не самый удобный, особенно для начинающего пользователя, интерфейс. Так или иначе, на западном рынке OmniPage — прямой конкурент FineReader и в англоязычных рейтингах они борются именно между собой, а потому, думаю, программа должна быть достойной.
Это далеко не все программы данного типа, существуют также различные варианты небольших бесплатных программ, но, пока экспериментировал с ними нашел два главных недостатка им свойственных: отсутствие поддержки кириллицы, либо различное, не слишком полезное ПО в комплекте установки, а потому решил не упоминать их здесь.