Технология OCR (Optical Character Recognition) может быть использована для преобразования печатной копии документа в электронную версию. Например, если сканируется многостраничный экземпляр в файл TIFF, то его загружают в OCR-программу, которая распознает текст, и далее переводят в редактируемый файл. Некоторые приложения позволяют сканировать страницы и преобразовывать содержимое в документ за один шаг.
Хотя технология изначально была разработана для оптического распознавания печатных символов, она также может использоваться для рукописных. Например, почтовые службы, такие как USPS, используют программное обеспечение OCR для автоматической обработки писем и посылок, считывая адрес.
Области применения OCR
OCR расшифровывается, как Оптическое Распознание Символов. Это широко распространенная технология распознавания текста внутри изображений в виде отсканированных документов и фотографий. Технология используется для преобразования практически любого типа изображений, содержащих письменный, рукописный или напечатанный текст в машиночитаемые текстовые данные.
OCR стала популярной в начале 1990-х годов при попытке оцифровки исторических материалов. С тех пор метод претерпел значительные улучшения, и в настоящее время обеспечивает практически идеальную точность оптического распознавания символов. Расширенные методики, такие как Zonal OCR, используются для автоматизации сложных рабочих процессов на основе преобразования машинописных текстов в цифровые документы. После того как отсканированный материал прошел обработку, текст можно редактировать с помощью программ, таких как Microsoft Word или Google Docs, которые являются текстовыми редакторами.
До того как появилась эта технология, единственным вариантом оцифровки печатных документов был ручной набор текста. Это не только занимало много времени, но и приводило к неточностям и ошибкам при воспроизведении копии. OCR часто используется в качестве «скрытой» технологии во многих известных системах и службах, включающих автоматизацию ввода данных и индексацию для поисковых систем, автоматическое оптическое распознавание символов номерных знаков, а также помощь слепым и слабовидящим людям.
Процесс определения точности текста
Каждый шаг процесса OCR важен для определения точности окончательного текста. Он начинается с преобразования печатного документа. Если на нем есть следы, пятна и плохая контрастность, программное обеспечение при распознавании будет делать ошибки, а результат получится некорректным. Чтобы избежать этих проблем, можно сделать улучшенную ксерокопию печати.
Первый шаг работы - сканирование распечатанного текста. Программное обеспечение OCR работает с файлами изображений. Сканер или хорошая цифровая камера создают четкие фотокопии документов. Лучше преобразовать отсканированные файлы в черно-белом формате. Процесс является двоичным. С помощью черного цвета на картинке происходит распознавание текста OCR, а белый, в свою очередь, выступает фоном.
Вторым этапом является определение символов. Скорость этого процесса зависит от используемой программы OCR. Большинство из них анализируют каждый элемент один за другим. Целью приложения является определение знаков, но хорошие программы распознают не только текст, но и таблицы, и другие элементы макета.
Процесс не идеален, так как есть много факторов, которые влияют на точность. Какие программы предназначены для оптического распознавания символов, рассмотрим ниже. А пользователю самостоятельно выбирать, что лучше. OCR имеют встроенные средства проверки правописания и выделяют слова с ошибками. Некоторые из них настолько сложны, что отмечают несоответствие слов и грамматические ошибки, пользователю остается лишь выполнить необходимую корректировку.
Последний этап - сохранение готового документа в нужном формате. Если приложение не выдает необходимый, то можно воспользоваться многочисленными бесплатными конвекторами онлайн.
Оптическая технология для Брайля
Технология Optical Character Recognition (OCR) предоставляет слепым или слабовидящим людям возможность определить текст и произносить его вслух. При этом используется речевой вывод, а также отображается информация на дисплее Брайля.
Существует три основных элемента систем оптического распознавания символов: получение изображения, распознавание и чтение текста. Сначала распечатанный документ захватывается камерой, затем программное обеспечение OCR преобразует его в распознанные символы и слова, а после этого синтезатор в системе произносит определенный материал вслух или отображает на дисплее Брайля. Информация может быть сохранена в электронном формате на устройстве, на котором запущено ПО OCR, или в памяти автономного устройства.
Процесс учитывает логическую структуру языка. Система сделает вывод, что, например, союз «этом» в начале предложения является ошибкой и должен читаться, как «это». Она использует лексикон и применяет методы проверки правописания, аналогичные тем, которые используются во многих текстовых редакторах.
Все системы OCR создают временные файлы, содержащие символы и макет страницы. В некоторых системах они могут быть преобразованы в форматы, которые можно найти с помощью широко используемых компьютерных приложений, таких как текстовый редактор, электронная таблица и базы данных.
Выбор программ для распознавания текста
Рекомендуется осознано подойти к выбору программного обеспечения для распознавания текста. Лучше провести собственное тестирование или учесть мнение продвинутых пользователей.
Тестирование проводят с учетом следующих факторов:
- Точность - это то, что отличает хорошую OCR от плохой. Тем не менее нереально ожидать 100 % точности от приложения для распознавания рукописного текста. Такие факторы, как качество оригинальных документов и разрешение картинки существенно влияют на конечный результат. Хорошие OCR достигают 98 % при использовании современного сканера и исходников в удовлетворительном состоянии.
- Многоязычность - сегодня этим свойством обладают большинство программ. OCR сканирует отдельный символ, чтобы определить его. Если она рассчитана для распознавания только английских букв, то не сможет точно интерпретировать специальные знаки, например, такие, как буквы с акцентом на "е". Такое ПО будет представлять эти символы с ближайшим эквивалентом на английском языке. При применении приложения, которое поддерживает многоязычность, указывают язык документа, чтобы обеспечить точность распознавания.
- Поддержка рукописного ввода. Текст, созданный с помощью клавиатуры, легко распознается любой программой. Однако рукописный - это совсем другой метод сканирования. У людей очень разные почерки. Некоторые пишут аккуратно, в то время как большинство почерков недостаточно разборчивы. Качественные OCR могут распознавать любой почерк. Поэтому для архивации рукописного материала, потребуются программы для рукописного текста.
- Уровень автоматизации. OCR может запускаться автоматически или в интерактивном режиме. Если нужно будет сканировать много страниц одновременно, лучше рассмотреть автоматические программы. С помощью такой функции можно в несколько кликов осуществлять сканирование документов, одновременно выполняя другие задачи, и легко найти полученный файл PDF, txt или doc. Большинство бесплатных программ для распознавания текста имеют ограниченную автоматизацию.
- Сохранение макета. Основная цель этих программ - перевод текста в электронный вид. Некоторые не сохраняют макет оригинального документа. Поэтому приходится долго редактировать окончательный вариант. Хорошая программа должна сохранять исходный макет, тогда в окончательной копии потребуется незначительное редактирование. Такие приложения сохраняют столбцы, таблицы и графические изображения, как в исходном варианте.
Популярное ПО для мобильных устройств
OCR отлично подходит для переноса текста из физических источников непосредственно в цифровой документ. Существуют различные типы программ и приложений для настольных и мобильных устройств. Они различны по цене и имеют свои ключевые отличительные функции.
Наиболее популярные "Андроид"-сканеры:
- Office Lens - обеспечивает сканирование страниц и OCR для Android-пользователей бесплатно. Для конвертации необходимо подключение к интернету.
- Сканеры PDF (например, ABBYY TextGrabber, CamScanner, MDScan, OCR Instantly) - выполняют сканирование с последующим OCR. В ПО нет ограничений на количество отсканированных страниц и отсутствуют водяные знаки.
- Онлайн OCR. Его можно найти в Интернете, сервис очень прост и удобен в использовании. Отличительной чертой является то, что он поддерживает 46 языков, выходной документ весит не более 5 МБ, его легко преобразовать в Microsoft Word, Excel или обычный текстовый формат. После регистрации можно конвертировать многостраничные PDF, RTF, Excel и файлы размером до 100 МБ. Для больших объемов распознавания есть платная версия.
Документы Google
Для тех, кто уже знаком с документами Google, можно использовать OCR, встроенный в Google Drive. Для достижения наилучших результатов шрифт должен быть установлен на Arial или Times New Roman. Можно улучшить результат, убедившись, что сканированное изображение имеет равномерное освещение и четкую контрастность. Фотоматериалы могут обрабатываться индивидуально в файлах: jpg, png, gif или в многостраничных документах PDF. Расширение поддерживает большинство языков.
У Google есть много обучающих программ и возможностей облачной обработки. Многие пользователи считают, что у сервиса нет достаточно продвинутых функций и опций. Тем не менее, если используется приложение Google Drive для Android, можно сканировать страницы прямо из приложения, используя камеру на смартфоне. В противном случае загружают документы с помощью сканера, подключенного к компьютеру, или любым другим способом, чтобы начать обработку распознавания в Google Диске. Для физических лиц на Google Диске предлагается бесплатный уровень хранения около 19 ГБ с возможностью расширения до 100 ГБ через Google One за 1,99 долл. США.
Оптическое распознавание Abbyy
Abbyy FineReader работает с документами уже давно. Это комплексное решение, как для бизнеса, так и для обычных пользователей. В нем можно получить все необходимые функции для извлечения содержания текстов из сканера с полной читаемостью, аккуратно организованные оцифрованные материалы. Помимо распознавания текстов и преобразования в PDF, Microsoft Office или другие форматы, программа также может сравнивать их, добавлять аннотации и комментарии.
Abbyy FineReader может конвертировать материал в пакетном режиме и обрабатывать множество выходных форматов на 192-х различных языках. Есть сопутствующие мобильные приложения, когда нужно выполнить быстрое сканирование с телефона.
Программное обеспечение не самое современное, но оно простое, функциональное и отлично справляется со своей работой. Утилита имеет прочную репутацию одного из лучших вариантов в области оптического распознавания символов. Можно воспользоваться бесплатной пробной версией. ПО стоит от 199,99 долл. США за стандартную разовую бессрочную лицензию.
Если кому-то покажется это дорогим вариантом, можно воспользоваться хорошей альтернативой ABBYY FineReader - онлайн версией. Она ограничена тем, что позволяет сканировать только 10 страниц в месяц. Но поставляется со всеми другими функциями премиум-версии. Потребуется регистрация, чтобы получить доступ. Она поддерживает очень много форматов входных файлов, и можно выбрать выходные, такие как PDF, Word, Excel, PowerPoint и e-Pub.
Облачный сервис Adobe Acrobat
Adobe Acrobat отвечает всем требованиям и предлагает впечатляющий список возможностей и опций, хотя цена немного круче, чем у конкурентов. Для всех функций оптического распознавания текста выбирают Pro версию Adobe Acrobat. DC означает «Облако документов», и довольно четко интегрируется с облачным решением Adobe, если нужно получить доступ к своим файлам с любого компьютера. Также есть простая и бесшовная интеграция со всем остальными сервисами Adobe, например, таким как Photoshop.
Если пользователь решит оплатить Pro версию Adobe Acrobat DC, он получит все инструменты распознавания текста, возможность добавлять комментарии и отзывы к содержанию, специализированный сервис для сканирования таблиц, возможность быстрого сравнения двух документов вместе. Материалы можно редактировать прямо на экране через несколько секунд после их сканирования.
Знак Adobe гарантирует определенный уровень качества, и пользователи впечатлены интуитивностью и возможностями Adobe Acrobat DC. Подписка на сервис начинается с 12,99 долл. США.
Лучшее бесплатное программное обеспечение
Free OCR to Word - это лучшее бесплатное программное обеспечение для оптического распознавания символов, использующее новейшие механизмы. Tesseract - самый мощный инструмент для данного типа ПО и считается одним из самых точных методов. Программа поддерживает несколько форматов изображений и TIFF нескольких страниц. Этот сервис может быть использован совершенно бесплатно для извлечения текста из предоставленного фотоматериала.
Двигатель Tesseract был первоначально разработан Hewlett Packard Labs в 1985-1994 годах. Некоторые изменения были внесены в него в 1996 году. В 1995 году он был включен в тройку лучших механизмов распознавания. Он работает с Windows, Linux и Mac OS X. FreeOCR может обрабатывать изображения, имеющие многоколонный и многоязычный текст. Он обрабатывает форматы PDF и поддерживает устройства TWAIN такие, как сканеры, имеет широко распространенный интерфейс с двойным окном, настройки которого легко понять.
Free OCR to Word может сэкономить много времени без необходимости повторного ввода уже написанного произведения. Программа берет документ, отсканированный объект или изображение и преобразует его в читаемый, редактируемый и точный материал. ПО можно бесплатно загрузить в Word. OCR to Word оптимизирован для работы со всеми типами сканеров и имеет рейтинг точности 98 %, современный интерфейс, который позволяет легко получить доступ ко всем задачам, имеются функции поворота на случай, если фото не помещается на экране правильно. ПО извлекает текст из захваченных снимков с помощью смартфонов или цифровых камер с высокой точностью и качеством.
Распознавание символов в Linux
Набор OCRFeeder предоставляет удобный графический интерфейс Linux, который в основном является внешним интерфейсом для некоторых изображений, OCR и текстовых инструментов таких, как распечатка или проверка орфографии. Он не считывает символы сам по себе, но вместо этого использует другие приложения OCR через так называемые настройки «механизмов распознавания». Он имеет предопределенные параметры для Tesseract, CuneiForm, GOCR и Ocrad.
Пользователю нужно только установить в Ubuntu выбранные им движки - один или несколько и затем обнаружить их в настройках Feeder. Можно добавить другие движки и изменить эти параметры вручную. В одном приложении может быть несколько разных движков. Главное окно Feeder позволяет на лету выбрать, какой их них использовать для конкретной области, также есть настройка для выбора одного по умолчанию. Для выбора языка прочитанного текста, в случае с Tesseract и CuneiForm, необходимо добавить переключатель «-l» с соответствующим кодом языка / скрипта, например, «-l pol» для польского или «-l dan-frak» для датского к настройкам данного движка
Технология оптического распознавания печатных символов "Тессеракт" в начале могла распознавать текст только на английском языке, версия 2.x сделала ее многоязычной. При необходимости можно установить более одного словаря. Новые версии оцифровывают текст на основе ISO 963-2.
После успешной установки используют команду "tesseract>путь к изображению>базовое имя выходного файла". Tesseract автоматически придаст выходному документу расширение ".txt", можно указать опцию "-l", за которой следует код языка. Для версий Tesseract более ранних, чем третья, очень важно, чтобы изображение было в формате файла тегового значения и имело расширение ".tif", а не ".tiff". Командная строка должна выглядеть следующим образом:"$ tesseract ~ / input.tif output".
Где "input.tif" - это документ для преобразования, расположенный в домашней папке, а "output" - материал, который Tesseract создаст, как "output.txt". Часто отсканированные тексты хранятся в виде растрового рисунка в большом документе PDF. Используя ImageMagick, отдельные страницы могут быть извлечены в виде файлов TIFF для обработки с Tesseract. Следующий скрипт может помочь автоматизировать этот процесс.
Программа CuneiForm - это еще одна система оптического распознавания текста, которая была первоначально разработана и основана на открытых источниках Cognitive Technologies. Версия Windows, которая имеет собственный графический интерфейс, может быть запущена с некоторыми результатами в Wine. Его порт Linux разрабатывается на Launchpad и хотя в настоящее время у него нет собственного графического интерфейса, CuneiForm может быть успешно запущен из графического интерфейса OCRFeeder.
Ниже приведен пример, как успешно преобразовать некоторые скриншоты изображений .jpeg доски объявлений в Интернете в полезные текстовые файлы.
Pdfocr - это скрипт, который выполняет OCR для многостраничных файлов PDF, а также внедряет его обратно в виде текстового слоя с возможностью поиска. Он может использовать "Тессеракт" или клинопись в качестве механизма распознавания. Сам скрипт может быть получен из Github или из PPA. Чтобы запустить команду, прописывают в терминале: "pdfocr -i input.pdf -o output.pdf".
Технология OCR не стоит на месте, в перспективе признание интеллектуальной системы оптического распознавания символов - ICR. Этот стандарт является передовым. Большая часть ICR имеет самообучающуюся систему, называемую нейронной сетью, которая автоматически обновляет базу данных для новых образцов почерка. Она расширяет полезность сканирующих устройств для целей обработки документов от распознавания печатного текста (функция OCR) до рукописных материалов и могут достигать более 97 % степени точности при чтении рукописного материала в структурированных формах.