Сканер в кармане

Сканер в кармане

Сегодня чуть ли не каждый второй мобильный телефон оборудован цифровой камерой. Давайте использовать это устройство как можно полнее!

Сегодня чуть ли не каждый второй мобильный телефон оборудован цифровой камерой. Давайте использовать это устройство как можно полнее!

Распознавание текста, сфотографированного телефоном Распознавание текста, сфотографированного телефоном В этой статье

  • Распознавание текста, отснятого камерофоном
  • Мобильные телефоны с качественными камерами
  • Результаты тестирования
  • Приемы съемки текста

Вы пришли в библиотеку. Заказали несколько книг и журналов, и часа через полтора получили солидную стопку литературы.

Просмотрели: это не подходит, это больше не понадобится, а вот это ценная заметка, пригодится не раз. Сейчас мы ее скопируем. Запретов на копирование этой публикации для частных лиц нет, да и библиотека не против. Более того, в холле стоит копир. Вот только расценки «кусаются», да и очередь там собралась не маленькая. А выносить материалы из здания, чтобы отксерить их в ближайшем киоске, библиотечные правила как раз и запрещают.

Иногда решение проблемы, что называется, лежит у нас в кармане. Мы имеем в виду мобильный телефон с камерой (разумеется, заходя в читальный зал, вы отключили звук!). Правда, для того чтобы качественно снять страницу книги или журнала, подойдет далеко не всякий аппарат. Но, как показало наше исследование, некоторые современные модели вполне способны дать снимки, из которых после обработки программой распознавания получится полноценный электронный документ.

Для проверки нашей гипотезы мы отобрали три телефона с камерами — LG KG920, Nokia N95, Sony Ericsson k750 — и, в качестве «опорной точки», цифровой фотоаппарат Canon A530.

Тестирование

При тестировании мы распознавали отснятые страницы с помощью ABBYY FineReader 8.0. Качество снимков оценивалось по количеству ошибок в распознанном тексте (%). Ошибками считались неправильно распознанные буквы, замена прописных букв строчными, неправильное форматирование, а также лишние и пропущенные символы.

Основные сложности, как и следовало ожидать, вызвало распознавание слов, отсутствующих в словаре FineReader. В остальном следует признать: лингвистический анализатор программы справляется даже с довольно слабым качеством снимков.

Правда, форматирование сохраняется лишь местами, причем для разных фотоаппаратов FineReader выбрал разный шрифт.

Однако в целом, имея подходящий телефон, можно вполне положиться на его камеру при распознавании журнальных статей, документов и визиток. Отметим: по качеству распознавания снимки текста, сделанные телефонами, оказались ничуть не хуже снимков, сделанных камерой. Мы считаем, что качество распознавания определилось в итоге не техническими характеристиками устройств, а дрожанием руки оператора: ведь мы постарались максимально приблизить условия тестирования к реальным и снимали без штатива.

Рекомендации при съемке

Разрешение камеры должно быть не ниже 4 Мпикс. Снимать желательно без вспышки (для этого в камере должен быть режим отключения автовспышки). Старайтесь, чтобы рука не дрогнула. Любое движение в момент срабатывания затвора — и кадр потерян. Лучше всего, конечно, использовать штатив. Но поскольку штатив к мобильному телефону прилагается редко, попробуйте установить аппарат и страницу друг напротив друга неподвижно. В любом случае не полагайтесь на единственный удачный кадр — делайте по 2–3 снимка каждой страницы. Это поможет избежать случайных искажений. Если позволяет камера, установите режим макросъемки («Close-up» или «Macro»).

Расположите фотоаппарат параллельно плоскости документа, установите фокус приблизительно в центре страницы. Добейтесь такого положения камеры, при котором документ занимает весь кадр. Убедитесь, что все слова, которые следует распознать, попали в кадр. Тщательно наведите резкость. Если освещение недостаточно (что может привести к некорректной автофокусировке), переключитесь в режим ручной фокусировки (если позволяет аппарат). По возможности используйте режим стабилизации изображения.

Убедитесь, что документ достаточно освещен. Наилучшее качество снимков получают при естественном освещении. Если позволяет аппарат, отключите вспышку. В условиях недостаточной освещенности, где без вспышки не обойтись, располагайте фотоаппарат по возможности дальше от листа. Однако для качественного распознавания лучше постараться найти другие источники света.

Будьте особенно внимательны при съемке документов на глянцевой бумаге: она хорошо отражает свет и иногда дает блики. Если для получения качественного снимка приходится использовать вспышку, проследите, чтобы расстояние от фотоаппарата до листа было не менее 50 см.

Резюме

Далеко не всякий текст удается качественно сфотографировать — только если он отпечатан достаточно четко и контрастно.

Старые, пожелтевшие и вытертые страницы с бледным шрифтом, скорее всего, все-таки придется копировать на библиотечном аппарате. Но современные журналы вы наверняка сможете отснять, не вставая из-за стола. Об ориентации страницы заботиться не стоит: FineReader автоматически развернет ее так, как нужно.

Сколько же стоит распознавание страницы текста? Стоимость аппарата учитывать не будем: вряд ли вы купите довольно дорогой и многофункциональный камерофон или смартфон только для оцифровки текстов — скорее всего, он станет для вас телефоном, камерой, плеером, записной книжкой и игровой приставкой. Поэтому мы учтем лишь стоимость ПО FineReader: по данным производителя (www.abbyy.ua), коробочная версия ABBYY FineReader 7.0 Home Edition стоит 162 грн. Если считать, что ксерокопия одной страницы стоит 30 коп., то для того, чтобы окупить стоимость ПО, необходимо отснять до 550 страниц — это две книги среднего формата или четыре номера CHIP. Но ведь, установив FineReader, вы наверняка будете распознавать не только отснятые телефоном страницы, но и другие документы. Поэтому рискнем предположить, что те, кому приходится много работать с литературой, особенно студенты и аспиранты, окупят это ПО за несколько месяцев, а если они купят его вскладчину с друзьями-сокурсниками, то и еще быстрее.

Редакция благодарит компанию «ABBYY Украина» за предоставленную OCR-систему ABBYY FineReader 8.0.

Рекомендуем