Template by:
Free Blog Templates

вторник, 7 октября 2008 г.

CuneiForm - система оптического распознавания отсканированного текста

CuneiForm - это система оптического распознавания крупнейшего российского разработчика программного обеспечения Cognitive Technologies, которая обеспечивает быстрое и высококачественное преобразование бумажных документов и электронных графических файлов, получаемых, например, со сканера или факса, в редактируемый текст для последующей работы с ним в текстовых редакторах. Решением руководства компании, этот продукт стал полностью бесплатным для пользователей, несмотря на набор функциональных особенностей, который может успешно конкурировать с большинством коммерческий порграмм. Компания Cognitive Technologies объявила о полном открытии кода системы распознавания печатных текстов Cuneiform. Для распространения программы выбрана лицензия BSD (Berkeley Software Distribution).

011733383

Для кого предназначена OCR CuneiForm?
Система распознавания текстов CuneiForm предназначена для всех, кому приходится вводить в компьютер факсы, книги, газеты, машинописные страницы, тексты договоров и т.д. Для работы с системой достаточно положить страницу с текстом в сканер, нажать кнопку, и через несколько секунд Вы получите готовый результат в многофункциональном текстовом редакторе.

Какие шрифты распознает OCR CuneiForm, требуется ли обучение?
CuneiForm - шрифтонезависимая (OmniFont) система. Алгоритмы, заложенные в CuneiForm, исходят из правил написания букв, из их топологии, и не требуют задания каких-либо эталонов, или обучения.
В системе используется технология интеллектуального самообучения на базе адаптивного распознавания символов.
Распознаются любые печатные шрифты - книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок и т.п.
Не распознается рукописный текст и декоративные шрифты (готический, стилизованный под рукописный).
В CuneiForm существуют специальные настройки для распознавания текстов с матричного принтера и факсов 200 x 100 dpi.

Чем OCR CuneiForm отличается от других подобных программ?

  • качеством распознавания;
  • высокой скоростью работы;
  • использованием уникальных технологий, таких как адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и других;
  • простой использования и интуитивным интерфейсом;
  • функциональным наполнением, наличием многих дополнительных возможностей.
Поддерживает ли OCR CuneiFormработу с таблицами? Да. Программа автоматически находит в тексте таблицы различной структуры, в том числе без линий разграфки. Встроенный редактор поддерживает редактирование таблиц (можно уменьшать/увеличивать, удалять/создавать колонки и т.д.)

Как OCR CuneiForm отнесется к картинкам в тексте? Как пожелаете. Может просто проигнорировать их присутствие, а может сохранить в выходном документе в черно-белом, сером или цветном виде, в зависимости от вашего желания.

Информация об OCR CuneiForm:OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.
OCR CuneiForm это:
  • высокое качество распознавания;
  • высокая скорость работы;
  • распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
  • работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;
  • распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;
  • автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
  • полное сохранение топологии страницы;
  • поддержка пакетного режима сканирования и распознавания;
  • простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
  • встроенный текстовый редактор для работы с распознанным текстом;
  • совмещенный показ изображений и результатов распознавания.
В системе используется целый ряд уникальных технологий, среди которых адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие.

Ошибка передачи данных при работе со сканерами HP, Epson, BENQ, Canon, Xerox, Mustekи др.
Описание ошибки:
Причина в особенностях работы TWAIN драйверов сканера, в CuneiForm используются 2 режима передачи memory-buffered (режим по умолчанию) и memory-native. Раньше драйвера сканера не всегда реализовали оба, или один из них был не очень стабилен. Была ситуация когда это зависело и от производителя, и от версии драйвера. Сейчас у производителей промышленных сканеров (Fujitsu, Kodak и др.) поддерживаются все режимы, а у остальных производителей видимо ситуация с режимами передачи иногда остается нестабильной.

Лекарство:
Необходимо отредактировать файл face.ini, который находится в директории windows. Находим в файле ключ TWAIN_TransferMode и делаем его равным memory-native. То есть должно быть TWAIN_TransferMode=memory-native

Страница Разработчика: http://www.cuneiform.ru/

Прямая ссылка на скачивание: http://www.ziddu.com/download/2334737/cuneiform.zip.html

Скрины для ознакомления:
011733384 011733386 011733388