в начало · e-mail

история
график выхода
размещение рекламы

 

процессоры
системные платы
видеокарты
память, hdd, cd, dvd
звуковые карты и    акустические системы
источники UPS
модемы
сети
программы
игры
руководство и чаво
мониторы
принтеры
сканеры и камеры
законченые решения
ноутбуки и hpc
разное
  компьютеры
комплектующие и    периферия
программы
оргтехника
средства связи
аудио-видео
бытовая техника
охранные системы
  вышедшие в этом    месяце
полная коллекция
  вышедшие в этом    месяце
архив
  последний выпуск
архив
  форум
чат
 


Апорт Top 1000


Новая версия системы распознавания CuneiForm 2000 R2

Николай Никольский,  директор по маркетингу  Cognitive Technologies Ltd.

 

Известный разработчик ПО компания Cognitive Technologies выпустила новую версию системы распознавания текстов CuneiForm 2000 R2. Новая версия является результатом значительного усовершенствования предыдущего релиза OCR CuneiForm 2000.

Системы распознавания текстов давно зарекомендовали себя как надежные помощники по вводу бумажных документов в компьютер. Системы легко справляются не только с обычными, так называемыми, гладкими текстами, но и с документами со сложной структурой, содержащими таблицы, графические иллюстрации, напечатанные на цветном фоне и т.д. Разработчиков заботит вопрос, по какому пути развивать дальше эти технологии? Поднимать дальше точность распознавания? Улучшать интерфейс и функциональность программы? Стоит сказать, что на пути развития любой системы бывают моменты, когда быстрое развитие не возможно без качественных изменений. Похоже, что такой момент наступил в развитии OCR технологий. Разработчиками OCR системы CuneiForm в прошлом году были предложены кардинальные изменения в основных принципах распознавания.

В отличие от предыдущих промышленных разработок в области оптического распознавания в новой версии OCR CuneiForm 2000 удалось реализовать в качестве основного не один, а целую совокупность алгоритмов, значительно повышающих точность и скорость распознавания, а также существенно улучшающих характеристики других модулей системы. Разработчиками было создано принципиально новое ядро распознавания. Отличием нового подхода является наличие экспертной системы внутри ядра, которая позволяет проводить анализ оценок альтернатив, получаемых на выходе от каждого алгоритма, и выбирать оптимальный вариант (метод Когнитивного анализа ТМ). Если ранее в системах использовался один (в качестве основного) алгоритм при распознавании любых текстов, то введение нового подхода позволит системе самостоятельно, в зависимости от качества и вида документа, подбирать нужный алгоритм распознавания.

 

Рассмотрим другие технологии реализованные в CuneiForm.

 1. Адаптивное распознавание ТМ — метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, т.е. используется динамическая настройка (адаптация) на конкретные входные символы. Таким образом, метод совмещает универсальность и технологичность бесшрифтового подхода и высокую точность распознавания шрифтового, что позволяет кардинальным образом повысить качество распознавания. Технология адаптивного распознавания является мощным развитием технологии самообучающихся алгоритмов, реализованных в предыдущих версиях системы CuneiForm.

 2. Нейронные сети. Алгоритмы, использующие нейронные сети для распознавания символов, строятся следующим образом. Поступающее на распознавание изображение символа (растр) приводится к некоторому стандартному размеру (нормализуется). Значения яркости в узлах нормализованного растра используются в качестве входных параметров нейронной сети. Число выходных параметров нейронной сети равняется числу распознаваемых символов. Результатом распознавания является символ, которому соответствует наибольшее из значений выходного вектора нейронной сети.

Кроме того, для повышения точности воссоздания исходной формы таблицы в выходном документе был разработан оригинальный метод Меридианной сегментации таблиц ТМ.

Одной из важнейших особенностей новой версии является высокая точность воссоздания формы исходного документа. Эта возможность получила название What you scan is what you get TM. Дело в том, что до настоящего момента пользователи систем распознавания тратили большое количество времени (которое часто превышало время самого сканирования и распознавания) для придания документу его исходной формы, добиваясь того, чтобы каждый фрагмент находился на нужном месте. Особенно это касается документов со сложной топологией: многоколончатые тексты с заголовками, аннотациями, графическими иллюстрациями, таблицами, и т.д.

Для профессиональных пользователей в новой версии реализован удобный процесс работы с большими объемами информации — пакетное сканирование и пакетное распознавание. Для офисного использования существует возможность распределенной работы в сети. Предусмотрен режим администрирования.

 

Особенности новой версии

В новой версии OCR CuneiForm 2000 R2 разработчикам удалось что называется подтянуть винтики, довести до нужного уровня новые технологические решения. Программу отличает возросшее качество распознавания, особенно текстов плохого качества, повышенная скорость работы, улучшенный режим автофрагментации, распознавание таблиц различной структуры, в том числе и без разделительных линий.

Расширены возможности пользователей по сохранению результатов распознавания: добавлены форматы HTML и DBF, помимо экспорта в Word появился экспорт распознанных таблиц в Excel. Улучшен поиск иллюстраций в документе в автоматическом режиме. Разработчики увеличили объемы словарей (всего поддерживается 15 языков) и расширили функцию словарного контроля для улучшения распознавания. В ядро системы был добавлен новый алгоритм фильтрации мусора на изображении, что позволяет распознавать тексты даже на цветном фоне. Усовершенствован встроенный текстовый редактор Cognitive Editor, не уступающий по своим возможностям популярным текстовым процессорам. С целью облегчения работы с программой переработана система помощи и руководство пользователя.

Также спешим сообщить, что в связи с выпуском нового релиза и в преддверие выставки Комтек 2000 компания Cognitive Technologies объявила конкурс на самый интересный рассказ о применении OCR CuneiForm. Мы ждем описания каких–либо интересных случаев, с которыми наши пользователи сталкивались при использовании OCR CuneiForm. В конкурсе могут принять участие не только зарегистрированные пользователи любой версии CuneiForm, но и работающие с пробной версией.

 

Учачстников ждут замечательные призы: последние модели сканеров Hewlett–Packard и NeuHaus, мобильные телефоны и, конечно же, лицензионные копии программ CuneiForm 2000 и Евфрат 99 Deluxe . Победители будут приглашены на стенд компании Cognitive Technologies на выставке Комтек 2000 , где состоится церемония награждения. Вся информация о конкурсе — по адресу:  http://www.cuneiform.ru/tech/index.html.

© 1996 - 2000 MEGA plus Co. All rights reserved (095) 231-2054, 231-2056
Сайт управляется системой uCoz