Презентация Система оптического распознавания документа онлайн
На нашем сайте вы можете скачать и просмотреть онлайн доклад-презентацию на тему Система оптического распознавания документа абсолютно бесплатно. Урок-презентация на эту тему содержит всего 19 слайдов. Все материалы созданы в программе PowerPoint и имеют формат ppt или же pptx. Материалы и темы для презентаций взяты из открытых источников и загружены их авторами, за качество и достоверность информации в них администрация сайта не отвечает, все права принадлежат их создателям. Если вы нашли то, что искали, отблагодарите авторов - поделитесь ссылкой в социальных сетях, а наш сайт добавьте в закладки.
Презентации » Образование » Система оптического распознавания документа
Оцените!
Оцените презентацию от 1 до 5 баллов!
- Тип файла:ppt / pptx (powerpoint)
- Всего слайдов:19 слайдов
- Для класса:1,2,3,4,5,6,7,8,9,10,11
- Размер файла:688.28 kB
- Просмотров:90
- Скачиваний:1
- Автор:неизвестен
Слайды и текст к этой презентации:
№2 слайд
![Назначение систем оптического](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img1.jpg)
Содержание слайда: Назначение систем оптического распознования текста
Оптическое распознавание символов (англ. optical character recognition, OCR) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные — последовательность кодов, использующихся для представления символов в компьютере (например, в текстовом редакторе).
№4 слайд
![История году - Густав Таушек](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img3.jpg)
Содержание слайда: История
1929 году - Густав Таушек (Gustav Tauschek) получил патент на метод оптического распознавания текста в Германии;
1933 год - Гендель (Paul W. Handel) получил патент на свой метод в США ;
1935 год – Г. Таушек также получил патент США на свой метод;
1950 год - Дэвид Х. Шепард (David H. Shepard) - построил машину, решающую задачу преобразования печатных сообщений в машинный язык для обработки компьютером.
1955 год - Первая коммерческая система была установлена на «Ридерс Дайджест»
1965 год - «Ридерс Дайджест» и «Ар-Си-Эй» начали сотрудничество с целью создать машину для чтения документов, использующую оптическое распознавание текста, предназначенную для оцифровки серийных номеров купонов «Ридерс Дайджест», вернувшихся из рекламных объявлений.
1965 год - Почтовая служба Соединённых Штатов для сортировки почты использует машины, работающие по принципу оптического распознавания текста, созданные на основе технологий, разработанных исследователем Яковом Рабиновым.
№5 слайд
![История год - Почта Канады](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img4.jpg)
Содержание слайда: История
1971 год - Почта Канады использует системы оптического распознавания символов
1974 год - Рэй Курцвейл создал компанию «Курцвейл Компьютер Продактс», и начал работать над развитием первой системы оптического распознавания символов, способной распознать текст, напечатанный любым шрифтом.
1978 год - Компания «Курцвейл Компьютер Продактс» начала продажи коммерческой версии компьютерной программы оптического распознавания символов.
1992 год – Начало продажи первой коммерчески успешной программой, распознающей кириллицу, «AutoR» российской компании «ОКРУС» (ОС DOS).
Конец 60-х годов – разработка и испытание шрифтонезависимого алгоритма распознования текста выпускниками МФТИ, биофизиками: Г. М. Зенкиным и А. П. Петровым
№6 слайд
![Системы оптического](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img5.jpg)
Содержание слайда: Системы оптического распознавания символов
При coздании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов.
Оптическое распознавание символов (англ. optical character recognition, OCR) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе. (Википедия)
С помощью сканера несложно получить изображение cтpaницы текста в графическом файле.
№8 слайд
![Хорошее качество текста](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img7.jpg)
Содержание слайда: Хорошее качество текста
Растровый метод распознавания текста
Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном.
Сначала растровое изображение страницы разделяется на изображения отдельных символов.
Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.
№9 слайд
![Плохое качество текста](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img8.jpg)
Содержание слайда: Плохое качество текста
Структурный метод распознавания
При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.).
Любой символ можно описать через набор параметров, определяющих взаимное расположение eгo элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами в величине улов, которые составляет третий отрезок с двумя другими. При pacпознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего coответствуют распознаваемому символу.
№10 слайд
![Программы распознавания](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img9.jpg)
Содержание слайда: Программы распознавания текста
Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).
Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами, но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное — корректно распознавать не только четко набранные тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст — это еще полдела. Не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата — скажем, формата Microsoft Word.
№11 слайд
![Наиболее распространенные](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img10.jpg)
Содержание слайда: Наиболее распространенные системы оптического распознавания символов, например, ABBYY FineReader и CuneiForm от Cognitive, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.
Наиболее распространенные системы оптического распознавания символов, например, ABBYY FineReader и CuneiForm от Cognitive, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.
Существует также системы On-line распознавания текста: Online OCR и ABBYY FineReader Online (http://www.onlineocr.ru , http://finereader.abbyyonline.com)
№12 слайд
![Системы оптического](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img11.jpg)
Содержание слайда: Системы оптического распознавания форм
При проведении Единого государственного экзамена, при заполнении налоговых деклараций и т. д. используются различного вида бланки с полями. Рукописные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных.
Сложность состоит в том, что необходимо распознавать символы, написанные от руки, а они довольно сильно различаются у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст.
Системы распознавания рукописного текста. С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.
№13 слайд
![OCR-приложения Это](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img12.jpg)
Содержание слайда: OCR-приложения
Это приложения, которые производят сканирование и распознавание текста, от англ. Optical Character Recognition - Оптическое распознавание символов
Это программы для перевода изображений документов в редактируемый текст, который можно затем обрабатывать в текстовых и табличных редакторах. По сравнению с ручной перепечаткой текста, такие программы дают существенный выигрыш в скорости работы, к тому же делают меньше ошибок. Еще одно достоинство - возможность сохранить иллюстрации, а они иногда не менее важны, чем текст документа.
№14 слайд
![OCR CUNEIFORM Это бесплатная](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img13.jpg)
Содержание слайда: OCR CUNEIFORM
Это бесплатная программа сканирования и распознавания текста российского разработчика Cognitive Technologies.
OCR CuneiForm обеспечивает быстрое, удобное и качественное распознавание текста с сохранением исходного вида документа. Поддерживается распознавание с более 20 языков, среди них русский, украинский, английский, немецкий, французский, испанский, итальянский, португальский, шведский, финский, сербский, хорватский, польский, а также распознавание смешанного русско-английского текста.
№15 слайд
![ABBYY FineReader Популярная](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img14.jpg)
Содержание слайда: ABBYY FineReader
Популярная программа распознавания текста российской компании ABBYY
Программа производит распознавание текста с более 180 языков, для 38 из них предусмотрена встроенная проверка орфографии. Начиная с версии Professional, распознаются иврит, японский, тайский, китайский языки. Finereader открывает файлы графических форматов (TIFF, JPG, PFD, PNG и др.) в том числе DjVu – компактный формат для хранения отсканированных документов, книг.
Стоимость программы 3990 рублей
№16 слайд
![OmniPage Популярная программа](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img15.jpg)
Содержание слайда: OmniPage
Популярная программа распознавания текста российской компании ABBYY
Программа отличается высокой скоростью и точностью распознавания. Распознаются более 120 языков с различными алфавитами: латинский, греческий алфавиты, кириллица, китайский, японский и корейский языки. Как и FineReader, OmniPage уверенно распознает документы, полученные с помощью цифровых камер с помощью технологии коррекции изображения "3D Correction".
Стоимость программы 6090 рублей
(150 евро)
№17 слайд
![Readiris Программа](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img16.jpg)
Содержание слайда: Readiris
Программа сканирования и распознавания текста компании I.R.I.S.
Поддерживается распознавание текста с более 120 языков распознавания, включая русский, а также ближневосточные языки - арабский, иврит, фарси (в версии Middle-East) и японский, китайский, корейский (в версии Asian). Есть версия Readiris для Macintosh.
Вместе с поддержкой распознавания популярных форматов картинок, распознаются файлы PDF и DjVu.
Стоимость программы
3845-14875 рублей (129 $-499 $)
№18 слайд
![Microsoft Office Document](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img17.jpg)
Содержание слайда: Microsoft Office Document Imaging
Программа распознавания текста компании Microsoft
Программа Document Imaging способна работать только с двумя языками: английским и языком локализации самого MS Office. Для поддержки других языков необходимо дополнительно устанавливать пакет Multilingual User Interface (MUI). OCR настроек в программе практически нет, программа в автоматическом режиме поддерживает распознавание типа и размера шрифтов, картинок и простых таблиц.
Стоимость программы входит в стоимость пакета MS Office.
№19 слайд
![Источники литературы .](/documents_5/ba4bf1e7c4fafbfa12e469b365e6031c/img18.jpg)
Содержание слайда: Источники литературы:
1. Богданов В., Ахметов К. Системы распознавания текстов в офисе. // Компьютер-пресс — 1999 №3, с.40-42.
2. Павлидис Т. Алгоритмы машинной графики и обработки изображений. М:, Радио и связь, 1986
3. Shani U. Filling Regions in Binary Raster Images — a Graph-theoretic Approach. // SIGGRAPH'80, pp 321-327.
4. Merrill R.D. Representation of Contours and Regions for Efficient Computer Search. // CACM, 16 (1973), pp. 69-82.
5. Pavlidis T. Filling Algorithms for Raster Graphics. // CGIP, 10 (1979), pp. 126141.
6. http://expscan.narod.ru/
7 . http://ru.wikipedia.org/wiki/OCR
Скачать все slide презентации Система оптического распознавания документа одним архивом:
Похожие презентации
-
Системы оптического распознавания документов
-
Система основной педагогической документации ДОУ (организационно-педагогическая деятельность) Овечкина Т. А. – руководитель Инс
-
Основные классы естественно-языковых систем. Системы распознавания речи
-
Система основной педагогической документации ДОУ
-
Системы электронного документооборота и автоматизация производной деятельности
-
Документальные информационные системы
-
Системы электронного документооборота
-
Заболевания оптической системы глаза
-
Заболевания оптической системы глаза у детей
-
Автоматизированная система контроля исполнения документов и поручений