Презентация ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена Игоревна МГУ им. М. В. Ломоносова, Факультет ВМиК bolshcs. msu. s онлайн

На нашем сайте вы можете скачать и просмотреть онлайн доклад-презентацию на тему ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена Игоревна МГУ им. М. В. Ломоносова, Факультет ВМиК bolshcs. msu. s абсолютно бесплатно. Урок-презентация на эту тему содержит всего 21 слайд. Все материалы созданы в программе PowerPoint и имеют формат ppt или же pptx. Материалы и темы для презентаций взяты из открытых источников и загружены их авторами, за качество и достоверность информации в них администрация сайта не отвечает, все права принадлежат их создателям. Если вы нашли то, что искали, отблагодарите авторов - поделитесь ссылкой в социальных сетях, а наш сайт добавьте в закладки.
Презентации » Информатика » ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена Игоревна МГУ им. М. В. Ломоносова, Факультет ВМиК bolshcs. msu. s



Оцените!
Оцените презентацию от 1 до 5 баллов!
  • Тип файла:
    ppt / pptx (powerpoint)
  • Всего слайдов:
    21 слайд
  • Для класса:
    1,2,3,4,5,6,7,8,9,10,11
  • Размер файла:
    388.00 kB
  • Просмотров:
    66
  • Скачиваний:
    0
  • Автор:
    неизвестен



Слайды и текст к этой презентации:

№1 слайд
ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ
Содержание слайда: ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена Игоревна МГУ им. М.В. Ломоносова, Факультет ВМиК bolsh@cs.msu.su  

№2 слайд
СОДЕРЖАНИЕ Особенности задачи
Содержание слайда: СОДЕРЖАНИЕ Особенности задачи Выделяемые сущности Технология решения: шаблоны Проект ONTOS и система GATE Задача извлечения терминологии Особенности терминов и их употребления Критерии распознавания Шаблоны для извлечения

№3 слайд
ОСОБЕННОСТИ ЗАДАЧИ
Содержание слайда: ОСОБЕННОСТИ ЗАДАЧИ Information Extraction Специфика задачи – распознавание и извлечение из текста определенной значимой информации - объектов и фактов, структуризация извлеченной информации Приложения: текстовая аналитика (экономическая, производственная, правоохранительная и др.) построение онтологий и тезаурусов, моделей проблемной области

№4 слайд
ВЫДЕЛЯЕМЫЕ СУЩНОСТИ
Содержание слайда: ВЫДЕЛЯЕМЫЕ СУЩНОСТИ Именованные сущности: Имена персоналий Географические названия Названия фирм и организаций Адреса Даты Отношения (связи) выделенных сущностей, например: работать в Смирнов А. работает в ОА «Альфа» с 1998 г. связанные с ними события и факты получение кредита, слияние компаний…

№5 слайд
ТЕХНОЛОГИЯ РЕШЕНИЯ Частичный
Содержание слайда: ТЕХНОЛОГИЯ РЕШЕНИЯ Частичный синтаксический анализ : неэфффективность и многовариантность синт. разбора Лигвистические шаблоны, содержащие лексическую, морфологическую и синтаксическую информацию Лингвистич. шаблон – описание языковой конструкции, ее лексического состава и грамматических свойств: N “работает” в NP (Noun Phrase) Элементы шаблонов: Словоформы, лексемы (возможно, с указанием части речи/морфологических характеристик) Грамматические конструкции: именные и др. группы

№6 слайд
ПРОЕКТ ONTOS
Содержание слайда: ПРОЕКТ ONTOS

№7 слайд
СИСТЕМА GATE КАК ИНСТРУМЕНТ
Содержание слайда: СИСТЕМА GATE КАК ИНСТРУМЕНТ Набор стандартных программных компонент (лингвистических процессоров) для обработки текста Представление лингвистической информации об обрабатываемом тексте в виде набора аннотаций, которые хранятся отдельно от текста Графическая среда для сборки приложения из компонент

№8 слайд
GATE ПРИМЕРЫ АННОТАЦИЙ
Содержание слайда: GATE: ПРИМЕРЫ АННОТАЦИЙ Сущность «Angela Merkel»

№9 слайд
GATE КОМПОНЕНТЫ Цепочка
Содержание слайда: GATE : КОМПОНЕНТЫ Цепочка обработки текста в системе GATE: Tokeniser - разбиение текста на отдельные токены (числа, знаки препинания, слова) Gazetteer - создание аннотаций к словам на основании словарных файлов (названия городов, организаций, дней недели и т.д.) Sentence Splitter - разбиение текста на предложения Part of Speech Tagger - определение части речи слов на основании словаря и правил Semantic Tagger - распознавание языковых конструкций и сущностей на основе аннотаций и JAPE-правил OrthoMatcher (Orthographic Coreference ) - соотнесение идентичных сущностей с разными названиями

№10 слайд
GATE ШАБЛОНЫ И ПРАВИЛА Язык
Содержание слайда: GATE : ШАБЛОНЫ И ПРАВИЛА Язык JAPE - запись правил преобразования аннотаций Шаблоны для выявляемых конструкций, например: {Morph.SpeechPart="Adjective", Morph.Case="Nominative"} - шаблон для выявления прилагательных в именит. падеже Правила для преобразования аннотаций : левая часть – шаблон, правая – преобразование нужных аннотаций выявленной конструкции Rule: Second_name ({Token.SemanticType="Name: FName"}):family {[А-Я]}{Token.Text="."}{[А-Я]}{Token.Text=="."})  family.Family={rule="Second_name"} - правило для выявления имен персоналий вида Иванов И. и выделение из них фамилий

№11 слайд
ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ
Содержание слайда: ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ Терминологические слова и словосочетания: называют понятия проблемной области: общий регистр, число с плавающей точкой технология двойной накачки Приложения: индексирование текстов навигация по тексту поддержка терминологич. редактирования текстов построение глоссариев и предметных указателей создание онтологий и тезаурусов Часть приложений – обработка отдельного текста, но не коллекции

№12 слайд
ОСОБЕННОСТИ ТЕРМИНОВ
Содержание слайда: ОСОБЕННОСТИ ТЕРМИНОВ Большинство словосочетаний – несвободные (некомпозиционные), т.е. их смысл не выводится из смысла компонент: железная дорога, длина слова Конвенциональность научно-технических терминов  необходимость их определения в тексте: Под прерыванием понимается сигнал… Грамматическая структура терминов: чаще всего - именные словосочетания, их можно описать структурными грамматическими образцами: прилагательное-существительное – логический вывод, существительное- существительное в род. падеже – период упреждения

№13 слайд
МЕТОДЫ РАСПОЗНАВАНИЯ
Содержание слайда: МЕТОДЫ РАСПОЗНАВАНИЯ Применение статистических и лингвистических критериев: Статистические критерии Например, функция упорядочивания по статистике:  log2 |a| * freq (a), если a не вложено, иначе C-Value(a) =   log2 |a| * (freq (a) – P(Ta)-1 * bTa freq (b)) где a – слово (словосочетание), |a| – его длина, freq(a) – частота встречаемости a в тексте, Ta – множество словосочетаний текста, содержащих a, P(Ta) – количество словосочетаний, содержащих a. электрический слой - двойной электрический слой

№14 слайд
МЕТОДЫ РАСПОЗНАВАНИЯ
Содержание слайда: МЕТОДЫ РАСПОЗНАВАНИЯ: ЛИНГВИСТИЧЕСКИЕ КРИТЕРИИ грамматические (синтаксические) образцы терминов: A N N - спектральный коэффициент излучения контексты употребления терминов: effect of T – effect of drought, effect of cold (последствие засухи, заморозков) such T1 as T2 – such crimes as money laundering (такие преступления, как отмывание денег) Лингвистическую информацию можно записать в виде шаблонов необходим язык шаблонов и поддерживающие его средства

№15 слайд
РАСПОЗНАВАНИЕ ТЕРМИНОВ
Содержание слайда: РАСПОЗНАВАНИЕ ТЕРМИНОВ: ТЕКСТОВЫЕ ВАРИАНТЫ При использовании терминов в тексте они могут образовывать варианты:

№16 слайд
ТЕРМИНОЛОГИЧЕСКИЕ ВАРИАНТЫ
Содержание слайда: ТЕРМИНОЛОГИЧЕСКИЕ ВАРИАНТЫ: ПРИМЕР

№17 слайд
РАСПОЗНАВАНИЕ ТЕРМИНОВ
Содержание слайда: РАСПОЗНАВАНИЕ ТЕРМИНОВ: СОЕДИНЕНИЯ ТЕРМИНОВ Соединения нескольких терминологических словосочетаний:

№18 слайд
ШАБЛОНЫ ЯЗЫК LSPL
Содержание слайда: ШАБЛОНЫ: ЯЗЫК LSPL Лексико-синтаксический шаблон позволяет задать для элемента-слова: часть речи (A, N, V, Pa и т.д.) – A индекс – A1 A2 N лексему – A<важный> морфологические характеристики (имя=значение) – A<важный; case=nom, gen=fem> Грамматическое согласование элементов шаблона: A<тяжелый> N <A.gen=N.gen, A.num=N.num, A.case=N.case> Прилагательное тяжелый и существительное согласованы в роде, числе и падеже: тяжелым вечером, тяжелых камней, тяжелое тело

№19 слайд
ЯЗЫК LSPL-ШАБЛОНОВ ВОЗМОЖНОСТИ
Содержание слайда: ЯЗЫК LSPL-ШАБЛОНОВ: ВОЗМОЖНОСТИ

№20 слайд
LSPL-ШАБЛОНЫ ПРИМЕРЫ Шаблон
Содержание слайда: LSPL-ШАБЛОНЫ: ПРИМЕРЫ Шаблон типичной структуры термина: A N1 { N2 <case=gen>} (A=N1) реактивная сила, немаркированный квантор общности Шаблон типичной фразы-определения новых терминов: NP1<c=acc> ["мы"] "назовем" NP2<c=ins> <NP1.n = NP2.n> Указанную операцию назовем операцией поиска примеров Шаблон образования терминологических вариантов: N1 N2<c=gen> "," N3<c=gen> {"и"|"или"} N4<c=gen> #N1 N2<c=gen> , N1 N3<c=gen> , N1 N4<c=gen> шинам адреса, данных и управления – шина адреса, шина данных, шина управления

№21 слайд
ЗАКЛЮЧЕНИЕ В основном
Содержание слайда: ЗАКЛЮЧЕНИЕ В основном – извлечение на основе правил (rule-based), все чаще - машинное обучение Точность и полнота извлечения зависят от набора шаблонов зависят друг от друга верхняя граница - до 80-90 % Сложность задачи (технологическая): приемлемая полнота и точность достигается на больших массивах текстов обычно в рамках коммерческих компаний СПАСИБО ЗА ВНИМАНИЕ!

Скачать все slide презентации ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена Игоревна МГУ им. М. В. Ломоносова, Факультет ВМиК bolshcs. msu. s одним архивом:
Похожие презентации