Оцените презентацию от 1 до 5 баллов!
Тип файла:
ppt / pptx (powerpoint)
Всего слайдов:
35 слайдов
Для класса:
1,2,3,4,5,6,7,8,9,10,11
Размер файла:
2.22 MB
Просмотров:
68
Скачиваний:
0
Автор:
неизвестен
Слайды и текст к этой презентации:
№1 слайд
Содержание слайда: Машинный перевод
Лидия Михайловна Пивоварова
Системы понимания текста
№2 слайд
Содержание слайда: Введенние
Машинный перевод – автоматический (без участия человека) перевод с одного языка на другой
Сферы применения: большие объемы информации и/или высокие требования к скорости перевода:
Документация
Новости
Военные сводки
Интернет-сайты, многоязычный поиск
Справочная информация (рецепты, объявления, адреса)
Основная цель: быстро понять основное содержание сообщения на иностранном языке
Не замена ручному переводу; можно даже сказать – другая задача
№3 слайд
Содержание слайда: Сожержание
Основные подходы
Перевод, основанный на правилах
Перевод, основанный на машинном обучении
Оценка машинного перевода
№4 слайд
Содержание слайда: Правила vs. статистика
№5 слайд
Содержание слайда: Перевод по правилам
Морфологический анализ
Синтез групп (именные, глагольные и др.)
Синтаксический анализ
Синтез предложений
№6 слайд
Содержание слайда: Статистический МП
Использует большие параллельные двуязычные корпуса N-грамм
Поиск наиболее подходящего перевода реализован специальной вероятностной моделью
№7 слайд
Содержание слайда: Сожержание
Основные подходы
Перевод, основанный на правилах
прямой перевод
трансфер
интерлингва
Перевод, основанный на машинном обучении
Оценка машинного перевода
№8 слайд
Содержание слайда: Основные подходы
Direct, transfer, interlingua
№9 слайд
Содержание слайда: Сожержание
Основные подходы
Перевод, основанный на правилах
прямой перевод
трансфер
интерлингва
Перевод, основанный на машинном обучении
Оценка машинного перевода
№10 слайд
Содержание слайда: Прямой перевод
Пословный перевод (word-by-word)
Никаких промежуточных структур помимо морфологии
После перевода слов – простое переупорядочивание в соответствии со знанием о языке (например, в английском прилагательное идет до существительного, во французском и испанском – после)
Используемое знание: морфологическая структура языка и локальные правила перевода слов
№11 слайд
Содержание слайда: Правила
№12 слайд
Содержание слайда: Прямой перевод
Нет сложных лингвистических теорий и синтаксического анализа
Использование синтаксической и лексической похожести между двумя языками
«Надежность» - можно переводить даже неполные предложения
Словари – наиболее важный компонент
№13 слайд
Содержание слайда: Слишком простая модель
№14 слайд
Содержание слайда: Содержание
Основные подходы
Перевод, основанный на правилах
прямой перевод
трансфер
интерлингва
Перевод, основанный на машинном обучении
Оценка машинного перевода
№15 слайд
Содержание слайда: Система типа
TRANSFER
№16 слайд
Содержание слайда: Основные идеи
Применяются знания о различиях между языками
Этапы:
Синтаксический анализ
Трансфер: синтаксическая структура исходного языка трансформируется в синтаксическую структуру целевого языка
Синтез текста на целевом языке по синтаксической структуре
№17 слайд
Содержание слайда: Правила
№18 слайд
Содержание слайда: Трансфер лексики
Лексические правила
Двуязычные словари
Т.е. сложность по сравнению с прямым переводом возрастает
№19 слайд
Содержание слайда: Пример: SYSTRAN
SYSTRAN = PROMT
in the world in Russia
Более 90% рынка
Доход в 2007 году ~13 млн евро
Акции торгуются на бирже
№20 слайд
Содержание слайда: SYSTRAN: комбинация прямого перевода и трансфера
Анализ
Морфологический анализ, части речи
Сборка словосочетаний
Поверхностный синтаксис
Трансфер
Перевод идиом
Снятие неоднозначности (word sense disambiguation)
Выбор предлогов по глаголу
Синтез
Большой двуязычный словарь
Переупорядочивание
Синтез морфологии
№21 слайд
Содержание слайда: Пример: ПРОМТ
Система типа TRANSFER, но вместо последовательного TRANSFER’a – иерархически взаимосвязанные TRANSFER’ы для разных единиц перевода:
Уровень лексических единиц
Уровень групп
Уровень простых предложений
Уровень сложных предложений
№22 слайд
Содержание слайда: Промт: трансфер на разных уронях
TRANSFER на морфологическом уровне
входная морф. инф. выходная морф. инф.
TRANSFER на уровне групп
Основа – формальные сетевые грамматики
При анализе соединение синтаксических единиц в группы структура в терминах непосредственных составляющих синтез лексических единиц с наследуемыми значениями морф. признаков
№23 слайд
Содержание слайда: Словари
Генеральный словарь
Специализированные словари
Пользовательские словари
Чем уже тематика, тем лучше качество перевода
№24 слайд
Содержание слайда: Трансфер
Глубокое лингвистическое знание – лучше качество перевода
Компоненты анализа и синтеза могут использоваться для других языковых пар (теоретически)
Тем не менее, создание систем машинного перевода очень сложно и трудоемко, сами системы громоздкие и сильно завязанные на конкретную пару языков
№25 слайд
Содержание слайда: Содержание
Основные подходы
Перевод, основанный на правилах
прямой перевод
трансфер
интерлингва
Перевод, основанный на машинном обучении
Оценка машинного перевода
№26 слайд
Содержание слайда: Система типа
INTERLINGUA
№27 слайд
Содержание слайда: Transfer vs. interlingua
№28 слайд
Содержание слайда: Сожержание
Основные подходы
Перевод, основанный на правилах
Перевод, основанный на машинном обучении
Оценка машинного перевода
№29 слайд
Содержание слайда: Статистический перевод
Основа - параллельный корпус
Вероятности назначаются подсчетом наиболее вероятного варианта перевода
Оценки вероятности зависят от объема и качества обучающего корпуса
Лингвистическая информация: разбиение на предложения, графематический анализ, морфология
При наличии корпуса простейшая система перевода может быть сделана на 2 недели
№30 слайд
Содержание слайда: Вероятностная модель
Исходная цепочка S преобразуется в такую цепочку T целевого языка, что:
T = argmaxp(T|S)
Теорема Байеса:
T = argmaxp(S|T)p(T)
Содержательная интерпретация:
хороший перевод – это сочетание точности передачи информации и правильности целевого языка;
нужна модель перевода p(S|T) (вычисляется по пераллельному корпусу) и модель целевого языка p(T) (вычисляется по одноязычному корпусу)
№31 слайд
Содержание слайда: Языковая модель
Правильный порядок слов
Некоторые идеи грамматики
Вычисляется с помощью n-грамм:
№32 слайд
Содержание слайда: Модель перевода
p(f|e) – вероятность перевода строки (в идеале – предложения) f строкой e.
Выравнивание, т.е. нахождение соответствия между f строкой e – отдельная задача.
a – показатель качества выравнивания (alignment)
№33 слайд
Содержание слайда: Содержание
Основные подходы
Перевод, основанный на правилах
Перевод, основанный на машинном обучении
Оценка машинного перевода
№34 слайд
Содержание слайда: Bilingual Evaluation Understudy (BLEU)
Требуется тестовое множество, переведенное человеком
Оценивается близость между машинным и человеческим переводом
Взвешенное среднее числа совпадений N-грамм машинного перевода с переводом человека
№35 слайд
Содержание слайда: Источники
D. Jurafsky, J. H. Martin Speech and Language Processing – 2009 – Chapter 25
A. Ittycheriah Statistical Machine Translation // Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 409-422
Dan Jurafsky From Languages to Information. Lecture 16-17: Machine Translation - http://www.stanford.edu/class/cs124/
Дмитрий Кан Введение в машинный перевод - http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-2911038
Денис Столяров Автоматический перевод на основе шаблонов -http://mathlingvo.ru/nlpseminar/archive/s_23
Елена Уфлянд Работа автоматического переводчика ПроМТ - http://mathlingvo.ru/nlpseminar/archive/s_3
Александр Гребеньков Работа автоматического переводчика - http://mathlingvo.ru/nlpseminar/archive/s_10