Презентация «Зачем», «что» и «как» в исследовании коллокаций. Вопросы и возможные ответы Размышления на тему Елены Ягуновой & Co iagounova. elenagmail. c онлайн
На нашем сайте вы можете скачать и просмотреть онлайн доклад-презентацию на тему «Зачем», «что» и «как» в исследовании коллокаций. Вопросы и возможные ответы Размышления на тему Елены Ягуновой & Co iagounova. elenagmail. c абсолютно бесплатно. Урок-презентация на эту тему содержит всего 38 слайдов. Все материалы созданы в программе PowerPoint и имеют формат ppt или же pptx. Материалы и темы для презентаций взяты из открытых источников и загружены их авторами, за качество и достоверность информации в них администрация сайта не отвечает, все права принадлежат их создателям. Если вы нашли то, что искали, отблагодарите авторов - поделитесь ссылкой в социальных сетях, а наш сайт добавьте в закладки.
Презентации » Новости » «Зачем», «что» и «как» в исследовании коллокаций. Вопросы и возможные ответы Размышления на тему Елены Ягуновой & Co iagounova. elenagmail. c
Оцените!
Оцените презентацию от 1 до 5 баллов!
- Тип файла:ppt / pptx (powerpoint)
- Всего слайдов:38 слайдов
- Для класса:1,2,3,4,5,6,7,8,9,10,11
- Размер файла:324.50 kB
- Просмотров:117
- Скачиваний:0
- Автор:неизвестен
Слайды и текст к этой презентации:
№2 слайд
Содержание слайда: место доклада в миниконференции
В рамках мини-конференции «Коллокации и сочетаемостные особенности: методы исследования» мой доклад взаимосвязан с докладом Л.М. Пивоваровой «Подводные камни статистических мер»:
определяет цели, задачи, гипотезы работы;
задает критерии выбора и описание материала (новостных и научных коллекций);
задает критерии выбора статистических мер;
предлагает обсуждение полученных результатов;
т.е. подготавливает к обсуждению «подводных камней статистических мер» в контексте конктретного цикла работ
№7 слайд
Содержание слайда: Что-1? Зачем-1 (примеры)
Корпусной словарь неоднословных лексических единиц (оборотов) http://ruscorpora.ru/obgrams.html
При каждом обороте указано количество употреблений в НКРЯ (по данным на сентябрь 2008 г.).
Словарь составлен на основе базы данных частотных коллокаций НКРЯ, с дополнениями из словарей Р.П.Рогожниковой (Толковый словарь сочетаний, эквивалентных слову, М., 2003) и МАС (Словарь русского языка в 4-х томах под ред. А.П.Евгеньевой, М., 1999).
Обороты в функции предлога
Наречные и предикативные обороты
Вводные обороты
Обороты в функции союза и союзного слова
Обороты в функции частиц
№8 слайд
Содержание слайда: Корпусной словарь неоднословных лексических единиц (оборотов). Плюсы и минусы
Есть закрытый список коллокаций (по словарям),
требуется оценить количество – в абсолютных единицах! – соответствующих коллокаций в корпусе,
нет стат. оценки степени связанности коллокаций,
возможен выход на контексты (на запрос в НКРЯ),
но неоднозначность не снимается (напр., может быть, в качестве)
автоматически снять неоднозначность свободное сочетание vs. неоднословная лексическая единица практически невозможно
Вы́явленная осо́бенность мо́жет быть ва́жной при прогнози́ровании исхо́да заболева́ния. (пример свободного сочетания из НКРЯ)
№9 слайд
Содержание слайда: Что-1? Зачем-1 (примеры)
на http://dict.ruslang.ru/
Г. И. Кустова СЛОВАРЬ РУССКОЙ ИДИОМАТИКИ (выход на запрос в НКРЯ)
Сочетания слов со значением высокой степени
Алфавитный список всех сочетаний
Алфавитный общий список степенных слов
Алфавитный список прилагательных
Алфавитный список наречий и наречных выражений
Степенное слово: Характеризуемое слово:
№10 слайд
Содержание слайда: Пример алфавитного списка всех сочетаний слов со значением высокой степени
абсолютная анархия
абсолютная бездарность
абсолютная безопасность
абсолютная безысходность
абсолютная бесперспективность
абсолютная беспечность
абсолютная беспомощность
абсолютная беспринципность
абсолютная беспристрастность
абсолютная бессмыслица
абсолютная бесспорность
абсолютная бесцеремонность
№11 слайд
Содержание слайда: Что-1? Зачем-1 (примеры)
О. Л. Бирюк, В. Ю. Гусев, Е. Ю. Калинина СЛОВАРЬ ГЛАГОЛЬНОЙ СОЧЕТАЕМОСТИ
НЕПРЕДМЕТНЫХ ИМЕН РУССКОГО ЯЗЫКА
Выбор параметров:
существительное фазовое значение
прилагательное оценка
глагол количество
абстрактное значение отрицание
конкретное значение порядок слов
синтаксические отношения
№12 слайд
Содержание слайда: Пример списка (параметры не выбраны), выход на запрос в НКРЯ
(не) ведать стыда действие
(не) видеть логики знание понимание
(не) видеть надобности знание понимание
(не) видеть оснований знание понимание
(не) видеть причины знание понимание
(не) видеть разницы Neg знание понимание
(не) внушать доверия действие каузация
(не) возникает сомнения действие субъект начало
(не) встретить сопротивления действие получатель
(не) встречать сопротивления действие получатель
(не) выдержать напряжения объект оценка соответствие
(не) выдержать характера прерывание демонстрация
(не) выдерживать критики действие объект мало соответствие
№15 слайд
Содержание слайда: разные ФС текстов и различие списков коллокаций
http://corpus.leeds.ac.uk/ruscorpora.html
A query to Russian corpora
Выбор:
Russian National Corpus (2009 version)
Russian Fiction (disambiguated)
Russian Newspapers
Russian Internet Corpus RNC+NEWS-RU+I-RU (for rare words)
Russian Business Internet Corpus
№16 слайд
Содержание слайда: разные ФС текстов, разные стат. меры и различие списков коллокаций
A query to Russian corpora
Collocation scores:
Mutual Information
T-score
Loglikelihood score
Context:
? words on the left ? words on the right
Но
нет порогов отсечения,
практически нет возможности работать со словоформными биграммами,
очень грязная морфологическая разметка
№17 слайд
Содержание слайда: Зачем-2 и Что-2 и Как-2?
Если коллокации не заданы списком,
если коллокации не заданы правилами, то что такое «коллокация»?
Какова природа коллокации?
Как понимать: неслучайное сочетание двух и более лексических единиц, характерное
для языка в целом (текстов любого типа)?
для определенного типа текстов (или даже (под)выборки текстов)?
№18 слайд
Содержание слайда: Текст и коллокации
текст есть структурированная последовательность единиц разных уровней,
Коллокации как сложносоставные подструктуры текста – важный объект при исследовании процедур анализа (и синтеза) текста.
Выделяя и исследуя коллокации мы исследуем текст:
структурные единицы текста разных языковых – и текстовых – уровней
их роль в процедурах анализа и синтеза речи (текстов).
№19 слайд
Содержание слайда: Текстовые коллекции и коллокации
Мы не привязаны к заданной коллекции или Корпусу
На коллекциях разных текстов мы можем изучать характеристики наиболее связанных структурных составляющих, и через них выходить на структуру разных текстов
Прежде всего, текстов разных функциональных стилей (новостные, научные, деловые, художественные)
№20 слайд
Содержание слайда: Что мы можем получить, на разных коллекциях-корпусах?
Варьируя коллекции, мы можем организовать систему вложенных друг в друга корпусов:
тексты определенного функционального стиля,
тексты определенного источника,
тексты определенной предметной области,
однородная выборка текстов определенных источников и предметной области,
и т.д.
№21 слайд
Содержание слайда: Что мы можем получить, на разных коллокциях-корпусах?
Например, вложенные друг в друга:
научные тексты,
лингвистические научные тексты,
научные тексты предметной области «Теоретическая и прикладная лингвистика» (материалы конференции «Диалог»),
научные тексты предметной области «Корпусная лингвистика».
№23 слайд
Содержание слайда: используя разные параметры,
Мы получаем разные типы коллокаций = типы структурных составляющих текста:
неоднословных номинаций
в новостном тексте – наименования персон (Бенедикт XVI, Бритни Спирс, президент Венесуэллы Уго Чавес), организации (РИА Новости, Арбат Престиж), географические наименования (Саудовская Аравия, Соединенные Штаты, Нижнем Новгороде),
в новостном тексте – наименования событий или ?? (умышленное причинение тяжкого вреда здоровью, защищать принадлежащий ему титул чемпиона),
в научном тексте – термины (корпусная лингвистика, часть речи, машинный перевод);
№24 слайд
Содержание слайда: используя разные параметры,
(продолжение)
Мы получаем еще другие типы коллокаций = типы структурных составляющих текста:
составные слова (в качестве, в связи, в результате),
газетные клише (по словам, сообщает РИА, как сообщает или сообщает Интерфакс со ссылкой на),
конструкции с управлением глаголов (зависит от, состоит в, а также – имеет место, обращать внимание), и т.д.
№25 слайд
Содержание слайда: статистические меры (напр., MI vs. t-score)-1
Новостные тексты (напр., на материале lenta.ru за 2009)
мера MI (порог 40): определение наименования объектов, терминов, сложных номинаций, отражающих предметную область (– как?) ,
мера t-score (порог 40) – выделение:
«общеязыковых устойчивых сочетаний» (производных служебных слов, дискурсивных слов)
«устойчивых конструкций», где и те, и другие характеризуют стилистические особенности новостных текстов
№26 слайд
Содержание слайда: статистические меры (напр., MI vs. t-score)-2
Научные тексты (напр., на материале «Диалог 2003-2009» и «Корпусная лингвистика» (2004, 2006, 2008))
мера MI: «ключевые» неоднословные термины, которые характеризуют предметную область коллекции;
t-score:
«общеязыковых устойчивых сочетаний» (производных служебных слов, дискурсивных слов),
«устойчивых конструкций», где и те, и другие характеризуют стилистические особенности научных текстов,
коллокации, общие для всех (или подавляющего большинства) текстов коллекции
Степень тематической однородности коллекции научных текстов соотносится с однородностью множества выделяемых коллокаций
№28 слайд
Содержание слайда: Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Табл. 1 и 2а. Пояснения
Пороги для коллекций «Корпусная лингвистика» и «Диалог»: 16 и 40
Курсивом в таблице выделены сочетания, которые были удалены на этапе выделения терминологических коллокаций с использованием морфологического фильтра.
Подчеркиванием выделены те сочетания, которые на основании формальных критериев должны были быть ошибочно отнесены к терминологическим.
№30 слайд
Содержание слайда: Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ. Почему мы выбрали этот список?
В список 1 попадают составные номинации, характеризуемые максимальной свободой (максимальным разнообразием, минимальной ограниченностью) набора выполняемых ими в предложении семантико-синтаксических ролей.
Примеры: 9 винительный падеж, 17 именительный падеж, 24 актуальный членение, 29 инструментальный среда.
Биграммы списка 2 – номинации в определенной синтаксической позиции.
Примеры: 10 речевой акт, 50 речевых актов, 19 именная группа, 65 именных групп, 27 коммуникативного акта, 62 коммуникативных актов, 77 просодических характеристик, 78 прошедшего времени, 74 речевого сигнала. Кроме того, биграммы этого подкласса могут относиться к части целостной номинации, напр., сочетание речевых актов часто является частью триграммы «теории речевых актов».
У биграмм списка 3 (см.табл.1 и 2а) наиболее простая структура: нет ни закрепленности, ни противоречий между смысловыми, лексическими и синтаксическими связями. Биграммы этого класса занимают в текущем словарном составе некое промежуточное место между биграммами класса «1» и биграммами класса «2».
Анализ разных списков показал, что список 3 является наиболее адекватным при решении задачи определения ключевых тем (неоднословных терминов), характерных для рассматриваемых коллекций.
№31 слайд
Содержание слайда: Статистические меры (напр., MI vs. t-score)-3. Дельта. Порог
Новостные тексты (напр., на материале lenta.ru), в которых представлена коллекция за год и подколлекции за каждый месяц (дельта за месяц)
Дельты за месяц имеют гораздо большую однородность тем!
MI (порог 3): в списках коллокаций за разные месяцы – небольшое число пересечений,
ок. 50% биграмм появляется только в одном списке, менее 50% процентов из первой сотни годового списка попали в первую сотню какого-либо из месячных списков,
мера лучше отражает тематику текстов, а темы новостных текстов непрерывно меняются.
t-score (порог 3): в списках коллокаций за разные месяцы – большое число пересечений,
первые сто биграмм из «года» повторяются в нескольких месячных списках (часто во всех двенадцати списках),
мера лучше отражает стратегию выбора тем (?) и стилистку текстов, а они в рамках одного и того же СМИ меняется сравнительно медленнее
№32 слайд
Содержание слайда: Выделении основных тем новостной коллекции. Мера. Дельта. Порог
Гипотеза об иерархии используемых мер (с учетом дельт (списков по месяцам) и разных порогов) для новостных коллекций:
См. еще раз слайд 26 на материале научных коллекций.
традиционно – использование t-score для выделения основных тем новостных коллекций гораздо хуже MI,
НО пересечения списков коллокаций, полученных для разных месяцев (тематически более однородных выборок) с помощью t-score (Δt-score) --
дают представление о ведущих темах
более, чем списки, традиционно полученные с помощью меры MI;
MI с высоким порогом отсечения – при прочих равных -- более информативна для определения тематики коллекции, чем Δt-score.
Пересечение списков, полученных для разных месяцев с использованием меры MI (ΔMI), – почти пустое
№33 слайд
Содержание слайда: Дополнительная проверка гипотезы. Дельта. Порог
Еще раз про гипотезу: t-score < MI < Δt-score < MIT (подробнее про стат. обоснование в докладе Л.М.Пивоваровой)
Дельта нужда для увеличения тематической однородности выборки. КАК лучше определять дельту?
Порог нужен для отсечения редких для коллекции коллокаций. Он зависит от объема коллекции и степени тематической однородности. КАК определять порог в каждом конкретном случае?
№34 слайд
Содержание слайда: зачем? что? как?
Сейчас мы не ставим перед собой задачу практически востребованного метода
напр., извлечения всех терминов или тестирования разных методик (см., напр., [Браславский, Соколов 2006]).
Задача – изучение возможности выделения формальных признаков, необходимых для определения предметной области коллекций текстов и ключевых слов, описывающих рассматриваемые коллекции;
формирование наборов информационно значимых для коллекции коллокаций и выделение общих для текстов коллекции коллокаций.
№35 слайд
Содержание слайда: Зачем-2 и Что-2 и Как-2?
продолжение… на будущее
что задано для списка потенциальных коллокаций ??
не заданы даже ключевые слова,
ключевые слова заданы, варьируют коллокаты,
задан морфолого-синтаксический шаблон (в комбинации с п.1. или 2),
заданы ключевые слова, вместо слова-коллоката
и т.д.
№36 слайд
Содержание слайда: Литература
Бирюк О. Л., Гусев В. Ю., Калинина Е. Ю. Словарь глагольной сочетаемости непредметных имен русского языка М., 2008 http://dict.ruslang.ru/abstr_noun.php
Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текса // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая – 4 июня 2006 г.) / Под ред. Н.И. Лауфер, А. С. Нариньяни, В. П. Селегея. – М.: Изд-во РГГУ, 2006.
Добров Б.В., Лукашевич Н.В., Сыромятников С.В. Формирование базы терминологических словосочетаний по текстам предметной области // Труды пятой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" - RCDL2003, Санкт-Петербург, 2003
Иорданская Л. Н., Мельчук И. А.. Смысл и сочетаемость в словаре. М.: Языки славянских культур, 2007
Кобрицов Б.П., Ляшевская О.Н., Шеманаева О.Ю. Поверхностные фильтры для разрешения семантической омонимии в текстовом корпусе // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции "Диалог'2005" (Звенигород, 1-6 июня, 2005 г.)/ Под ред. И.М. Кобозевой, А.С. Нариньяни, В.П. Селегея. - М.: Наука, 2005.
Кустова Г. И. Словарь русской идиоматики. Сочетания слов со значением высокой степени М., 2008 http://dict.ruslang.ru/magn.php
Ляшевская О. Н., Шаров С. А. Новый частотный словарь русской лексики 2008 http://dict.ruslang.ru/freq.php
№37 слайд
Содержание слайда: Литература (продолжение)
Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстов. Предварительные наблюдения // Материалы второго Международного симпозиума “Терминология и знание” М., 2010 (в печати)
Шайкевич А.Я., Андрющенко В.М., Ребецкая Н.А. Статистический словарь русской газеты (1990 гг.) М., 1998
Хохлова М.В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: Корпусные подходы. Под ред. А. Мустайоки, М.В. Копотева, Л.А. Бирюлина, Е.Ю. Протасовой. Хельсинки, 2008. С.343–357
Ягунова Е.В. Вариативность стратегий восприятия звучащего текста (экспериментальное исследование на материале русскоязычных текстов разных функциональных стилей). Пермь, 2008.
Ягунова Е.В. Формальные и неформальные критерии вычленения ключевых слов из научных и новостных текстов // Материалы IV Международного конгресса исследователей русского языка «Русский язык: исторические судьбы и современность». М., 2010
Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов – Сб. НТИ, Сер.2, №5. М., 2010 (в печати)
№38 слайд
Содержание слайда: Литература (продолжение)
Degand L., Bestgen Y.Towards automatic retrieval of idioms in French newspaper corpora // Literary and Linguistic Computing, 18, 2003, 249-259
Iordanskaja, L., Paperno, S.: A Russian-English Collocational Dictionary of the Human Body, Columbus/Ohio 1996
Khokhlova M. Extracting Collocations in Russian: Statistics vs. Dictionary // JADT 2008: actes des 9es Journées Internationales d’Analyse Statistique des Données Textuelles, Lyon, 12-14 mars 2008 : Proceedings of 9th International Conference on Textual Data statistical Analysis, Lyon, March 12-14, 2008 (editors : Serge Heiden, Bénédicte Pincemin). P. 613–624.
Petrovic S., Snajder J., Basic B.D., Kolar M. Comparison of collocation extraction for document indexing // Journal of Computing and information technology – CIT 14, 2006, 4, 321-327
Stubbs M. Collocations and semantic profiles: om the case of the trouble with quantitative studies.Functions of language 2:11, 23-55, Benjamins, 1995.
Manning C., Schutze H. Collocations // Manning C., Schutze H. Foundations of Statictical Natural Language Processing, 2002, pp.151-189
Rayson, Paul & Roger Garside (2000). Comparing corpora using frequency profiling // Proceedings of the Comparing Corpora Workshop at ACL 2000. Hong Kong, 2000. P. 1-6.
Скачать все slide презентации «Зачем», «что» и «как» в исследовании коллокаций. Вопросы и возможные ответы Размышления на тему Елены Ягуновой & Co iagounova. elenagmail. c одним архивом:
-
Исследование импульсного тока в электролитах и аккумуляторах Лопатин Дмитрий 89086781548, dimitrylsmgmail. com Кубанский государственный униве
-
«Возможности МР исследований в гинекологической практике» Рогожин В. А. Радиологический центр МК «БОРИС» (Киев, Украина) Европе
-
Для чего все это нужно? Для того чтобы понимать, где и какая реклама работает, а какая нет. Какие источники наиболее эффективны для
-
Роль Интернет-источников в распространении антикризисной информации. Кейсы Китайцы пишут слово «кризис» двумя иероглифами, давая понять, что кроме «опасности» в любой кризисной ситуации есть и «возможность».
-
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ ИНФОРМИРОВАННОСТИ НАСЕЛЕНИЯ О БЮДЖЕТНОМ ПРОЦЕССЕ: ЧТО ИЗМЕНИЛОСЬ ЗА 5 ЛЕТ
-
Новая книга для подростков Повесть на тему, о которой раньше молчали…
-
Ответственность за факапы в сервисном бизнесе Евгений Калинин, Startup Magic
-
Хотите узнать, какой путь нужно пройти в интернет и уверенно зарабатывать? автор: Светлана Ткаченко http://Pro133. ru Skype: tkachenkru
-
«Хочу», «могу» и «буду» в командной работе. Что первично? Выбор сотрудника. Выбор собственника
-
Маркетинг в финансовой сфере Клиентоориентированность Ситуации, затруднения, вопросы и решения