Оцените презентацию от 1 до 5 баллов!
Тип файла:
ppt / pptx (powerpoint)
Всего слайдов:
9 слайдов
Для класса:
1,2,3,4,5,6,7,8,9,10,11
Размер файла:
535.57 kB
Просмотров:
61
Скачиваний:
0
Автор:
неизвестен
Слайды и текст к этой презентации:
№1 слайд![Оптимизация тематического](/documents_6/ef2c50c60c001862eee1062bd9c50f8c/img0.jpg)
Содержание слайда: Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса
Лаборатория интернет исследований
научный руководитель:
канд. физ.-мат. наук, доцент Департамента прикладной математики и бизнес-информатики Санкт-Петербургской школы экономики и менеджмента НИУ ВШЭ
Кольцов Сергей Николаевич
студент:
Агальцова Татьяна Александровна
№2 слайд![Тематическое моделирование](/documents_6/ef2c50c60c001862eee1062bd9c50f8c/img1.jpg)
Содержание слайда: Тематическое моделирование
Тематическое моделирование - это способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов.
Тематическая модель (topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему.
Отвечает на вопросы:
1.Как выявлять смысл или тематику документов по их содержимому?
2. Как осуществлять классификацию документов на основе этих скрытых тематических закономерностей?
№3 слайд![Тематическое моделирование](/documents_6/ef2c50c60c001862eee1062bd9c50f8c/img2.jpg)
Содержание слайда: Тематическое моделирование
№4 слайд![Тематическое моделирование](/documents_6/ef2c50c60c001862eee1062bd9c50f8c/img3.jpg)
Содержание слайда: Тематическое моделирование
(Latent Dirichlet allocation)
Основное предположение тематической модели Latent Dirichlet Allocation
состоит в том, что каждый документ с некоторой вероятностью может
принадлежать множеству тематик. Тема - это совокупность слов, где каждое
слово имеет некоторую вероятность принадлежности к данной тематике.
Формально тема определяется как дискретное (мультиномиальное)
вероятностное распределение в пространстве слов заданного словаря.
Тематическим моделированием называется решение задачи, обратной
классификации . Каждый документ в корпусе текстов рассматривается как
наблюдаемая случайная независимая выборка слов (мешок слов), порождённая
некоторым, скрытым (латентным) множеством тем. По этим данным требуется
восстановить вероятностные распределения всех тем в корпусе и определить,
каким именно подмножеством тем порождён каждый документ.
Тематическое моделирование основано на применении формулы Байеса, в
которой распределение слов и тем выражено в виде смеси плотностей
распределений слов и документов.
№5 слайд![Тематическое моделирование](/documents_6/ef2c50c60c001862eee1062bd9c50f8c/img4.jpg)
Содержание слайда: Тематическое моделирование
№6 слайд![Тематическое моделирование](/documents_6/ef2c50c60c001862eee1062bd9c50f8c/img5.jpg)
Содержание слайда: Тематическое моделирование
Задача классификации заключается в расчете (оценке) апостериорной информации на основании априорной информации. Такая оценка может быть реализована при помощи формулы Байеса.
- Апостериорная вероятность
- Априорная вероятность
Однако существует проблема оценивания априорной величины
№7 слайд![Задача восстановления](/documents_6/ef2c50c60c001862eee1062bd9c50f8c/img6.jpg)
Содержание слайда: Задача восстановления априорного распределения p(x,y)
Оценка функции p(x,y) может быть реализован при помощи трех методов.
1. Непараметрическое восстановление плотности основано на локальной
аппроксимации плотности p(x) в окрестности классифицируемого объекта
x ∈ X. Пример, Алгоритм Парзена-Розенблатта (метод парзеновского
окна).
2. Параметрическое восстановление плотности основано на предположении,
что плотность распределения известна с точностью до параметра, p(x,y) =ϕ(x; θ), где ϕ фиксированная функция.
3. Восстановление смеси плотностей. Если функцию плотности p(x,y) не
удаётся смоделировать параметрическим распределением, можно
попытаться описать её смесью нескольких распределений:
Собственно именно третий метод является основой тематического моделирования.
№8 слайд![Семплирование по Гиббсу](/documents_6/ef2c50c60c001862eee1062bd9c50f8c/img7.jpg)
Содержание слайда: Семплирование по Гиббсу
№9 слайд![Цели и задачи Цель Оценить](/documents_6/ef2c50c60c001862eee1062bd9c50f8c/img8.jpg)
Содержание слайда: Цели и задачи
Цель:
Оценить работу тематического моделирования при изменении структуры функции плотности, переходя от функции Дирихле к полетам Леви в алгоритме семплирования Гиббса.
Задачи:
Вычислить и запрограммировать полеты Леви.
Анализ полученных данных в topic maner.
Сравнение результатов, полученных из данной модели с результатами простой модели LDA.
Выявить преимущества и недостатки исследованной модели.