Презентация Многомерный анализ данных ( лекция 9) онлайн

На нашем сайте вы можете скачать и просмотреть онлайн доклад-презентацию на тему Многомерный анализ данных ( лекция 9) абсолютно бесплатно. Урок-презентация на эту тему содержит всего 24 слайда. Все материалы созданы в программе PowerPoint и имеют формат ppt или же pptx. Материалы и темы для презентаций взяты из открытых источников и загружены их авторами, за качество и достоверность информации в них администрация сайта не отвечает, все права принадлежат их создателям. Если вы нашли то, что искали, отблагодарите авторов - поделитесь ссылкой в социальных сетях, а наш сайт добавьте в закладки.

Презентации » Математика » Многомерный анализ данных ( лекция 9)

Просмотр ВСЕЙ презентации! ЖМИТЕ

Оцените презентацию от 1 до 5 баллов!

Смотреть онлайн
Скачать

Тип файла:

ppt / pptx (powerpoint)
Всего слайдов:

24 слайда
Для класса:

1,2,3,4,5,6,7,8,9,10,11
Размер файла:

1.58 MB
Просмотров:

100
Скачиваний:

1
Автор:

неизвестен

Слайды и текст к этой презентации:

№1 слайд

Содержание слайда: Математические методы в биологии Блок 4. Многомерный анализ данных Лекция 9

№2 слайд

Содержание слайда: Что такое data mining? Это процесс нетривиального извлечения новой, полезной и экстраполируемой информации из большого массива многомерных данных. Другими словами, это поиск структуры в данных. Исходные данные – совокупность численных векторов (измерений) Пример. Набор данных iris – 150 наблюдений, представляющих три вида ирисов (50 наблюдений для каждого). Каждый ирис – это вектор вида (Длина_чашелистика, Ширина_чашелистика, Длина_лепестка, Ширина_лепестка). Каждый ирис – точка в четырёхмерном пространстве.

№3 слайд

Содержание слайда: Классификация многомерных методов

№4 слайд

Содержание слайда: Ещё один пример «парной» визуализации:

№5 слайд

Содержание слайда: Пиктограммы – весёлый и лёгкий способ находить похожие объекты Лица Чернова

№6 слайд

Содержание слайда: Методы понижения размерности: анализ главных компонент (PCA)

№7 слайд

Содержание слайда: Как преобразовать 4х-мерное пространство к 2х-мерному?

№8 слайд

Содержание слайда: График biplot графически увязывает старые и новые координаты

№9 слайд

Содержание слайда: Применение метода главных компонент для анализа дифференциальной экспрессии Проверка самосогласованности реплик (повторностей)

№10 слайд

Содержание слайда: Методы понижения размерности: кластеризация Кластеризация – разбиение большого набора объектов на более мелкие наборы (кластеры) Основная идея: объекты внутри кластера должны быть более «похожи» между собой, нежели объекты из разных кластеров. Для того чтобы формировать кластеры, мы должны научиться измерять расстояния (метрики) между объектами Основные метрики: Расстояние Евклида (1) Квадрат расстояния Евклида (2) Расстояние Чебышева (3) Манхэттенское расстояние (4)

№11 слайд

Содержание слайда: Классификация методов кластеризации Иерархическая / плоская Комплексная древоподобная система разбиений а) / одно и только одно разбиение на кластеры одного и того же уровня b) Точная / неточная Каждый объект принадлежит только одному кластеру c) / каждый объект может принадлежать разным кластерам со своими вероятностями d)

№12 слайд

Содержание слайда: Кластеризация методом k-средних (k-means) Основные «правила игры»: k – число кластеров – выбирается заранее Начальные координаты центров кластеров выбираются случайным образом (рис.1) Основная идея – минимизировать целевую функцию , где n – число объектов в кластере, а di – расстояние между i-ым объектом и центром кластера (рис.2) На каждой итерации d – центр кластера – сдвигается в центр масс (точку, каждая координата которой – среднее соответствующих координат объектов кластера) (рис.3)

№13 слайд

Содержание слайда: Замечательная визуализация! https://www.naftaliharris.com/blog/visualizing-k-means-clustering/ Шаг 0. Начальное положение точек Шаг 1. Бросаем начальные центры кластеров

№14 слайд

Содержание слайда: Шаг 4. «Перекрашиваем» точки, Шаг 4. «Перекрашиваем» точки, которые находятся «на чужой территории»

№15 слайд

Содержание слайда: И так до тех пор, пока есть что «перекрашивать»!

№16 слайд

Содержание слайда: Как помочь анализу методом k-средних? Совет 1. Максимально растаскивать начальные центры кластеров Совет 2. Повторить кластеризацию несколько раз Совет 3. Разумно выбирать число кластеров SSW – внутригрупповая сумма квадратов расстояний точек от центра (наша целевая функция , по сути) Можно нарисовать график зависимости как функции от числа кластеров:

№17 слайд

Содержание слайда: Иерархическая кластеризация Два принципиально разных подхода: Снизу-вверх (каждая точка – один кластер, дальше кластеры объединяются в кластеры более высокого порядка) Сверху-вниз (всё множество точек – один кластер наивысшего порядка, а затем он делится на множество более мелких)

№18 слайд

Содержание слайда: Как вычислять расстояния между кластерами? Метод ближайшего соседа (метод одиночной связи) Метод дальнего соседа (метод полной связи) Метод попарных средних Центроидный метод

№19 слайд

Содержание слайда: Иерархическая кластеризация 30 ирисов (по 10 каждого вида)

№20 слайд

Содержание слайда: Задача классификации Похожа на кластеризацию, но деление на группы происходит с учётом конкретных признаков объектов Например, классификация биологических видов Классификация – пример обучения с учителем: Набор исходных данных делится на 2 множества – обучающее и тестовое: Обучающее используется для конструирования модели (≈70% общего объёма данных) Тестовое используется для проверки модели (≈30% общего объёма данных) Таким образом, процесс классификации состоит из двух этапов: конструирования модели и её использования.

№21 слайд

Содержание слайда: Базовый алгоритм классификации Находим параметр, по которому группа разделяется лучше всего Делим данные на 2 группы (листья) Внутри каждой группы снова находим параметр, разделяющий группу лучше всего Продолжаем, пока листья не окажутся достаточно маленькими или «чистыми»

№22 слайд