Презентация Многомерный анализ данных ( лекция 9) онлайн

На нашем сайте вы можете скачать и просмотреть онлайн доклад-презентацию на тему Многомерный анализ данных ( лекция 9) абсолютно бесплатно. Урок-презентация на эту тему содержит всего 24 слайда. Все материалы созданы в программе PowerPoint и имеют формат ppt или же pptx. Материалы и темы для презентаций взяты из открытых источников и загружены их авторами, за качество и достоверность информации в них администрация сайта не отвечает, все права принадлежат их создателям. Если вы нашли то, что искали, отблагодарите авторов - поделитесь ссылкой в социальных сетях, а наш сайт добавьте в закладки.
Презентации » Математика » Многомерный анализ данных ( лекция 9)



Оцените!
Оцените презентацию от 1 до 5 баллов!
  • Тип файла:
    ppt / pptx (powerpoint)
  • Всего слайдов:
    24 слайда
  • Для класса:
    1,2,3,4,5,6,7,8,9,10,11
  • Размер файла:
    1.58 MB
  • Просмотров:
    100
  • Скачиваний:
    1
  • Автор:
    неизвестен



Слайды и текст к этой презентации:

№1 слайд
Математические методы в
Содержание слайда: Математические методы в биологии Блок 4. Многомерный анализ данных Лекция 9

№2 слайд
Что такое data mining? Это
Содержание слайда: Что такое data mining? Это процесс нетривиального извлечения новой, полезной и экстраполируемой информации из большого массива многомерных данных. Другими словами, это поиск структуры в данных. Исходные данные – совокупность численных векторов (измерений) Пример. Набор данных iris – 150 наблюдений, представляющих три вида ирисов (50 наблюдений для каждого). Каждый ирис – это вектор вида (Длина_чашелистика, Ширина_чашелистика, Длина_лепестка, Ширина_лепестка). Каждый ирис – точка в четырёхмерном пространстве.

№3 слайд
Классификация многомерных
Содержание слайда: Классификация многомерных методов

№4 слайд
Ещё один пример парной
Содержание слайда: Ещё один пример «парной» визуализации:

№5 слайд
Пиктограммы весёлый и лёгкий
Содержание слайда: Пиктограммы – весёлый и лёгкий способ находить похожие объекты Лица Чернова

№6 слайд
Методы понижения размерности
Содержание слайда: Методы понижения размерности: анализ главных компонент (PCA)

№7 слайд
Как преобразовать х-мерное
Содержание слайда: Как преобразовать 4х-мерное пространство к 2х-мерному?

№8 слайд
График biplot графически
Содержание слайда: График biplot графически увязывает старые и новые координаты

№9 слайд
Применение метода главных
Содержание слайда: Применение метода главных компонент для анализа дифференциальной экспрессии Проверка самосогласованности реплик (повторностей)

№10 слайд
Методы понижения размерности
Содержание слайда: Методы понижения размерности: кластеризация Кластеризация – разбиение большого набора объектов на более мелкие наборы (кластеры) Основная идея: объекты внутри кластера должны быть более «похожи» между собой, нежели объекты из разных кластеров. Для того чтобы формировать кластеры, мы должны научиться измерять расстояния (метрики) между объектами Основные метрики: Расстояние Евклида (1) Квадрат расстояния Евклида (2) Расстояние Чебышева (3) Манхэттенское расстояние (4)

№11 слайд
Классификация методов
Содержание слайда: Классификация методов кластеризации Иерархическая / плоская Комплексная древоподобная система разбиений а) / одно и только одно разбиение на кластеры одного и того же уровня b) Точная / неточная Каждый объект принадлежит только одному кластеру c) / каждый объект может принадлежать разным кластерам со своими вероятностями d)

№12 слайд
Кластеризация методом
Содержание слайда: Кластеризация методом k-средних (k-means) Основные «правила игры»: k – число кластеров – выбирается заранее Начальные координаты центров кластеров выбираются случайным образом (рис.1) Основная идея – минимизировать целевую функцию , где n – число объектов в кластере, а di – расстояние между i-ым объектом и центром кластера (рис.2) На каждой итерации d – центр кластера – сдвигается в центр масс (точку, каждая координата которой – среднее соответствующих координат объектов кластера) (рис.3)

№13 слайд
Замечательная визуализация!
Содержание слайда: Замечательная визуализация! https://www.naftaliharris.com/blog/visualizing-k-means-clustering/ Шаг 0. Начальное положение точек Шаг 1. Бросаем начальные центры кластеров

№14 слайд
Шаг . Перекрашиваем точки,
Содержание слайда: Шаг 4. «Перекрашиваем» точки, Шаг 4. «Перекрашиваем» точки, которые находятся «на чужой территории»

№15 слайд
И так до тех пор, пока есть
Содержание слайда: И так до тех пор, пока есть что «перекрашивать»!

№16 слайд
Как помочь анализу методом
Содержание слайда: Как помочь анализу методом k-средних? Совет 1. Максимально растаскивать начальные центры кластеров Совет 2. Повторить кластеризацию несколько раз Совет 3. Разумно выбирать число кластеров SSW – внутригрупповая сумма квадратов расстояний точек от центра (наша целевая функция , по сути) Можно нарисовать график зависимости как функции от числа кластеров:

№17 слайд
Иерархическая кластеризация
Содержание слайда: Иерархическая кластеризация Два принципиально разных подхода: Снизу-вверх (каждая точка – один кластер, дальше кластеры объединяются в кластеры более высокого порядка) Сверху-вниз (всё множество точек – один кластер наивысшего порядка, а затем он делится на множество более мелких)

№18 слайд
Как вычислять расстояния
Содержание слайда: Как вычислять расстояния между кластерами? Метод ближайшего соседа (метод одиночной связи) Метод дальнего соседа (метод полной связи) Метод попарных средних Центроидный метод

№19 слайд
Иерархическая кластеризация
Содержание слайда: Иерархическая кластеризация 30 ирисов (по 10 каждого вида)

№20 слайд
Задача классификации Похожа
Содержание слайда: Задача классификации Похожа на кластеризацию, но деление на группы происходит с учётом конкретных признаков объектов Например, классификация биологических видов Классификация – пример обучения с учителем: Набор исходных данных делится на 2 множества – обучающее и тестовое: Обучающее используется для конструирования модели (≈70% общего объёма данных) Тестовое используется для проверки модели (≈30% общего объёма данных) Таким образом, процесс классификации состоит из двух этапов: конструирования модели и её использования.

№21 слайд
Базовый алгоритм
Содержание слайда: Базовый алгоритм классификации Находим параметр, по которому группа разделяется лучше всего Делим данные на 2 группы (листья) Внутри каждой группы снова находим параметр, разделяющий группу лучше всего Продолжаем, пока листья не окажутся достаточно маленькими или «чистыми»

№22 слайд
Содержание слайда:

№23 слайд
Дерево принятия решений для
Содержание слайда: Дерево принятия решений для ирисов

№24 слайд
Спасибо за внимание! До
Содержание слайда: Спасибо за внимание! До встречи на практике!

Скачать все slide презентации Многомерный анализ данных ( лекция 9) одним архивом: