Оцените презентацию от 1 до 5 баллов!
Тип файла:
ppt / pptx (powerpoint)
Всего слайдов:
17 слайдов
Для класса:
1,2,3,4,5,6,7,8,9,10,11
Размер файла:
1.01 MB
Просмотров:
61
Скачиваний:
0
Автор:
неизвестен
Слайды и текст к этой презентации:
№1 слайд![Беседы о прикладной](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img0.jpg)
Содержание слайда: Беседы о прикладной статистике
Семинар 10. Дисперсионный анализ для сравнения средних. Тест Крускала-Уоллиса
№2 слайд![Сравнение двух средних На](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img1.jpg)
Содержание слайда: Сравнение двух средних
На предыдущих семинарах мы обсуждали сравнение двух средних значений
В случае нормального распределения применяют, например, t-тест
Если распределение не описывается нормальной кривой, для сравнения двух распределений используют, например, тест суммы рангов Уилкоксона (Манна-Уитни)
№3 слайд![Сравнение нескольких средних](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img2.jpg)
Содержание слайда: Сравнение нескольких средних
Если сравниваемых групп 3 и более, можно попарно сравнить группы друг с другом, например, при помощи t-теста. В таком случае количество сравнений , где N - количество групп, которые нужно сравнить между собой
Недостаток такого подхода в том, что теряется статистическая информация из других групп. Это приводит к падению статистической мощности теста (1-ошибка второго рода)
Одним из способов решения проблемы является однофакторный дисперсионный анализ (one-way ANOVA)
№4 слайд![Однофакторный дисперсионный](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img3.jpg)
Содержание слайда: Однофакторный дисперсионный анализ
H0: средние всех групп равны
Ha: хотя бы два средних различаются между собой
Дисперсии сравниваемых генеральных совокупностей равны
Задача сводится к построению линейной модели вида ,
где i – количество групп, j – количество наблюдений в группе.
Параметры модели – средние значения сравниваемых генеральных совокупностей и общее стандартное отклонение σ
Оценка производится при помощи средних выборок по группам:
№5 слайд![Объединенная оценка дисперсии](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img4.jpg)
Содержание слайда: Объединенная оценка дисперсии
Остатки отражают разброс данных вокруг средних значений по группам
Модель ANOVA предполагает, что распределение признака во всех группах нормальное и имеет одинаковую дисперсию
Объединенная (усредненная) оценка дисперсии по I группам будет иметь вид:
Тогда несмещенная оценка σ:
Группы с бо́льшим количеством наблюдений будут иметь больший вес
№6 слайд![Регрессия и ANOVA одно и то](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img5.jpg)
Содержание слайда: Регрессия и ANOVA: одно и то же
Из модели множественной регрессии мы помним, что:
Модель ANOVA аналогична регрессионной модели, где роль линии регрессии выполняют средние по группам
Поэтому SSM записывают как SSG, что означает сумма квадратов отклонений каждого среднего от генерального среднего
Аналогично регрессии: SSE – сумма квадратов отклонений значений от внутригрупповых средних, SST – сумма квадратов отклонений каждого значения от генерального среднего
№7 слайд![F-тест для дисперсионного](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img6.jpg)
Содержание слайда: F-тест для дисперсионного анализа
Несложно догадаться, что и
Степени свободы для всех отклонений и F-тест :
Подчиняется распределению F(I-1, N-I)
№8 слайд![Пример Имеем переменных, в](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img7.jpg)
Содержание слайда: Пример
Имеем 3 переменных, в каждой 3 наблюдения:
№9 слайд![Индивидуальные сравнения.](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img8.jpg)
Содержание слайда: Индивидуальные сравнения. Контрасты
Контраст – это комбинация средних генеральной совокупности вида , ему соответствует выборочный контраст
При этом сумма коэффициентов a равна 0:
В ANOVA контраст – это линейная комбинация независимых нормально распределенных величин, таким образом, он имеет нормальное распределение
Стандартная ошибка выборочного контраста:
Тест и доверительный интервал
– уже знакомые нам из предыдущих семинаров, где используем распределение t(DFE)
№10 слайд![Пример расчета контрастов](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img9.jpg)
Содержание слайда: Пример расчета контрастов
Посчитаем значимость различия средних
А-С в нашем примере. Контраст:
; ;
Теперь посчитаем, отличается ли среднее С от среднего средних A-B:
Контраст:
;
Контрасты можно использовать, даже если общий F-тест не значимый, т.к. в некоторых случаях контрасты мощнее
Нельзя определять индивидуальные сравнения, глядя на данные! Такие сравнения планируются изначально (устранение ошибки III рода)
№11 слайд![Множественные сравнения](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img10.jpg)
Содержание слайда: Множественные сравнения
Используются только после отвержения H0 при помощи F-теста!
Тесты множественных сравнений представляют из себя парные t-тесты с использованием объединенной оценки дисперсии из ANOVA :
Метод подбора зависит от используемой процедуры сравнения
Тест НСР (Fisher’s LSD) не использует поправку на множественные сравнения, и поэтому не является корректным
Простейшее решение – использовать поправку Бонферрони
Огромное количество поправок на любой вкус!
№12 слайд![Что делать, если допущения](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img11.jpg)
Содержание слайда: Что делать, если допущения нарушаются
Если распределения остаются предположительно нормально распределенными, но дисперсия в группах гетерогенна
Если наибольшее и наименьшее стандартные отклонения различаются менее чем в 2 раза, то можно ничего не делать
Если различия дисперсий резкие, рекомендуется использовать F-тест Уэлча для разных дисперсий
Далее для множественных сравнений можно применить тест Геймса-Хоуэлла (Games-Howell test)
Эти методы менее мощные, чем классические, однако применимы даже при очень малых выборках
№13 слайд![Ранговый ANOVA Если резко](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img12.jpg)
Содержание слайда: Ранговый ANOVA
Если резко нарушаются допущения, можно обратиться к непараметрическим методам оценки
Самый неприятный случай – когда возможны резкие выбросы, которые нельзя объяснить и убрать
Простые и примитивные непараметрические тесты – ранговые
На предыдущих семинарах мы рассматривали ранговые корреляции Спирмена и тесты попарных сравнений Уилкоксона
Дисперсионный анализ также можно произвести ранговыми методами. В этом случае мы тестируем общую нулевую гипотезу не F-тестом, а тестом Крускала-Уоллиса (Kruskal-Wallis test)
№14 слайд![Тест Крускала-Уоллиса](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img13.jpg)
Содержание слайда: Тест Крускала-Уоллиса
Проранжируем все наблюдения (общее ранжирование), рассчитаем суммы рангов в i группах объемом n и общим количеством наблдений N:
H статистика Крускала-Уоллиса имеет вид:
Когда объемы выборок большие и во всех группах примерно одинаковое распределение, H – статистика распределяется в соответствии с
В большинстве случаев (но не всегда) асимптотический H тест дает надежные результаты и при малых выборках
№15 слайд![Тест Крускала-Уоллиса](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img14.jpg)
Содержание слайда: Тест Крускала-Уоллиса
Рассмотрим урожаи культуры при разном количестве сорняков:
Графики нормальных квантилей по группам:
№16 слайд![Тест Крускала-Уоллиса Ранги](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img15.jpg)
Содержание слайда: Тест Крускала-Уоллиса
Ранги наблюдений и суммы рангов по группам
Статистика Крускала-Уоллиса
№17 слайд![Многофакторный дисперсионный](/documents_6/d368457e5d8a76fd802c9ae2a8e10def/img16.jpg)
Содержание слайда: Многофакторный дисперсионный анализ
Как и регрессия, дисперсионный анализ может быть многофакторным
Кроме того, существуют различные модификации регрессии и дисперсионного анализа, входящие в класс общих линейных моделей (GLM)
Многофакторный анализ мощнее, чем однофакторный по каждому фактору
Особый интерес представляет возможность нахождения и тестирование значимости взаимодействия между факторами