Презентация Проверка статистических гипотез. Версия 2 онлайн

На нашем сайте вы можете скачать и просмотреть онлайн доклад-презентацию на тему Проверка статистических гипотез. Версия 2 абсолютно бесплатно. Урок-презентация на эту тему содержит всего 171 слайд. Все материалы созданы в программе PowerPoint и имеют формат ppt или же pptx. Материалы и темы для презентаций взяты из открытых источников и загружены их авторами, за качество и достоверность информации в них администрация сайта не отвечает, все права принадлежат их создателям. Если вы нашли то, что искали, отблагодарите авторов - поделитесь ссылкой в социальных сетях, а наш сайт добавьте в закладки.
Презентации » Математика » Проверка статистических гипотез. Версия 2



Оцените!
Оцените презентацию от 1 до 5 баллов!
  • Тип файла:
    ppt / pptx (powerpoint)
  • Всего слайдов:
    171 слайд
  • Для класса:
    1,2,3,4,5,6,7,8,9,10,11
  • Размер файла:
    156.62 kB
  • Просмотров:
    91
  • Скачиваний:
    0
  • Автор:
    неизвестен



Слайды и текст к этой презентации:

№1 слайд
Проверка статистических
Содержание слайда: Проверка статистических гипотез Версия 2

№2 слайд
Определение Статистическая
Содержание слайда: Определение Статистическая гипотеза – утверждение о свойствах распределения вероятностей случайной величины (или случайного вектора). Гипотеза нуждается в проверке. Проверка основывается на результатах эксперимента, на наблюдениях.

№3 слайд
Напоминание Что такое функция
Содержание слайда: Напоминание Что такое функция распределения? Что такое плотность распределения?

№4 слайд
Раздел Зачем проверяют
Содержание слайда: Раздел 1 Зачем проверяют статистические гипотезы Обсудим наиболее важные статистические гипотезы.

№5 слайд
. Гипотеза согласия.
Содержание слайда: 1. Гипотеза согласия. Обозначим функцию распределения случайной величины Х. Пусть - некоторая заданная функция распределения. Гипотеза : функции распределения совпадают, то есть = Кому и когда приходится проверять гипотезу согласия?

№6 слайд
Пример гипотезы согласия
Содержание слайда: Пример гипотезы согласия Гипотеза о нормальности распределения В этом случае

№7 слайд
Содержание слайда:

№8 слайд
Почему гипотеза нормальности
Содержание слайда: Почему гипотеза нормальности важна? 1. Нормальное распределение часто встречается (вспомним центральную предельную теорему).

№9 слайд
Почему гипотеза нормальности
Содержание слайда: Почему гипотеза нормальности важна? 2. Когда распределение нормальное, экономим деньги: если А) распределение можно считать нормальным и Б) задана необходимая погрешность результата, то при проведении анализа можно обойтись меньшим числом наблюдений. Например, опросить меньше покупателей.

№10 слайд
Пример гипотезы согласия
Содержание слайда: Пример гипотезы согласия 2 Гипотеза об экспоненциальности распределения. В этом случае функция распределения

№11 слайд
Почему важна гипотеза
Содержание слайда: Почему важна гипотеза экспоненциальности? Экспоненциальное распределение часто встречается, когда изучается «время ожидания».

№12 слайд
Например, Время до аварии
Содержание слайда: Например, Время до аварии (нужно для расчета страховой премии). Время обслуживания покупателя кассиром (нужно для определения числа касс в супермаркете). Время до поломки изделия (нужно для планирования расходов на гарантийный ремонт).

№13 слайд
. Гипотеза однородности.
Содержание слайда: 2. Гипотеза однородности. Обозначим функцию распределения случайной величины Х. Обозначим функцию распределения случайной величины Y Гипотеза : функции распределения совпадают Кому и когда приходится проверять гипотезу согласия?

№14 слайд
Например, Распределение
Содержание слайда: Например, Распределение продаж до рекламной акции и после нее. Если распределение продаж не изменилось, то улучшения нет. Может сравниваться распределение покупателей по возрасту. Например, если реклама была нацелена на конкретный сегмент, например, на молодых мам.

№15 слайд
. Гипотеза независимости.
Содержание слайда: 3. Гипотеза независимости. Гипотеза : случайные величины X и Y независимы Кому и когда приходится проверять гипотезу независимости?

№16 слайд
Например, Если возраст
Содержание слайда: Например, Если возраст покупателей и объем покупки зависимы, то возраст надо учитывать при сегментации покупателей. Иногда зависимость бывает неочевидной. Длина волос и рост людей – зависимые переменные.

№17 слайд
Вопрос наличие балкона влияет
Содержание слайда: Вопрос: наличие балкона влияет на цену квартиры?

№18 слайд
На шаг дальше В эконометрике
Содержание слайда: На шаг дальше… В эконометрике редко интересен сам факт зависимости. Обычно идут дальше, пытаются описать зависимость. Подобные задачи решаются, в частности, методами регрессионного анализа. Регрессионный анализ – сдедующая тема.

№19 слайд
. Гипотезы о параметре
Содержание слайда: 4. Гипотезы о параметре распределения. Очень часто не так важно распределение случайной величины. Интересна лишь одна характеристика распределения.

№20 слайд
Если анализируются продажи
Содержание слайда: Если анализируются продажи магазина, то в первую очередь интересно… Математическое ожидание Так как математическое ожидание – вероятностная модель для среднего значения. В данном случае для средних продаж.

№21 слайд
Гипотеза. Математические
Содержание слайда: Гипотеза. Математические ожидания случайных величин X и Y одинаковы. EX = EY

№22 слайд
Если сравниваются медианы
Содержание слайда: Если сравниваются медианы: Гипотеза. Медианы случайных величин X и Y одинаковы. Med(X) = med(Y)

№23 слайд
Основные условия применения
Содержание слайда: Основные условия применения статистических тестов Вопрос должен касаться какой-либо характеристики массового явления. Характеристика меняется случайным образом от наблюдения к наблюдению. Вопрос должен быть относительно простым и четко сформулированным

№24 слайд
Пример В обычных условиях
Содержание слайда: Пример 1 В обычных условиях зафиксирован некоторый уровень продаж. Затем была проведена рекламная акция. Руководству фирмы надо оценить результат. Для этого нужно выяснить, было ли существенное увеличение продаж. В частности, окупились ли затраты на рекламу.

№25 слайд
Основная проблема Увеличение
Содержание слайда: Основная проблема: Увеличение продаж могло быть вызвано случайными факторами. Продажи все время меняются, случайным образом отклоняются от заданного значения. Статистически значимое отклонение должно превышать эти случайные отклонения.

№26 слайд
Пример Разработан новый
Содержание слайда: Пример 2 Разработан новый варианта упаковки товара. Требуется проверить предположение, что товар в новой упаковке имеет в данном регионе больший уровень продаж, чем вариант в старой упаковке.

№27 слайд
Пример Верно ли, что основной
Содержание слайда: Пример 3 Верно ли, что основной конкурент действует на том же сегменте рынка, что и фирма «Х»? При ответе на этот вопрос может потребоваться проверить, одинаково ли распределение по возрасту у покупателей товаров фирмы «Х» и ее основного конкурента.

№28 слайд
Пример Фирма изучает
Содержание слайда: Пример 4 Фирма изучает постоянных покупателей своей продукции, чтобы увеличить их лояльность и количество. В рамках этой задачи аналитик проверяет, зависит ли лояльность потребителя от его пола, возраста, уровня образования.

№29 слайд
Пример . Часть Статистическая
Содержание слайда: Пример 4. Часть 2 Статистическая формулировка: проверить гипотезы о независимости уровня лояльности и а) пола покупателя; б) возраста покупателя; в) уровня образования покупателя. Далее, можно проверить, различаются ли средние значения изучаемых показателей у лояльных и не лояльных покупателей.

№30 слайд
Раздел Технологии проверки
Содержание слайда: Раздел 2 Технологии проверки статистических гипотез Основные понятия

№31 слайд
Выбираем из двух гипотез!
Содержание слайда: Выбираем из двух гипотез! Гипотеза принимается или отвергается Так неудобно Надо: выбираем между двумя статистическими гипотезами.

№32 слайд
Определение Проверку гипотез
Содержание слайда: Определение Проверку гипотез на основе выборочных статистических данных называют статистической проверкой гипотез.

№33 слайд
Основная и альтернативная
Содержание слайда: Основная и альтернативная гипотезы Одну из гипотез называют основной и обозначают, как правило, Н, а другую — альтернативной (конкурирующей) и обозначают К. Если не уточняется, о какой гипотеза идет речь, то имеется в виду основная гипотеза. Чаще всего (но не всегда) одна гипотеза утверждает, что предположение верно, другая – что нет.

№34 слайд
Неточно говорить выбрана
Содержание слайда: Неточно говорить «…выбрана основная гипотеза…» или «…выбрана альтернативная гипотеза…», Неточно говорить «…основная гипотеза принята…» или «основная гипотеза отвергнута…».

№35 слайд
Важное уточнение. Правильно
Содержание слайда: Важное уточнение. Правильно говорить «основная гипотеза отвергнута…» и «основная гипотеза не отвергнута…». Так как обычно проверяют лишь достаточное условие.

№36 слайд
Комментарий Гипотеза число
Содержание слайда: Комментарий 1: Гипотеза: число делится на 6 нацело. Фактически проверяем, делится ли число на 2 нацело.

№37 слайд
Комментарий Часто случается,
Содержание слайда: Комментарий 2: Часто случается, что у аналитика недостаточно данных, чтобы проявился изучаемый эффект. Например, фармацевтическая компания выпускает лекарство, аналогичное уже существующему, так называемый "дженерик" (generic) вместо оригинального, производимого разработчиком ("brand-named"). Компания проводит исследование, проверяющее, что лекарство-аналог эквивалентно уже существующему.

№38 слайд
Отвергнуть гипотезу
Содержание слайда: Отвергнуть гипотезу недостаточно Основная гипотеза при анализе: отличия между лекарствами нет. Дело касается здоровья людей, и не отвергнуть гипотезу недостаточно. Необходимы более жесткие требования к процедуре. Надо проверить еще и побочные эффекты у лиц страдающих заболеванием «х1», «х2», и так далее…

№39 слайд
Вывод Хотя часто можно
Содержание слайда: Вывод Хотя часто можно услышать, что (основная) гипотеза принята, такое выражение неточно. Точнее говорить, что (основная) гипотеза не отвергнута

№40 слайд
Ошибки первого и второго рода
Содержание слайда: Ошибки первого и второго рода Ошибка первого рода состоит в том, что отвергается основная гипотеза, когда на самом деле она верна. Ошибка второго рода состоит в том, что отвергается конкурирующая гипотеза, когда она верна.

№41 слайд
Аналогия В больнице врач
Содержание слайда: Аналогия В больнице врач принимает решение, направлять пациента на операцию, или нет.

№42 слайд
Когда врач делает ошибку
Содержание слайда: Когда врач делает ошибку первого рода? Когда врач делает ошибку второго рода?

№43 слайд
Гипотеза нужна срочная
Содержание слайда: Гипотеза: нужна срочная операция

№44 слайд
Может ли врач свести частоту
Содержание слайда: Может ли врач свести частоту (вероятность) ошибок первого рода к нулю? Может ли врач свести частоту (вероятность) ошибок второго рода к нулю?

№45 слайд
Есть исключения Например,
Содержание слайда: Есть исключения Например, если мы будем вакцинацию считать операцией, то получается, что врачи предпочитают делать маленькую "превентивную" операцию всем, чтобы исключить ошибки первого рода.

№46 слайд
Последствия ошибок могут быть
Содержание слайда: Последствия ошибок могут быть различными Ошибка первого рода (обычно) опаснее, но полностью избежать ее не удастся. При проверке статистических гипотез исходят именно из этой предпосылки

№47 слайд
Уровень значимости Долю
Содержание слайда: Уровень значимости Долю ошибок первого рода ограничивают сверху числом, называемым уровень значимости. Исторически сложилось так, что в качестве уровня значимости чаще всего выбирают одно из чисел 0.005, 0.01, 0.05. То есть аналитик допускает, что (в среднем) одна проверка из 200, 100, 20 будет давать неверный результат.

№48 слайд
Для новичков! Чаще всего
Содержание слайда: Для новичков! Чаще всего уровень значимости равен 0,05 На самом деле выбор уровня значимости – большая проблема! Зависит, например, от числа наблюдений! Смотрите литературу

№49 слайд
медицинский пример На что
Содержание слайда: «медицинский» пример На что влияет выбор уровня значимости? Проектирование атомной электростанции Трелевочный трактор

№50 слайд
Ошибка второго рода и
Содержание слайда: Ошибка второго рода и мощность Как добиться того, чтобы вероятность ошибки второго рода была малой? Очень сложно. Состоятельные критерии. Ошибку можно уменьшить, если увеличить число анализируемых наблюдений. Необходимы большие выборки.

№51 слайд
Дополнительно Если выборка
Содержание слайда: Дополнительно Если выборка маленькая (часто границей между большой и маленькой выборкой рекомендуют считать 30 наблюдений), проверить гипотезу по малой выборке удастся. Но Платой за малый размер будет неприемлемо большая вероятность ошибки второго рода. Большинство практиков игнорируют ошибку второго рода. Это неверно. Профессиональные статистики в таких ситуациях часто увеличивают уровень значимости (например до 0.15 или 0.2), чтобы сделать вероятности ошибок сопоставимыми.

№52 слайд
Задача. Вместо врача
Содержание слайда: Задача. Вместо врача рассмотрим банковского служащего, принимающего решение, выдавать заем или нет. Как будут интерпретироваться статистические понятия в этом случае?

№53 слайд
Алгоритм проверки
Содержание слайда: Алгоритм проверки статистических гипотез 1. Имеются n наблюдений , то есть n чисел, полученных, например, в результате опроса. 2. Заранее задан уровень значимости α. Обычно это одно из чисел 0.005, 0.01, 0.05.

№54 слайд
. Задан статистический
Содержание слайда: 3. Задан статистический критерий, то есть функция от наблюдений . 4. Найдено p-значение (p-value). Иногда переводится как значимость (Significance).

№55 слайд
. Проверяются все условия,
Содержание слайда: 5. Проверяются все условия, при которых критерий будет работать. Условия – Из учебника или справочника. Несколько важных критериев будет рассмотрено далее

№56 слайд
. Если p lt - гипотезу
Содержание слайда: 6. Если p< α - гипотезу отвергаем, если p> α - не отвергаем. Напомним: α – уровень значимости p - p-value.

№57 слайд
Комментарии Наблюдения не
Содержание слайда: Комментарии Наблюдения не обязательно являются числами. Выбор того статистического критерия, который подходит для задачи – важная и сложная задача

№58 слайд
Проверка условий применимости
Содержание слайда: Проверка условий применимости Например, для применения t – критерия Стьюдента или для проверка гипотезы независимости с помощью критерия Пирсона надо проверить близость распределения переменных к нормальному.

№59 слайд
Статистика критерия или
Содержание слайда: Статистика критерия или тестовая статистикой Иногда используют статистику критерия или тестовую статистику. Изредка она важна сама по себе (например, коэффициент корреляции), в таких конкретных случаях мы будем ее указывать.

№60 слайд
Интерпретация статистики
Содержание слайда: Интерпретация статистики критерия Значение статистики критерия (обычно) измеряет, насколько данные согласуются с гипотезой.

№61 слайд
quot Маленькие quot значения
Содержание слайда: "Маленькие" значения статистики критерия указывают, что данные «ведут себя» в соответствии с гипотезой. В этом случае гипотеза не отвергается.

№62 слайд
quot Большие quot значения
Содержание слайда: "Большие" значения статистики критерия указывают, что данные не соответствуют гипотезе, противоречат ей. Гипотеза отвергается.

№63 слайд
Пример Нормальное
Содержание слайда: Пример Нормальное распределение с дисперсией 1 Имеется n наблюдений Основная гипотеза: математическое ожидание равно 11 Альтернативная гипотеза: математическое ожидание равно 12

№64 слайд
Напоминание из теории
Содержание слайда: Напоминание из теории вероятностей Среднее арифметическое n независимых одинаково распределенных случайных величин с общим нормальным распределением N(a, b) имеет нормальное распределение N(a, b/n)

№65 слайд
Вопрос Где на графике ошибка
Содержание слайда: Вопрос: Где на графике ошибка первого рода, где ошибка второго рода?

№66 слайд
Интерпретация статистики
Содержание слайда: Интерпретация статистики критерия В статистике существует традиция, что именно задавать в качестве основной гипотезы. Примеры.

№67 слайд
Раздел Важные частные случаи
Содержание слайда: Раздел 3 Важные частные случаи

№68 слайд
Проверка гипотезы о
Содержание слайда: Проверка гипотезы о нормальности распределения случайной величины

№69 слайд
Статистическая формулировка
Содержание слайда: Статистическая формулировка Гипотеза: Случайная величина имеет нормальное распределение, значения параметров распределения заранее не известны. Конкурирующая гипотеза: Распределение случайной величины отличается от нормального.

№70 слайд
Критерий Шапиро-Уилка
Содержание слайда: Критерий Шапиро-Уилка Критерий Шапиро-Уилка. shapiro.test(data) От 3 до 5000 наблюдений

№71 слайд
Package quot nortest quot
Содержание слайда: Package "nortest" Критерий Anderson-Darling library(nortest) ad.test(data) Критерий Lilliefors (Kolmogorov-Smirnov) library(nortest) lillie.test(x)

№72 слайд
Число наблюдений Если
Содержание слайда: Число наблюдений Если анализируется меньше 60 (2000) наблюдений, рекомендуется использовать критерий Шапиро-Уилка если больше 60, то критерий Колмогорова-Смирнова.

№73 слайд
А нужно ли проверять гипотезу
Содержание слайда: А нужно ли проверять гипотезу нормальности?

№74 слайд
Как оказалось, для тех
Содержание слайда: Как оказалось, для тех методов, которые рассматриваются в курсе, требование нормальности распределения можно заметно ослабить. Эти методы работают не только когда переменные имеют нормальное распределение, но и когда, как говорят, «распределение данных несущественно отличается от нормального».

№75 слайд
допустим известно, что
Содержание слайда: допустим известно, что распределение случайной величины не нормальное. В каком случае отклонение от нормальности не существенное?

№76 слайд
Итак, гипотеза о нормальности
Содержание слайда: Итак, гипотеза о нормальности распределения изучаемой переменной уже отвергнута.

№77 слайд
Существенные отклонения .
Содержание слайда: Существенные отклонения 1. Наличие выбросов в данных. 2. Явная асимметрия гистограммы. 3. Очень сильное отклонение формы гистограммы от колоколообразной формы.

№78 слайд
Рекомендуется строго
Содержание слайда: Рекомендуется строго относиться к присутствию выбросов, снисходительно к отклонениям от симметрии. Наше отношение к колоколообразной форме гистограммы зависит от числа наблюдений. Если имеется меньше 30 наблюдений, наше отношение в высшей степени либерально, если число наблюдений находится между 30 и 150, мы относимся к отклонениям снисходительно, если имеется больше 150 наблюдений – строго.

№79 слайд
Содержание слайда:

№80 слайд
Содержание слайда:

№81 слайд
Содержание слайда:

№82 слайд
Лекарство Иногда оно опаснее
Содержание слайда: Лекарство Иногда оно опаснее болезни... Выбросы — удаляем (осторожно!) Асимметрия — преобразуем данные (например, логарифмируем, или преобразование Бокса-Кокса) Бимодальность — разбиваем выборку на подвыборки

№83 слайд
Пример Население городов
Содержание слайда: Пример 1 Население городов России в 1959 году Исходные данные Логарифм населения

№84 слайд
Пример Альбукерк продажи домов
Содержание слайда: Пример 2 Альбукерк – продажи домов

№85 слайд
Сравнение центров
Содержание слайда: Сравнение центров распределений

№86 слайд
Сравнение центров
Содержание слайда: Сравнение центров распределений Центр распределения - то одно единственное число, которое описывало, характеризовало бы выборку. В качестве центра чаще всего используют среднее арифметическое, медиану или усеченное среднее.

№87 слайд
Другие методы оценки центра
Содержание слайда: Другие методы оценки центра распределения Andrews; Bickel; Hampel; Huber; Rogers, Tukey. Robust estimates of location: survey and advances. 1972 Princeton University Press

№88 слайд
Среднее арифметическое или
Содержание слайда: Среднее арифметическое или медиана? Если распределение хотя бы одной из выборок существенно отличается от нормального, в качестве центра предлагается использовать медиану. В остальных случаях, то есть если распределение каждой выборки можно считать нормальным или несущественно отличающимся от нормального, в качестве центра предлагается использовать среднее арифметическое.

№89 слайд
Выбор центра распределения
Содержание слайда: Выбор центра распределения Если центром распределения выбрана медиана, центры сравниваются с помощью критерия Манна – Уитни-Вилкоксона. Если центром распределения выбрано среднее арифметическое, центры сравниваются с помощью одной из версий критерия Стьюдента.

№90 слайд
Примеры Обучение менеджеров
Содержание слайда: Примеры Обучение менеджеров Магазины

№91 слайд
Парные и независимые выборки
Содержание слайда: Парные и независимые выборки В случае парных выборок имеются пары наблюдений (измерений) одного и того же объекта. Вариант: пары измерений делались в один и тот же момент.

№92 слайд
Независимые выборки В случае
Содержание слайда: Независимые выборки В случае независимых выборок каждое наблюдение соответствует отдельному объекту, т.е. измеряются разные объекты. Принадлежность объектов выборкам определяется по значениям дополнительной группирующей переменной.

№93 слайд
Независимые и парные выборки
Содержание слайда: Независимые и парные выборки Если выборки парные, используется опция paired = TRUE. Если выборки независимые, используется опция paired = FALSE.

№94 слайд
Примеры Время в магазинах
Содержание слайда: Примеры Время в магазинах Альбукерк

№95 слайд
Сравнение медиан выборок
Содержание слайда: Сравнение медиан выборок Гипотеза: Медианы равны. Альтернативная гипотеза: Медианы различаются.

№96 слайд
Статистика критерия
Содержание слайда: Статистика критерия Манна-Уитни U U1 = n1*n2 + {n1 * (n1 + 1)/2} — T1 U2 = n1*n2 + {n2 * (n2 + 1)/2} — T2 U = min(U1, U2) Ti — сумма рангов в объединенной выборке наблюдений из выборки i n1 и n2 — размеры выборок

№97 слайд
Статистика критерия
Содержание слайда: Статистика критерия Манна-Уитни идея метода Обозначим одну выборку x, другую y. Для каждого наблюдения из выборки x сосчитаем число тех наблюдений в выборке y, которые меньше его. (Для нагладности, пока считаем, что совпадений нет). Сложим все полученные числа.

№98 слайд
Важно! Критерий Манна-Уитни
Содержание слайда: Важно! Критерий Манна-Уитни проверяет не равенство медиан, а другое утверждение. Имеются две выборки наблюдений случайных величин Х и Y. Гипотеза: Случайные величины X и Y таковы, что P{X>Y}=1/2. Альтернативная гипотеза: Случайные величины X и Y таковы, что P{X>Y}≠1/2. Для практических целей различие, тем не менее, несущественно

№99 слайд
Under more strict assumptions
Содержание слайда: Under more strict assumptions than those above, e.g., if the responses are assumed to be continuous and the alternative is restricted to a shift in location (i.e. F1(x) = F2(x + δ)), we can interpret a significant MWW test as showing a difference in medians.

№100 слайд
Критерий
Содержание слайда: Критерий Манна-Уитни-Вилкоксона wilcox.test(x, y, alternative = "two.sided", paired = FALSE, exact = TRUE, correct = FALSE)

№101 слайд
Примеры Время в магазинах
Содержание слайда: Примеры Время в магазинах Альбукерк

№102 слайд
Сравнение средних значений
Содержание слайда: Сравнение средних значений выборок Гипотеза: Математические ожидания равны. Альтернативная гипотеза: Математические ожидания различны.

№103 слайд
T-критерий Стьюдента t.test
Содержание слайда: T-критерий Стьюдента t.test(x, y, alternative = "two.sided", paired = FALSE, var.equal = FALSE)

№104 слайд
Выбор статистического
Содержание слайда: Выбор статистического критерия Если выборки парные, рекомендуется использовать парный t-критерий Стьюдента. Если выборки независимые, рекомендуется использовать t-критерий Стьюдента для 2-х независимых выборок.

№105 слайд
Надо еще сравнить дисперсии -
Содержание слайда: Надо еще сравнить дисперсии - 1 Метод 1 F-test of equality of variances Не рекомендуется, слишком чувствителен к отклонениям от нормальности. См. http://en.wikipedia.org/wiki/F-test_of_equality_of_variances var.test(x, y)

№106 слайд
Надо еще сравнить дисперсии -
Содержание слайда: Надо еще сравнить дисперсии - 2 Метод 2 Bartlett's test Если данные нормально распределены, лучший вариант. Не рекомендуется: чувствителен к отклонениям от нормальности; Если данные не нормальны, часто дает "false positive" результат.

№107 слайд
Надо еще сравнить дисперсии -
Содержание слайда: Надо еще сравнить дисперсии - 2 Метод 2 Bartlett's test bartlett.test(x, g, data=data.table) bartlett.test(x~g, data=data.table)

№108 слайд
Надо еще сравнить дисперсии -
Содержание слайда: Надо еще сравнить дисперсии - 3 Levene's test Критерий Ливиня/Левена Содержится в пакете car

№109 слайд
Надо еще сравнить дисперсии -
Содержание слайда: Надо еще сравнить дисперсии - 3 Levene's test library(car) leveneTest(x~g, data=data.table)

№110 слайд
Надо еще сравнить дисперсии -
Содержание слайда: Надо еще сравнить дисперсии - 4 Fligner-Killeen test Робастный, рекомендуется. Хотя есть еще Brown-Forsythe test, возможно он еще лучше...

№111 слайд
Надо еще сравнить дисперсии -
Содержание слайда: Надо еще сравнить дисперсии - 4 Fligner-Killeen test fligner.test(x~g, data=data.table)

№112 слайд
Примеры Время в магазинах
Содержание слайда: Примеры Время в магазинах Альбукерк

№113 слайд
Гипотеза независимости
Содержание слайда: Гипотеза независимости Основная гипотеза: Случайные величины X и Y независимы Альтернативная гипотеза: Случайные величины X и Y зависимы

№114 слайд
На практике Отвечаем на
Содержание слайда: На практике: Отвечаем на вопрос: переменная X влияет на переменную Y?

№115 слайд
Комментарий Если неизвестно,
Содержание слайда: Комментарий Если неизвестно, что на что влияет: X на Y или Y на X статистический критерий не поможет!

№116 слайд
Пример Бернарда Шоу
Содержание слайда: Пример Бернарда Шоу

№117 слайд
Диаграмма рассеивания Иногда
Содержание слайда: Диаграмма рассеивания Иногда пишут - диаграмма рассеяния Пример – швейцарские банкноты.

№118 слайд
Зависимость - X в
Содержание слайда: Зависимость -1 X – в количественной шкале Y – в количественной шкале Применяется коэффициент корреляции Пирсона Или Спирмена Иногда - Кендалла

№119 слайд
Функциональная зависимость
Содержание слайда: Функциональная зависимость

№120 слайд
Статистическая зависимость
Содержание слайда: Статистическая зависимость двух переменных Обобщение функциональной зависимости. Одному и тому же значению x могут соответствовать разные значения y. Например, один и тот же товар (например, телефон) может продаваться в разных магазинах по разной цене, то есть одному и тому же товару соответствуют разные цены.

№121 слайд
статистическая зависимость
Содержание слайда: статистическая зависимость Определение статистическая зависимость – это функциональная зависимость СРЕДНЕГО значения переменной y от значения переменной x. Откуда появляется среднее значение? Проводятся эксперименты (или наблюдается явление) при одном и том же значении x, при этом регистрируются разные значения y, затем эти значения усредняются. На практике не всегда заметно, что одному и тому же значению переменной x может соответствовать много значений y, например когда повторные наблюдения при одном значении x не делались.

№122 слайд
среднее значение переменной y
Содержание слайда: среднее значение переменной y равно натуральному логарифму значения x.

№123 слайд
среднее значение переменной y
Содержание слайда: среднее значение переменной y равно натуральному логарифму значения x.

№124 слайд
Коэффициент корреляции как
Содержание слайда: Коэффициент корреляции как «градусник», измеряющий степень зависимости Формула для коэффициента корреляции

№125 слайд
Выбор коэффициента Если
Содержание слайда: Выбор коэффициента Если распределение каждой переменной несущественно отличается от нормального, применяется коэффициент корреляции Пирсона В остальных случаях - коэффициент корреляции Спирмена Вместо коэффициента корреляции Спирмена используют коэффициент корреляции Кендалла

№126 слайд
Содержание слайда:

№127 слайд
Как проявляется зависимость
Содержание слайда: Как проявляется зависимость на диаграмме рассеивания

№128 слайд
Коэффициент корреляции равен
Содержание слайда: Коэффициент корреляции равен 1

№129 слайд
Коэффициент корреляции равен .
Содержание слайда: Коэффициент корреляции равен 0.9

№130 слайд
Коэффициент корреляции равен .
Содержание слайда: Коэффициент корреляции равен 0.8

№131 слайд
Коэффициент корреляции равен .
Содержание слайда: Коэффициент корреляции равен 0.6

№132 слайд
Коэффициент корреляции равен .
Содержание слайда: Коэффициент корреляции равен 0.4

№133 слайд
Коэффициент корреляции равен .
Содержание слайда: Коэффициент корреляции равен 0.2

№134 слайд
Коэффициент корреляции равен .
Содержание слайда: Коэффициент корреляции равен 0.

№135 слайд
Проблемы и ошибки при
Содержание слайда: Проблемы и ошибки при использовании коэффициента корреляции

№136 слайд
Содержание слайда:

№137 слайд
Содержание слайда:

№138 слайд
Данные без выброса
Содержание слайда: Данные без выброса коэффициент корреляции равен -0.81

№139 слайд
Добавлен выброс в точке , .
Содержание слайда: Добавлен выброс в точке (10,10). Коэффициент корреляции упал до -0,55.

№140 слайд
Выброс сдвинут в точку , , ,
Содержание слайда: Выброс сдвинут в точку (18,5, 18,5) Коэффициент равен 0

№141 слайд
Выброс сдвинут в точку , .
Содержание слайда: Выброс сдвинут в точку (53, 53). Корреляция равна +0,81

№142 слайд
Ложная корреляция
Содержание слайда: Ложная корреляция

№143 слайд
Зависимость - X в
Содержание слайда: Зависимость -2 X – в количественной шкале Y – в номинальной шкале Сравниваем средние или медианы в группах Или перекодируем количественную переменную, переводим ее в номинальную шкалу

№144 слайд
Зависимость - X в порядковой
Содержание слайда: Зависимость -3 X – в порядковой шкале Y – в порядковой шкале Используем коэффициент корреляции Спирмена Или Кендалла

№145 слайд
Зависимость - X в номинальной
Содержание слайда: Зависимость -4 X – в номинальной шкале Y – в номинальной шкале Таблица сопряженности и критерий χ²

№146 слайд
Критерий хи-квадрат Формула
Содержание слайда: Критерий хи-квадрат Формула для статистики

№147 слайд
Статистика хи-квадрат как
Содержание слайда: Статистика хи-квадрат как коэффициент корреляции Коэффициент Пирсона Коэффициент Чупрова

№148 слайд
Примеры типичных ошибок при
Содержание слайда: Примеры типичных ошибок при использовании критерия хи-квадрат

№149 слайд
Пример Действительно ли
Содержание слайда: Пример 1 Действительно ли использование Internet связано с полом? Все опрошенные пользуются Интернетом. Тех из них, кто использует Интернет пять часов в месяц или меньше, отнесли к мало пользующимся, остальных – к активным пользователям.

№150 слайд
Пример sex пол. Кодировка
Содержание слайда: Пример 1 sex = пол. Кодировка: "1" – мужчина, "0" – женщина. internet = использование Internet. Кодировка: "0" – использует мало, "1" – использует активно. Имеется 30 наблюдений (опрошенных).

№151 слайд
Пример
Содержание слайда: Пример 1

№152 слайд
Пример В результате изучения
Содержание слайда: Пример 2 В результате изучения связи между покупкой модной одежды и семейным положением получены, среди прочих, следующие данные. Имеется 1000 наблюдений (опрошенных).

№153 слайд
Пример Переменные. sex пол.
Содержание слайда: Пример 2 Переменные. sex = пол. Кодировка: "1" – мужчина, "0" – женщина. marriage = семейное положение. Кодировка: "1" – женат/замужем, "0" – не женат/не замужем. fashion = покупка модной одежды. Кодировка: "0" – покупает мало, "1" – покупает много.

№154 слайд
Пример
Содержание слайда: Пример 2

№155 слайд
Пример
Содержание слайда: Пример 2

№156 слайд
Пример
Содержание слайда: Пример 2

№157 слайд
Пример Маркетолог проводит
Содержание слайда: Пример 3 Маркетолог проводит исследование для рекламного агентства, разрабатывающего рекламу для автомобилей стоимостью свыше 30 тысяч долларов. Он пытается проанализировать факторы, влияющие на владение дорогими автомобилями.

№158 слайд
Пример Переменные. high edu
Содержание слайда: Пример 3 Переменные. high_edu = образование. Кодировка: "1" – высшее образование, "0" – нет высшего образования. expe_car = наличие дорогого автомобиля. Кодировка: "0" – дорогого автомобиля нет, "1" – дорогой автомобиль есть. income = доход. Кодировка: "0" – низкий доход, "1" – высокий доход. Имеется 1000 наблюдений (опрошенных).

№159 слайд
Пример
Содержание слайда: Пример 3

№160 слайд
Пример
Содержание слайда: Пример 3

№161 слайд
Пример
Содержание слайда: Пример 3

№162 слайд
Пример Маркетолог,
Содержание слайда: Пример 4 Маркетолог, исследующий сферу туристических поездок за границу, предположил, что на желание путешествовать влияет возраст. Имеющиеся в его распоряжении данные содержат, среди прочего, следующую информацию.

№163 слайд
Пример Переменные. desire
Содержание слайда: Пример 4 Переменные. desire = желание совершить путешествие за границу. Кодировка: "1" – желание есть, "0" – желания нет. sex = пол. Кодировка: "0" – женщина, "1" – мужчина. age = возраст. Кодировка: "0" –до 45 лет, "1" – 45 лет или старше. Имеется 1000 наблюдений (опрошенных).

№164 слайд
Пример
Содержание слайда: Пример 4

№165 слайд
Пример
Содержание слайда: Пример 4

№166 слайд
Пример
Содержание слайда: Пример 4

№167 слайд
Пример
Содержание слайда: Пример 4

№168 слайд
Пример Результаты
Содержание слайда: Пример 5 Результаты анкетирования о проведении семейного досуга содержат, среди прочего, следующую информацию. Переменные. fastfood = частота посещения ресторанов быстрого питания. Кодировка: "1" – часто, "0" – редко. income = доход семьи. Кодировка: "1" – высокий, "0" – низкий. family = размер семьи. Кодировка: "1" – большая семья, "0" – малая семья.

№169 слайд
Пример
Содержание слайда: Пример 5

№170 слайд
Пример
Содержание слайда: Пример 5

№171 слайд
Пример
Содержание слайда: Пример 5

Скачать все slide презентации Проверка статистических гипотез. Версия 2 одним архивом: