Статистические гипотезы.
Задания для лабораторных работ по курсу “Управление ИТ-контентом и анализ больших данных”.
Задание 1
Задача 1.1
Из продукции двух автоматических линий извлечены по 50 гвоздей и вычислены их выборочные средние длины \(\hat{x}_1=180.3\) мм и \(\hat{x}_1=180.9\) мм. Нормативная погрешность линий есть нормальная случайная величина с дисперсией \(\sigma_1^2 = \sigma_2^2 = 4.2\) мм\(^2\).
На уровне значимости 0,05 проверить гипотезу о равенстве генеральных средних \(a_1 = a_2\) против конкурирующих гипотез \(a_1 < a_2\) и \(a_1 \neq a_2\).
Задача 1.2
Производитель портативных компьютеров использует аккумуляторные батареи, поставляемые двумя компаниями, A и B. Хотя обе марки имеют одинаковое среднее время автономной работы между зарядками (ВАР), производитель компьютеров, похоже, получает больше жалоб на более короткий ВАР, чем ожидалось для аккумуляторных батарей, поставляемых компанией B.
Производитель компьютеров подозревает, что это может быть вызвано более высокой дисперсией ВАР для марки B. Чтобы проверить это, выбираются десять новых батарейных блоков от каждой марки, устанавливаются на одни и те же модели ноутбуков, и ноутбуки работают до тех пор, пока аккумуляторные батареи полностью не разрядятся. Ниже приведены наблюдаемые ВАР в часах.
Brand A | Brand B |
---|---|
3.2 | 3.0 |
3.4 | 3.5 |
2.8 | 2.9 |
3.0 | 3.1 |
3.0 | 2.3 |
3.0 | 2.0 |
2.8 | 3.0 |
2.9 | 2.9 |
3.0 | 3.0 |
3.0 | 4.1 |
Протестируйте на уровне значимости 5%, предоставляют ли данные достаточные доказательства, чтобы сделать вывод о том, что ВАР бренда B имеют большую дисперсию, чем у бренда A.
Задание 2
Задача 2.1
Записи о 40 подержанных легковых автомобилях и 40 подержанных пикапах (ни один из них не использовался в коммерческих целях) были выбраны случайным образом, чтобы выяснить, была ли какая-либо разница в среднем времени в годах, в течение которого они находились у первоначального владельца перед продажей. Для автомобилей среднее значение составило 5,3 года при стандартном отклонении 2,2 года. Для пикапов среднее значение составило 7,1 года при стандартном отклонении 3,0 года.
- Постройте 95% доверительный интервал для разницы средних на основе этих данных.
- Проверьте гипотезу о том, что средние значения различаются, против нулевой гипотезы об отсутствии различий.
- Используйте уровень значимости 1%.
Задача 2.2
Производитель устройства для измерения артериального давления для домашнего использования утверждает, что его устройство более стабильно, чем устройство ведущего конкурента. При посещении медицинского магазина потенциальный покупатель неоднократно примерял на себе оба устройства в течение короткого промежутка времени. Ниже приведены показания систолического давления.
Производитель | Конкурент |
---|---|
132 | 129 |
134 | 132 |
129 | 129 |
129 | 138 |
130 | |
132 |
Проверьте на уровне значимости 5%, предоставляют ли данные достаточные доказательства, чтобы сделать вывод о том, что заявление производителя верно.
Задание 3
Задача 3.1
Линия по разливу сока должна наливать 0.500 л в бутылку. Замер объема сока в выборке из 36 бутылок показал среднее значение 0,485 л. Проверьте нулевую гипотезу о том, что среднее значение зополненности бутылок равно 0,500 л с уровнем значимости 5\%.
Задача 3.2
Каждый год большое количество потенциальных оценщиков письменной части вступительного экзамена проходят строгую программу обучения, прежде чем им будут даны оценочные задания. Чтобы оценить, действительно ли такая учебная программа способствует постоянству оценок, статистик провел эксперимент, в ходе которого 61 подготовленному оценщику и 31 неподготовленному оценщику было дано справочное эссе. Информация о баллах, выставленных этими оценщиками, представлена ниже:
Подготовленные оценщики: \[n_1=61, s_1^2=2.15\]
Неподготовленные оценщики: \[n_2=31, s_2^2=3.91\]
Протестируйте на уровне значимости 5%, предоставляют ли данные достаточные доказательства, чтобы сделать вывод о том, что программа обучения повышает согласованность оценок эссе.
Задание 4
Задача 4.1
Чтобы определить, существует ли значительная разница в длине рыб из двух рыбоводных заводов, 11 рыб были случайным образом отобраны из рыбоводного завода А и 10 рыб были случайным образом выбраны из рыбоводного завода В. Их длины в сантиметрах приведены ниже. Предположим, что оба набора данных являются приблизительно нормальными. Протестируйте утверждение об отсутствии разницы в длине рыбы для двух инкубаториев, используя метод критического значения с \(\alpha\) = 0,05.
Завод A: 12.4 12.7 12.9 13.3 14.2 14.3 14.3 14.8 14.8 15.3 15.3
Завод B: 10.7 12.2 12.8 13.9 14.1 14.3 14.6 15.6 16.8 18.1
Задача 4.2
Общая проблема, с которой сталкиваются многие радиостанции классической музыки, заключается в том, что их слушатели принадлежат к все более узкой возрастной группе населения. Новый генеральный менеджер радиостанции классической музыки считал, что новый плейлист, предложенный профессиональным агентством по программированию, привлечет слушателей более широкого возраста. Новый список использовался в течение года. Были взяты две случайные выборки до и после принятия нового плейлиста. Информация о возрасте слушателей в выборке представлена ниже:
- Выборка до замены плейлиста: \(n_1=21\), \(s_1^2=56.25\)
- Выборка после замены плейлиста: \(n_2=16\), \(s_2^2=76.56\)
Протестируйте на уровне значимости 10%, предоставляют ли данные достаточные доказательства, чтобы сделать вывод о том, что новый плейлист расширил диапазон возрастов слушателей.
Задание 5
Задача 5.1
Предположим, мы хотим знать, приводят ли три разные программы подготовки к экзаменам к разным средним баллам на определенном экзамене. Чтобы проверить это, мы набираем 30 студентов для участия в исследовании и разделяем их на три группы. Студенты в каждой группе случайным образом назначаются для использования одной из трех программ подготовки к экзамену в течение следующих трех недель для подготовки к экзамену. По истечении трех недель все студенты сдают один и тот же экзамен.
Ниже представлены результаты экзаменов для каждой группы:
Группа 1: 85 86 88 75 78 94 98 79 71 80
Группа 2: 91 92 93 85 87 84 82 88 95 96
Группа 3: 79 78 88 94 92 85 83 85 82 81
Можно ли сказать, что существует статистически значимая разница между средними экзаменационными баллами трех групп?
Задача 5.2
Риск инвестирования в акции измеряется волатильностью или дисперсией изменений цены этих акций. Взаимные фонды представляют собой наборы акций и, как правило, предлагают инвесторам меньший риск. Различные взаимные фонды имеют разную направленность и предлагают разные уровни риска.
Иммануил Гедеонович выбирает между двумя взаимными фондами, А и В, с одинаковыми ожидаемыми доходами. Чтобы принять окончательное решение, он изучил годовые доходы двух фондов за последние десять лет и получил следующую информацию:
- Взаимный Фонд A: \(n_1=10$,\) s_1^2=0.012 $$
- Взаимный Фонд В: \(n_2=10$,\) s_2^2=0.005 $$
Проверьте на уровне значимости 5%, предоставляют ли данные достаточные доказательства, чтобы сделать вывод о том, что два взаимных фонда предлагают разные уровни риска.
Задание 6
Задача 6.1
Фермер рассматривает возможность увеличения времени, в течение которого горит свет в его курятнике. В эксперименте отбирали десять кур и регистрировали количество яиц, снесенных каждой из них в течение недели при нормальных и повышенных условиях освещения. При α=0.05 можно ли сделать вывод, что увеличение светового времени изменило яйценоскость?
Курица | Нормальный свет | Увеличенный свет |
---|---|---|
1 | 4 | 6 |
2 | 3 | 5 |
3 | 8 | 9 |
4 | 7 | 7 |
5 | 6 | 4 |
6 | 4 | 5 |
7 | 9 | 10 |
8 | 7 | 6 |
9 | 6 | 9 |
10 | 5 | 6 |
Задача 6.2
Японский осетр — подвид семейства осетровых, обитающий в Японии и северо-западной части Тихого океана. В одном из рыбоводных заводов только что вылупившиеся детеныши японского осетра содержатся в резервуарах в течение нескольких недель, прежде чем их переводят в более крупные пруды. Растворенный кислород в воде резервуара очень тщательно контролируется электронной системой и строго поддерживается на целевом уровне 6,5 миллиграммов на литр (мг/л).
Рыбоводный завод надеется модернизировать свои системы мониторинга воды для более жесткого контроля растворенного кислорода. Новая система оценивается по сравнению со старой, используемой в настоящее время, с точки зрения дисперсии измеренного содержания растворенного кислорода. В течение дня была отобрана 31 проба воды из резервуара, работающего с новой системой, и 16 проб воды из резервуара, работавшего со старой системой. Образцы дают следующую информацию:
- Новая выборка : \(n_1=31\), \(s_1^2=0.0121\)
- Старая выборка: \(n_2=16\), \(s_2^2=0.0319\)
Проверьте на уровне значимости 10%, предоставляют ли данные достаточные доказательства, чтобы сделать вывод о том, что новая система обеспечит более жесткий контроль содержания растворенного кислорода в резервуарах.
Задание 7
Задача 7.1
Исследователи дикой природы отловили и измерили длину шести взрослых самцов ошейниковых леммингов. Данные (в миллиметрах):
104, 99, 112, 115, 96, 109.
Предположим, что длины всех леммингов распределены нормально. Используя эти данные, постройте 90% доверительный интервал для средней длины всех взрослых самцов ошейниковых леммингов.
Задача 7.2
Чтобы исследовать реальную стоимость владения новыми автомобилями различных марок и моделей, агентство по защите прав потребителей отследило 16 владельцев новых автомобилей четырех популярных марок и моделей, назвав их TC, HA, NA и FT, и вело учет каждого из них. реальная стоимость владельца в долларах за первые пять лет. Ниже приведены пятилетние затраты 16 автовладельцев:
TC: 8423, 7889, 8665
HA: 7776, 7211, 6870, 7129, 7359
NA: 8907, 9077, 8732, 9747, 8677
FT: 10333, 9217, 10540
Проверьте, используя F-критерий ANOVA на уровне значимости 5%, предоставляют ли данные достаточные доказательства, чтобы сделать вывод о наличии различий между средними реальными затратами на владение этими четырьмя моделями.
Задание 8
Задача 8.1
Даны две независимые выборки из нормально-распределенной генеральной совокупности:
A: 3.61, 4.03, 1.8 , 6.21, 6.59, 5.92, 6.53, 4.11, 2.09, 5.88
B: 2.76, 4.92, 4.15, 4.51, 2.7 , 2.1 , 5.5 , 6.05
При уровне значимости 10% проверить нулевую гипотезу о равенстве генеральных дисперсий при альтернативной гипотезе D(A)>D(B)
Задача 8.2
Случайная выборка 9-летних детей дала следующие данные об их росте (в сантиметрах):
- Девочки: \(\hat{x} = 126.2\) см, \(s = 10.95\) см, \(n = 50\)
- Мальчики: \(\hat{x} = 123.5\) см, \(s = 9.9\) см, \(n = 60\)
Проверьте утверждение о том, что в возрасте 9 лет средний рост мальчиков и девочек одинаков.
Задание 9
Задача 9.1
Количество граммов углеводов, содержащихся в порциях по 100 грамм случайно выбранных шоколадных и нешоколадных конфет, указано ниже. Предположим, образцы примерно нормальные.
- Шоколад: 17, 24, 25, 25, 27, 29, 29, 29, 29, 32, 34, 36, 38, 41
- Без шоколада: 10, 12, 29, 29, 30, 37, 38, 39, 41, 41, 55
- Значительно ли различаются дисперсии выборок при \(\alpha\) = 0.05?
- Проверьте утверждение о том, что нет никакой разницы в содержании углеводов в двух видах конфет при \(\alpha\) = 0.05$.
Задача 9.2
Исторически фабрика могла производить очень специализированный компонент нанотехнологий с надежностью 35%, т. е. 35% компонентов соответствовали требованиям обеспечения качества.
Сейчас руководство завода изменило производственный процесс и надеется, что это повысило надежность. Чтобы проверить это, была взята выборка из 24 компонентов, произведенных с использованием нового процесса, и обнаружили, что 13 компонентов прошли тест на качество. Означает ли это значительное улучшение по сравнению со старым процессом?
Задание 10
Задача 10.1
Диетолог хочет увидеть, есть ли какая-либо разница в прибавке в весе спортсменов, соблюдающих одну из трех специальных диет. Спортсменов случайным образом распределяют по трем группам и помещают на диету на 6 недель. Указаны прибавки в весе (в фунтах). Предположим, что прибавка в весе распределяется нормально, а дисперсии равны.
С уровнем значимости 0,05 может ли исследователь заключить, что рационы различаются?
Диета А: 3, 6, 7, 4
Диета Б: 10, 12, 11, 14, 8, 6
Диета С: 8, 3, 2, 5
Задача 10.2
Две случайные выборки взяты из двух нормальных генеральных совокупностей. Известны количество элементов и дисперсии двух выборок:
- \(n_1 = 11\), \(s_1^2 = 61\)
- \(n_2 = 8\), \(s_2^2 = 44\)
Проверьте гипотезу \[H_0 : \sigma_1^2 = \sigma_2^2, \quad \text{при альтернативной } H_1: \sigma_1^2 > \sigma_2^2\]
при уровне значимости 5%.
Задание 11
Задача 11.1
Эффект Моцарта относится к увеличению средней успеваемости на тестах для учащихся начальной школы, если ученики слушают камерную музыку Моцарта в течение определенного периода времени непосредственно перед тестом. Многие педагоги считают, что такой эффект не обязательно связан с музыкой Моцарта как таковой, а скорее с периодом релаксации перед тестом. Чтобы подтвердить это убеждение, учительница начальной школы провела эксперимент, разделив свой класс из 15 учеников третьего класса на три группы по 5 человек. Учащихся первой группы попросили сделать себе массаж лица самостоятельно; студенты второй группы слушали камерную музыку Моцарта в течение 15 минут; Студенты третьей группы слушали камерную музыку Шуберта в течение 15 минут перед тестом. Оценки 15 учащихся представлены ниже:
G1 = [79, 81, 80, 89, 86]
G2 = [82, 84, 86, 91, 82]
G3 = [80, 81, 71, 90, 86]
Проверьте, используя F-критерий ANOVA с уровнем значимости 10%, предоставляют ли данные достаточные доказательства, чтобы сделать вывод, что какой-либо из трех методов релаксации работает лучше, чем другие.
Задача 11.2
Цех предприятия выпускает гвозди длина которых должна быть быть 10,00 см. Из-за неточностей производственного процесса каждый произведенный гвоздь может иметь отклонения длины, при этом эти отклонения распределены по нормальному закону с неизвестным средним значением μ и неизвестным стандартным отклонением σ. Для контроля качества была проверена выборка из 120 гвоздей. В выборке среднее значение составляло 10,08 см, а стандартное отклонение - 0,40 см.
- Вычислите 95% и 99% доверительные интервалы для неизвестного среднего.
- Рассчитайте p-значение для проверки гипотезы с нулевой гипотезой μ = 10.00 по сравнению с альтернативной гипотезой \(\mu \neq 10.00\).
- Используя p-значение из (b), определите, принимается или отвергается нулевая гипотеза при уровень значимости α = 0,05.
- Используя значение p из (b), определите, принимается или отвергается нулевая гипотеза при уровень значимости α = 0,01.
Задание 12
Задача 12.1
Прецизионные весовые устройства чувствительны к условиям окружающей среды. Температура и влажность в лабораторном помещении, где установлено такое устройство, жестко контролируются для обеспечения высокой точности взвешивания. Утверждается, что недавно разработанное весовое устройство более устойчиво к небольшим колебаниям температуры и влажности. Чтобы подтвердить такое утверждение, лаборатория тестирует новое устройство при четырех настройках температурно-влажностного режима. Во-первых, выделяют два уровня высокой и низкой температуры и два уровня высокой и низкой влажности. Пусть T обозначает температуру, а H — влажность. Четыре экспериментальных параметра определены и отмечены как (T, H): (высокий, высокий), (высокий, низкий), (низкий, высокий) и (низкий, низкий). Предварительно калиброванный эталонный груз массой 1 кг взвешивался новым прибором четыре раза в каждой установке. Результаты с точки зрения погрешности (в микрограммах мкг) приведены ниже:
высокий, высокий : -1.5, -6.73, 11.69, -5.72
высокий, низкий : 11.47, 9.28, 5.58, 10.80
низкий, высокий : -14.29, -18.11, -11.16, -10.41
низкий, низкий : 5.54, 10.34, 15.23, -5.69
Протестируйте, используя F-критерий ANOVA с уровнем значимости 1%, предоставляют ли данные достаточные доказательства, чтобы сделать вывод о том, что средние показания веса, полученные с помощью вновь разработанного устройства, изменяются при изменении внешних условий.
Задача 12.2
У четырехсот случайно выбранных работающих взрослых в определенной области страны, включая тех, кто работал дома, спросили, какое расстояние от их дома до места работы. Среднее расстояние составило 5,84 км со стандартным отклонением 2,70 км. Постройте 99% доверительный интервал для среднего расстояния от дома до работы для всех жителей этой области.
Список использованных источников
- F-tests for Equality of Two Variances
- Emory Oxford college. Exercises - Comparing Means 2
- Confidence Interval and Hypothesis Testing: Exercises and Solutions
- MS-A0503 First course in probability and statistics Department of mathematics and systems analysis
- Exercises - One Way Analysis of Variance (ANOVA)
- Chapter: Biostatistics for the Health Sciences: One-Way Analysis of Variance