Тест хі-квадрат у R
The тест хі-квадрат Незалежність оцінює, чи існує зв'язок між категоріями двох змінних. В основному існує два типи випадкових величин, і вони дають два типи даних: числові та категоричні. в Мова програмування R Статистика хі-квадрат використовується для дослідження того, чи відрізняються розподіли категоріальних змінних один від одного. Тест хі-квадрат також корисний під час порівняння підрахунків або кількості категоричних відповідей між двома (чи більше) незалежними групами.
У мові програмування R функція, яка використовується для виконання тесту хі-квадрат chisq.test()> .
Синтаксис:
chisq.test(дані)
Параметри:
даних : дані — це таблиця, що містить лічильні значення змінних у таблиці.
Ми візьмемо дані опитування в MASS> бібліотека, яка представляє дані опитування, проведеного серед студентів.
Р
# load the MASS package> library> (MASS)> print> (> str> (survey))> |
Вихід:
'data.frame': 237 obs. of 12 variables: $ Sex : Factor w/ 2 levels 'Female','Male': 1 2 2 2 2 1 2 1 2 2 ... $ Wr.Hnd: num 18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ... $ NW.Hnd: num 18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ... $ W.Hnd : Factor w/ 2 levels 'Left','Right': 2 1 2 2 2 2 2 2 2 2 ... $ Fold : Factor w/ 3 levels 'L on R','Neither',..: 3 3 1 3 2 1 1 3 3 3 ... $ Pulse : int 92 104 87 NA 35 64 83 74 72 90 ... $ Clap : Factor w/ 3 levels 'Left','Neither',..: 1 1 2 2 3 3 3 3 3 3 ... $ Exer : Factor w/ 3 levels 'Freq','None',..: 3 2 2 2 3 3 1 1 3 3 ... $ Smoke : Factor w/ 4 levels 'Heavy','Never',..: 2 4 3 2 2 2 2 2 2 2 ... $ Height: num 173 178 NA 160 165 ... $ M.I : Factor w/ 2 levels 'Imperial','Metric': 2 1 NA 2 2 1 1 2 2 2 ... $ Age : num 18.2 17.6 16.9 20.3 23.7 ... NULL
Наведений вище результат показує, що набір даних має багато факторних змінних, які можна вважати категоріальними змінними. Для нашої моделі ми розглянемо змінні Exer і дим .У стовпці «Дим» відображаються звички куріння студентів, тоді як у стовпчику «Ексер» вказується рівень фізичних вправ. Наша мета полягає в тому, щоб перевірити гіпотезу про те, чи звичка куріння студентів не залежить від рівня їхньої фізичної активності на рівні значущості 0,05.
Р
# Create a data frame from the main data set.> stu_data => data.frame> (survey$Smoke,survey$Exer)> # Create a contingency table with the needed variables.> stu_data => table> (survey$Smoke,survey$Exer)> > print> (stu_data)> |
Вихід:
Freq None Some Heavy 7 1 3 Never 87 18 84 Occas 12 3 4 Regul 9 1 7
І нарешті ми застосовуємо chisq.test()> функцію до таблиці непередбачених обставин stu_data.
Р
# applying chisq.test() function> print> (> chisq.test> (stu_data))> |
Вихід:
Pearson's Chi-squared test data: stu_data X-squared = 5.4885, df = 6, p-value = 0.4828
Оскільки p-значення 0,4828 більше, ніж 0,05, ми робимо висновок, що звичка палити не залежить від рівня фізичних навантажень учня, і, отже, між двома змінними існує слабка або відсутня кореляція. Повний код R наведено нижче.
Отже, підводячи підсумок, можна сказати, що дуже легко виконати тест хі-квадрат за допомогою R. Це завдання можна виконати за допомогою chisq.test()> функція в R.
Візуалізуйте дані тесту хі-квадрат
Р
# Load required library> library> (MASS)> # Print structure of the survey dataset> print> (> str> (survey))> # Create a data frame for smoking and exercise columns> stu_data <-> data.frame> (survey$Smoke, survey$Exer)> stu_data <-> table> (survey$Smoke, survey$Exer)> # Print the table> print> (stu_data)> # Perform the Chi-Square Test> chi_result <-> chisq.test> (stu_data)> print> (chi_result)> # Visualize the data with a bar plot> barplot> (stu_data, beside => TRUE> , col => c> (> 'lightblue'> ,> 'lightgreen'> ),> > main => 'Smoking Habits vs Exercise Levels'> ,> > xlab => 'Exercise Level'> , ylab => 'Number of Students'> )> # Add legend separately> legend> (> 'center'> , legend => rownames> (stu_data), fill => c> (> 'lightblue'> ,> 'lightgreen'> ))> |
Вихід:
Тест хі-квадрат у R
У цьому коді ми використовуємо MASS> бібліотеці для проведення тесту хі-квадрат на наборі даних «опитування», зосереджуючись на зв’язку між звичками куріння та рівнем фізичних вправ.
Він створює таблицю непередбачених обставин, виконує статистичний тест і візуалізує дані за допомогою стовпчастої діаграми. Легенда додається окремо у верхньому лівому куті, розрізняючи різні звички куріння різними кольорами.
Код має на меті дослідити та повідомити про зв’язки між поведінкою куріння та фізичними вправами в наборі даних.