Анализ данных в программе Statgraphics. Параметрические, непараметрические и номинальные методами анализа данных.


министерство образования и науки российской федерации
Владивостокский государственный университет
экономики и сервиса
КАФЕДРА ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И СИСТЕМ
Задания
для контрольных работ студентов недневных форм обучения по дисциплине
«Инструментальные средства анализа и обработки данных»
Преподаватель (составитель) к.биолог.н., доцент М.З. ЕрмолицкаяВладивосток 2016
Задания по дисциплине «Инструментальные средства анализа и обработки данных» для студентов дистанционной формы обучения
Для получения зачета по дисциплине необходимо написать реферат по одной из заданных тем, а также выполнить с помощью программы R-Studio десять представленных ниже заданий.
Скачать программу R-Studio можно на официальном сайте: http://www.r-project.org
Темы рефератов
Информационные ресурсы как источники информации.
Программные средства анализа данных
Инструментарий решения функциональной задачи обработки данных в Excel
Общие принципы работы в СУБД Microsoft AccessПредставление и обработка данных в программе Statistica.
Обработка и анализ данных в программе R-studio
Анализ данных в программе StatgraphicsПараметрические, непараметрические и номинальные методами анализа данных
Корреляционный анализ
Регрессионный анализ
Кластерный анализ
Факторный анализ
Анализ главных компонент
Дискриминантный анализ

Задание 1
Создание объектов для хранения данных в R-Studio
Вектор
Создайте вектор S1 со значениями от 1 до 10 с помощью следующих функций:
- с();
- scan();
- seq().
1.2 C помощью дополнительного аргумента функции seq() создайте вектор S2 со значениями от 1 до 10 с шагом приращения 0,5.
1.3 Объедините векторы S1 и S2 в вектор S.
1.4 Выведите на экран 3, 4 и 5 значения вектора S.
1.5 Выберите только первое и четвертое значения вектора S.
2. Таблица
2.1 Создайте текстовые векторы с названиями городов (Сity) и пола (Sex), а также вектор со значениями численности представителей каждого пола (Number):
city <- c("City1", "City1", "City2", "City2", "City3", "City3")
sex <- c("Male", "Female", "Male", "Female", "Male", "Female")
number <- c(12450, 10345, 5670, 5800, 25129, 26000).
2.2 Теперь объедините эти три вектора в одну таблицу данных CITY с заголовками столбцов (Сity, Sex и Number) с помощью функции data.frame.
2.3 Для визуального просмотра содержимого таблицы CITY используйте функцию str().
2.4 При помощи команды names() выведите имена переменных, входящих в таблицу данных CITY.
2.5 Извлеките элементы 1-3 из столбца Number таблицы CITY.
2.6 Извлеките все значения численности населения таблицы CITY, превышающие 10000.
2.7 Извлеките все значения численности мужского населения таблицы CITY.
2.8 Для просмотра трех первых и двух последних значений каждой переменной, входящей в состав таблицы данных CITY используйте функции head() и tail() соответственно.
3. Матрица
3.1 С помощью функции dim(x) создайте матрицу размерности 2×8.
3.2 Теперь с помощью функции matrix() создайте числовую матрицу размерности 4×6.
3.3 Транспонируйте матрицу.
3.4 Вычислите определитель матрицы.
4. Массив
4.1 Используя функцию array() создайте массив данных M из 24 элементов.
4.2 Проверьте с помощью функции is.array(x), является ли M массивом.
5. Список
5.1 С помощью функции list() cоздайте список L1, состоящий из чисел от 1 до 5 и значений (TRUE, FALSE), повторяющихся три раза.
5.2 Присвойте имена элементам списка L1 (integers, booleans) с помощью функции names().
6. Фактор
6.1 Создайте вектор из 6-ти объектов, каждый из которых принадлежит одному из трех классов: Yes, No, Parhaps. Преобразуйте его в фактор.
7.Фрейм
7.1 Воспользуйтесь функцией data.frame() для создания фрейма данных F1 из следующих элементов:
b = c("a", "b", "c", "a")
d = (1:4 %% 2 == 0)
e = factor (c("soft", "hard", "soft", "medium")).
Задание 2
Вероятностные распределения
Биномиальное распределение
Пример 1. Пусть проводится 10 испытаний Бернули, вероятность «успеха» в каждом из них - 0,5. Найдите вероятность Р{ξ=k} получить ровно k «успехов» (k=0:10) в 10 испытаниях.
Выведите значения функции распределения и квантили.
Пуассоновское распределение.
Пример 2. Найдите P{ ξ<150, ξ>250}=1-P{150<= ξ<=250}, Pois(λ=100). Первый способ – через функцию распределения, второй – через сумму вероятностей.
Гипергеометрическое распределение.
Пример 3. Имеется урна, в которой находится 20 шаров: 6 белых и 14 красных. Из урны без возвращения вынимают 6 шаров. Постройте распределение случайной величины ξ – число вынутых белых шаров.
Полиномиальное распределение
Пример 4. Постройте случайную выборку размером 10, подчиняющуюся полиномиальному распределению, когда имеется 12 предметов, каждый из которых может обладать одним из трех свойств: 0.1, 0.2, 0.7.
Распределение Хи-квадрат
Пример 5. Постройте случайную несмещенную выборку: n=24, df=1.
Нормальное распределение
Пример 6. Постройте случайную выборку x1, подчиняющуюся стандартному нормальному распределению. n=10.
Пример 7. Сгенерируйте два вектора длины n=100 , элементами которых являются реализации нормально распределенной случайной величины c параметрами: a) mean=1, sd=3; б) mean=-1, sd=2. Постройте графики функций и плотностей распределения.
Равномерное распределение
Пример 8. Постройте случайную выборку u, подчиняющуюся равномерному на отрезке [0;1] распределению. n=20.
Распределение Стьюдента
Пример 9. Постройте случайные выборки, подчиняющиеся распределению Стьюдента: x=seq(-5,5,by=0.01), df=1 и df=5. Постройте графики функций и плотностей распределения.
Задание 3
Рассмотрим динамику изменения оценок по теории вероятностей и математической статистике за последние два года: оценки по стобалльной, по пятибалльной и по европейской (буквенной) системам.
Имеются два массива данных: год1 и год2, длиной 52 и 61 соответственно.год1<-c(83,70,86,51,61,67,80,84,70,64,83,55,88,75,61,70,95,52,75,92,86,89,83,58,51,65,87,54, 90,62, 67,66,83,65,70,87,69,51,51,60,52,74,80,79,85,85,92,22,92,57,84,92)
год2<-c(70,31,70,46,78,69,36,33,65,70,74,51,90,26,62,70,86,86,80,33,55,31,69,31,62, 63, 86,
55,69,62,31,90,31,31,69,64,57,75,53,89,0,31,81,53,86,52,98,58,31,69,69,51,75,39,0,56,51,69,46,41,65)
Выделим следующие категории:
• по пятибалльной системе: 2 — баллы от 0 до 50, 3 — от 51 до 68, 4 —от 69 до 85 и 5 — от 86 до 100;
• по европейской системе: F — от 0 до 30, FX — от 31 до 50, E — от 51до 60, D — от 61 до 68, C — от 69 до 85 , B — от 86 до 95, A — от 96до 100.
Воспользуйтесь функцией cut() для построения первого вектора данных (разбиение1_1) по пятибалльной системе и построения второго вектора (разбиение1_2) по европейской системе с подписями категорий для массива данных год1.
Таким же образом создайте вектор данных (разбиение2_1) по пятибалльной системе и вектор данных (разбиение2_2) по европейской системе с подписями категорий для массива данных год2.
Определите число элементов, попавших в построенные категории для пятибалльной системы оценок:
a) создайте таблицу (таблица1_1) для подсчета частоты каждой категории оценок вектора разбиение1_1;
б) создайте таблицу (таблица2_1) для подсчета частоты каждой категории оценок вектора разбиение2_1.
Определите число элементов, попавших в построенные категории для европейской системы оценок:
а) создайте таблицу (таблица1_2) для подсчета частоты каждой категории оценки вектора разбиение1_2;
б) создайте таблицу (таблица2_2) для подсчета частоты каждой категории (оценки) вектора разбиение2_2.
Для каждого разбиения постройте таблицы относительных частот следующим образом:
> table(разбиение1_1)/length(разбиение1_1)
Постройте мозаичные диаграммы по созданным четырем таблицам таблица1_1 таблица2_2 с помощью функции barplot(), т.е. когда height — числовой вектор. При этом, разделите окно графика на 4 части (par(mfrow=c(2,2)).
Создайте матрицу (матрица1), объединив таблица1_1 и таблица2_1 используя функцию cbind().
Создайте матрицу (матрица1), объединив таблица1_2 и таблица2_2 используя функцию cbind().
Постройте мозаичные диаграммы по созданным матрицам (матрица1 и матрица2) с помощью функции barplot(), когда height — числовая матрицаи beside = FALSE.
Постройте круговые диаграммы для таблиц таблица1_1 —таблица2_2, используя функцию pie(), и разбив окно графика на 4 элемента (par(mfrow=c(2,2)).
Задание 4
Постройте случайную нормально распределенную выборку х1 с параметрами:
n = 100, mean=3, sd=2.
Найдите её выборочные среднее, стандартное отклонение и дисперсию.
Постройте вектор случайных значений х2, подчиняющихся биноминальному закону распределения, с параметрами 500, 10, 0.5.
Найдите характеристики вектора x2 при помощи функции summary().
По выборке x2 постройте эмпирическую функцию распределения.
Постройте график эмпирической функции распределения и гистограмму.
Вычислите коэффициенты корреляции(для x=x2, y=x2) и ковариации для выборки x2.
Теперь разбейте выборку x2 на пять частей (как будто у нас 5 выборок) и представьте результат в виде матрицы x3.
Постройте матрицу ковариаций для x3.
Преобразуйте ковариационную матрицу в матрицу корреляций.
Задание 5
Открыть таблицу данных trees из библиотеки datasets, содержащую замеры диаметра, высоты и объема вишневых деревьев.
Выведите имена столбцов таблицы trees.
С помощью теста Шапиро-Уилкса проверьте на нормальность каждый столбец таблицы. Сделайте выводы.
Откройте фрейм данных randu из библиотеки datasets, содержащий 400 троек псевдослучайных чисел из интервала [1;0]. Значения записаны в матрицу с тремя столбцами, называемыми именами x, y, z.
С помощью двувыборочного теста Колмогорова-Смирнова проверьте гипотезы о том, что x, y, z принадлежат одному и тому же непрерывному распределению. Объясните полученные результаты.
С помощью критерия согласия Пирсона проверьте гипотезы о независимости x, y, z. Сделайте выводы.
Откройте таблицу данных HairEyeColor из библиотеки datasets, содержащую информацию о поле, цвете волос и глаз у 592 студентов.
Проверьте гипотезу о том, что для мужчин цвет глаз не зависит от цвета волос. Для этого сначала постройте таблицу сопряженных признаков по данным для мужчин (male). Затем, с помощью критерия согласия Пирсона проверьте гипотезу. Сделайте вывод.
Проведите аналогичное исследование для женщин (female). Проанализируйте полученные результаты.
Постройте мозаичные диаграммы зависимости цвета волос и глаз для мужчин и для женщин (по таблицам сопряженных признаков male и female) с помощью функции mosaicplot().
Задание 6
Открыть таблицу данных trees из библиотеки datasets, содержащую замеры диаметра, высоты и объема вишневых деревьев.
Выведите имена столбцов таблицы trees.
Постройте корреляционную матрицу (с коэффициентами корреляции Пирсона) по таблице trees.
С помощью полученных коэффициентов корреляции определите, между какими переменными существует линейная зависимость (сильная или слабая, прямая или обратная).
Постройте графики зависимостей. Для этого разбейте окно графика на три части (функция par()), и в каждой части создайте график зависимости.
Проведите регрессионный анализ для определения существования линейной зависимости между объемом вишневых деревьев (y) и диаметром (x1) c высотой (x2).
Запишите уравнение зависимости с полученными коэффициентами регрессии.
Выведите график зависимости.
Чему равен полученный коэффициент детерминации? Поясните смысл полученного численного значения.
Проведите анализ остатков для проверки адекватности построенной регрессионной модели.
Сделайте вывод по результатам проведенного регрессионного анализа.
Задание 7
Создайте фрейм данных из N=20 записей со следующими полями: Nrow – номер записи, Name – имя сотрудника, BirthYear – год рождения, EmployYear – год приема на работу, Salary – зарплата.
Заполните данный фрейм данными следующим образом:
- Nrow - изменяется от 1 до N;
- Name - задается произвольно;
- BirthYear - распределен равномерно (случайно) на отрезке [1960, 1985];
- EmployYear - распределен равномерно на отрезке [BirthYear+18,2006];
- Salary
- для работников младше 1975 г.р. определяется по формуле:
Salary=(log(2007- EmployYear)+1)*8000, для остальных
Salary=(log2(2007- EmployYear)+1)*8000.
Подсчитайте число сотрудников с зарплатой, больше 15000.
Добавьте в таблицу поле, соответствующее суммарному подоходному налогу (ставка 13%), выплаченному сотрудником за время работы в организации, если его зарплата за каждый год начислялась согласно формулам для Salary, где вместо 2007 следует последовательно подставить каждый год работы сотрудника в организации.
Задание 8
В примере формируется набор данных, включающий 20 значений признака (вектор weight, по 10 значений для каждого из двух уровней фактора и вектор значений фактора group), строится модель зависимости признака от фактора, и выполняется дисперсионный анализ.
Создайте вектора:
ctl <-c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14)
trt <-c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69)
Объедините вектора ctl и trl в вектор weight.
Создать вектор значений фактора (group) с помощью функции gl: вектор состоит из двух факторов по 10 элементов каждый, длина вектора – 20, имена факторов – “Ctl”, “Trt”.
Постройте график «ящик с усами» (или боксплот) для вектора weight по факторам group.
Постройте регрессионную модель зависимости признака weight от фактора group.
Проверьте адекватность построенной регрессионной модели.
Выполните однофакторный дисперсионный анализ для проверки влияния фактора на исследуемый признак.
Опишите полученные результаты.
Задание 9
Пример из области финансовых рынков. Допустим, у нас есть акции большого количества разных компаний. Одни из них растут, другие падают, и мы накопили большую историю изменения их цен. Можно ли на основе этих данных объединить акции в группы? Логично было бы предположить, что акции из одного сектора рынка растут или падают вместе. И было бы логично, если полученные группы это как-то отразили.
Используем данные котировки примерно 20 российских компаний из разных областей, за два года с периодом 1 день. Проанализировать их средствами кластерного анализа.
Загрузите данные в программу RStudio: https://raw.githubusercontent.com/Edunov/Samples/master/stocks.csv.
Так как, цены разных акций отличаются очень сильно, и абсолютная величина цены совершенно не интересна, а интересно относительное изменение, приведем все цены к общему знаменателю: а именно, вместо самой цены будем считать логарифмическое изменение цены (т.е. прологарифмируйте все исходные данные).
Отбросьте колонку с датой (первая колонка).
Рассчитайте разницу между последовательными элементами с помощью функции apply(): apply(stocks, 2, diff)
Транспонируйте полученную таблицу.
Постройте дендрограмму. Определите по ней на сколько кластеров целесообразно разбить имеющиеся данные.
С помощью функции kmeans() разбейте данные на выделенное вами число классов с количеством итераций 1000000.
Интерпретируйте полученный результат.

Задание 10
Cоздайте нормально распределенную совокупность X из 100 наблюдений со средним значением 15 и стандартным отклонением 5.
Изобразите значения переменной X в виде гистограммы с двадцатью столбцами, с отражением по оси ординат плотности вероятности каждого класса и закрасьте голубым цветом. Подпишите ось абсцисс – «Переменная Х», ось ординат – «Плотность вероятности». Введите заголовок – «Гистограмма, совмещенная с кривой плотности».
Добавьте к гистограмме кривую плотности распределения переменной Х красного цвета, толщиной - 2.
Создайте четыре выборки:
x1<-c(3.5, 3.6, 7.8, 9.6, 5.7, 8.9, 6.3)
x2<-c(1.0, 2.7, 8.9, 6.5, 8.9, 6.5,12.5,10.2, 1.2)
x3<-c(3.6,7.8,9.6,5.7,8.9)x4<-c(2.7,8.9,6.5,8.9)
С помощью критерия Бартлетта проверьте гипотезу об однородности дисперсий всех выборок. Сделайте вывод.
Предположим, что выборки х1 и х2, а также х3 и х4 независимы. Используя t-тест проверьте гипотезы о равенстве средних значений этих выборок. Проанализируйте полученные результаты.
Постройте с помощью функции plot() графическое отображение распределения всех выборок на одном графике с легендой (каждую кривую отобразить своим цветом).
С помощью функции par() разбейте графическое окно R на четыре части.
Постройте круговые диаграммы для всех выборок с отображением числовых значений.

Приложенные файлы

  • docx 4394335
    Размер файла: 33 kB Загрузок: 0

Добавить комментарий