Показатели. Надстройка
Самый простой способ оценить статистические показатели — это вызвать готовую процедуру с помощью надстройки анализа данных.
Создаём новый лист и вызываем надстройку.
Data — Analysis — Data Analysis — Descriptive Statistics
Данные — Анализ — Анализ данных — Описательная статистика
Вызов модуля описательной статистики
В диалоговом окне
Descriptive Statistics
Описательная статистика
укажем расположение исходных данных и некоторе настройки, необходимые для проведения анализа.
В разделе
Input
Входные данные
указываем диапазон ячеек с исходными данными:
Input Range
Входной интервал
Указываем, что данные расположены по столбцам, а не по строкам
Grouped by Columns
Расположение данных в столбцах
Отмечаем пункт
Labels in First Row
Метки в первой строке
Это означает, что в первой ячейаке столбца указано имя переменной. Оно будет выводиться в итоговой таблице статистических показателей.
Теперь настроим раздел
Output options
Параметры вывода
Указываем, куда выводить результаты анализа:
Output Range
Выходной интервал
Щёлкаем ячейку на новом листе.
Отмечаем пункт
Summary Statistics
Итоговая статистика
Нас интересует вычисление статистических показателей. Есть и другие, более продвинутые варианты анализа — мы их пока не рассматриваем.
Нажимаем ОК и получаем итоговую таблицу. Настраиваем ширину столбцов.
Статистические показатели
Теперь нужно разобраться, что находится в таблице. Для начала приведём более-менее грамотные названия показателей на русском языке.
Нам предстоит сравнить показатели, вычисленные разными способами. Для этого скопируем полученную таблицу на новый лист. Добавим столбец русских названий показателей.
Названия показателей
Теперь вставим столбец теоретических значений. У нас есть вариант задания с теоретическими значениями параметров распределения. В нашем примере мы разбираем нулевой вариант задания. Так что мы можем оценить некоторые показатели исходя из теоретических свойств нормального распределения.
Mean (Среднее значение) — среднее арифметическое исходных значений — см. формулу.
Расчётные формулы
Для нашего варианта среднее задано равным 250.
Standard Error (Стандартная ошибка) — погрешность оценки среднего значения по выборке. В данной работе не используем.
Sample Variance (Выборочная дисперсия) — рассчитывается по формуле «деление на n — 1» — см. формулу.
Для нашего варианта дисперсия равна квадрату «сигмы»:
D = 400
Standard Deviation (Стандартное отклонение) — показатель разброса вокруг среднего значения. Определяется как квадратный корень из дисперсии. Другие названия: «сигма», среднее квадратическое отклонение (с.к.о.) — см. формулу.
Для нашего варианта сигма задана равной 20.
Kurtosis (Эксцесс) — характеристика «островершинности» распределения. Показывает, насколько острой или плоской является вершины кривой распределения.
Для нормального распределения эксцесс равен
Е = 1
Skewness (Асимметрия) — показатель несимметричности кривой распределения.
Для нормального распределения асимметрия равна
А = 0
Range (Размах вариации) — диапазон значений от минимального до максимального значений, разность максимального и минимального значений:
R = max (x) — min (x)
Minimum (Минимальное значение)
Maximum (Максимальное значение)
Возможный разброс значений оценим по «правилу трёх сигм»: среднее плюс-минус три сигмы:
min = 250 — 3*20 = 190
max = 250 +3*20 = 310
Range (Размах)
R = max — min = 310 — 190 = 120
Sum (Сумма значений)
В нашем варианте сумма значений теоретически должна быть равна произведению среднего на объём выборки — см. формулу.
Чтобы понять, почему именно так, — вспомните формулу для вычисления среднего арифметического.
Count (Количество значений)
объём выборки n.