Гистограмма. Статистическая диаграмма
Самый простой способ построить гистограмму — использовать вставку готовой статистической диаграммы.
Выделяем столбец случайных чисел. Для этого щёлкаем по первой ячейке столбца данных (ячейка B3) и нажимаем комбинацию клавиш Shift + Ctrl + ?. Клавиша Shift при перемещении курсора позволяет выделять ячейки. Комбинация Ctrl + ? перемещает курсор в самую нижнюю заполненную ячейку столбца.
Вставляем график:
Insert — Charts — Insert Statistic Chart — Histogram
Вставка — Диаграммы — Вставить статистическую диаграмму — Гистограмма
Вставка гистограммы
В середине экрана появляется график. Теперь его предстоит правильно расположить и настроить.
Автоматические настройки
Перенесём график на новый лист. Щёлкаем правой кнопкой по графику и вырезаем его (переносим в буфер обмена), выбрав пункт
Cut:
Вырезать
Создаём новый лист, нажав кнопку (+)
New Sheet
Новый лист
в нижней части окна. Вставляем график, нажав правую кнопку мыши и выбрав пункт
Paste
Вставка
В списке
Paste Options
Параметры вставки
Выбираем вариант вставки из буфера
Use Destination Theme
Использовать конечную тему
Вставка графика
Можно поступить проще: вырезать комбинацией клавиш Ctrl + C, вставить комбинацией Ctrl + V.
Итак, мы вставили график на новый лист. Кроме нас, никто не знает, что это такое и откуда оно взялось. Поэтому делаем заголовок.
Гистограмма на новом листе
Теперь настроим оформление и параметры графика.
Щёлкаем левой кнопкой мыши по графику и справа обнаруживаем кнопку [+]
Chart Elements
Элементы диаграммы
Управление элементами графика
Нажимаем на эту кнопку и выбираем нужные элементы оформления. В нашем случае потребуются следующие элементы:
масштаб по осям координат
Axes
Оси
заголовки по осям координат
Axis Titles
Названия осей
общий заголовок графика
Chart Title
Название диаграммы
линии масштабной сетки на поле графика
Gridlines
Сетка
Выбор элементов графика
Отредактируем заголовки по осям: x и n. Установим наклонный жирный шрифт высотой 12 пунктов. Настройки шрифта по-прежнему находятся в разделе
Home — Font
Главная — Шрифт
Настройка заголовков по осям
Настроим количество столбцов в гистограмме. Для этого правой клавишей мыши нажмём на горизонтальную ось графика и выберем
Format Axis
Формат оси
Второй вариант — двойной щелчок по горизонтальной оси.
В правой части окна появится окно настройки оси
Format Axis
Формат оси
По умолчанию используется автоматический выбор параметров группировки данных:
Axis Options — Bins — Automatic
Параметры оси — Интервалы — Авто
Параметры группировки
Английское слово Bin буквально означает «корзина». Переводят его по-разному: «карманы», «корзины», «интервалы». Имеется в виду интервал значений, диапазон значений случайной величины для группировки данных. При построении гистограммы подсчитывается количество попаданий в этот интервал.
Гистограмма — это грубая, экспериментальная оценка формы графика плотности вероятности по реальным данным. Поэтому при настройке гистограммы самое главное — правильно выбрать количество интервалов.
Как подобрать количество интервалов — с этим подходом лучше всего познакомиться на практике. Выбираем вариант
Number of bins
Количество интервалов
Вручную вводим числа. Подбираем подходящее, оптимальное количество. Как влияет выбор количества интервалов на форму гистограммы, показано на следующих трёх рисунках.
Если выбрать слишком мало интервалов, пропадут подробности на графике.
Слишком мало интервалов
Если взять слишком много интервалов, то станут заметными случайные погрешности, и на их фоне потеряется полезная информация.
Слишком много интервалов
Нам нужно найти компромисс: не слишком много и не слишком мало интервалов.
Оптимальное количество интервалов
Настроим оформление графика. В соответствии с отечественными и международными стандартами, столбики на гистограмме должны соприкасаться сторонами, прилегать друг к другу. Это объясняется тем, что при группировке данных интервалы группирования тоже соприкасаются своими границами. На гистограмме границы интервалов превращаются в границы столбиков.
Чтобы установить правильную ширину столбиков, щёлкаем левой кнопкой по столбикам гистограммы и устанавливаем нулевой зазор между столбиками:
Format Data Series — Series Options — Gap Width — 0%
Формат ряда данных — Параметры ряда — Боковой зазор — 0%
Зазор между столбиками
Теперь настроим изображение столбиков. Слишком много закрашенных столбиков на графике отвлекает внимание от графика. Убираем заливку столбиков:
Format Data Series — Series Options — Fill & Line — Fill — No fill
Формат ряда данных — Параметры ряда — Заливка и границы — Заливка — Нет заливки
Очертания столбиков должны изображаться сплошной линией:
Border — Solid Line
Граница — Сплошная линия
Линии должны быть чёрного цвета:
Border — Color — Black
Граница — Цвет — Черный
Установим толщину линий 0,5 пункта:
Border — Width — 0.5 pt
Граница — Ширина — 0,5 пт
Только линии
Наконец, настроим масштаб по горизонтальной оси. Щёлкаем по горихонтальной оси. Выбираем вкладку
Axis Options
Параметры оси
Устанавливаем формат вывода числовых меток на оси:
Format Axis — Axis Options — Number — Category — Number
Decimal places = 0
Формат оси — Параметры оси — Число — Категория — Числовой
Число десятичных знаков = 2
Масштаб
Рассмотрим полученный график. При большой объёме выборки отдельные редкие значения появляются очень далеко от среднего значения — гораздо дальше, чем три сигмы. Чтобы собрать редкие удалённые значения в крайние интервалы, используем дополнительные настройки оси:
Format Axis — Axis Options — Underflow bin / Overflow bin
Формат оси — Параметры оси — Выход за нижнюю / верхнюю границу интервала
Выход за границы
После группировки крайних значений получаем два крайних интервала: «меньше 189» и «больше 311». При необходимости корректируем общее число интервалов.
Следующая особенность нашего графика — это форма скобок: круглая скобка для нижней границы и квадратная скобка для верхней границы интервала:
(250, 254]
Это означает, что нижняя граница не входит в интервал значений, то есть не учитывается при подсчёте количества попаданий случайных чисел в данный интервал. Аналогично работают остальные функции Excel, которые выполняют группировку данных. Отметим, что такой подсчёт частот полностью соответствует основным положениям теории вероятностей.
И последнее, что можно отметить в полученной гистограмме: высота столбиков соответствует количеству попаданий в интервал, что в статистике называется термином ЧАСТОТА или АБСОЛЮТНАЯ ЧАСТОТА. Для анализа гистограммы более информативным будет ОТНОСИТЕЛЬНАЯ ЧАСТОТА (в процентах). И такая возможность отсутствует в текущей версии встроенной статистической диаграммы.
Самое главное — графический интерфейс позволяет ознакомиться с инструментом и в диалоге, на ходу выбрать количество интервалов группировки. Эту настройку мы будем использовать при построении гистограммы с помощью других инструментов пакета.
Повторите все описанные выше шаги для выборки с равномерным распределением. Здесь и далее мы проводим свой анализ для обоих наборов исходных данных — с нормальным и с равномерным распределением.