Гистограмма. Статистическая диаграмма

Самый простой способ построить гистограмму — использовать вставку готовой статистической диаграммы.

Выделяем столбец случайных чисел. Для этого щёлкаем по первой ячейке столбца данных (ячейка B3) и нажимаем комбинацию клавиш Shift + Ctrl + ?. Клавиша Shift при перемещении курсора позволяет выделять ячейки. Комбинация Ctrl + ? перемещает курсор в самую нижнюю заполненную ячейку столбца.

Вставляем график:

Insert — Charts — Insert Statistic Chart — Histogram

Вставка — Диаграммы — Вставить статистическую диаграмму — Гистограмма

Вставка гистограммы

В середине экрана появляется график. Теперь его предстоит правильно расположить и настроить.

Автоматические настройки

Перенесём график на новый лист. Щёлкаем правой кнопкой по графику и вырезаем его (переносим в буфер обмена), выбрав пункт

Cut:

Вырезать

Создаём новый лист, нажав кнопку (+)

New Sheet

Новый лист

в нижней части окна. Вставляем график, нажав правую кнопку мыши и выбрав пункт

Paste

Вставка

В списке

Paste Options

Параметры вставки

Выбираем вариант вставки из буфера

Use Destination Theme

Использовать конечную тему

Вставка графика

Можно поступить проще: вырезать комбинацией клавиш Ctrl + C, вставить комбинацией Ctrl + V.

Итак, мы вставили график на новый лист. Кроме нас, никто не знает, что это такое и откуда оно взялось. Поэтому делаем заголовок.

Гистограмма на новом листе

Теперь настроим оформление и параметры графика.

Щёлкаем левой кнопкой мыши по графику и справа обнаруживаем кнопку [+]

Chart Elements

Элементы диаграммы

Управление элементами графика

Нажимаем на эту кнопку и выбираем нужные элементы оформления. В нашем случае потребуются следующие элементы:

масштаб по осям координат

Axes

Оси

заголовки по осям координат

Axis Titles

Названия осей

общий заголовок графика

Chart Title

Название диаграммы

линии масштабной сетки на поле графика

Gridlines

Сетка

Выбор элементов графика

Отредактируем заголовки по осям: x и n. Установим наклонный жирный шрифт высотой 12 пунктов. Настройки шрифта по-прежнему находятся в разделе

Home — Font

Главная — Шрифт

Настройка заголовков по осям

Настроим количество столбцов в гистограмме. Для этого правой клавишей мыши нажмём на горизонтальную ось графика и выберем

Format Axis

Формат оси

Второй вариант — двойной щелчок по горизонтальной оси.

В правой части окна появится окно настройки оси

Format Axis

Формат оси

По умолчанию используется автоматический выбор параметров группировки данных:

Axis Options — Bins — Automatic

Параметры оси — Интервалы — Авто

Параметры группировки

Английское слово Bin буквально означает «корзина». Переводят его по-разному: «карманы», «корзины», «интервалы». Имеется в виду интервал значений, диапазон значений случайной величины для группировки данных. При построении гистограммы подсчитывается количество попаданий в этот интервал.

Гистограмма — это грубая, экспериментальная оценка формы графика плотности вероятности по реальным данным. Поэтому при настройке гистограммы самое главное — правильно выбрать количество интервалов.

Как подобрать количество интервалов — с этим подходом лучше всего познакомиться на практике. Выбираем вариант

Number of bins

Количество интервалов

Вручную вводим числа. Подбираем подходящее, оптимальное количество. Как влияет выбор количества интервалов на форму гистограммы, показано на следующих трёх рисунках.

Если выбрать слишком мало интервалов, пропадут подробности на графике.

Слишком мало интервалов

Если взять слишком много интервалов, то станут заметными случайные погрешности, и на их фоне потеряется полезная информация.

Слишком много интервалов

Нам нужно найти компромисс: не слишком много и не слишком мало интервалов.

Оптимальное количество интервалов

Настроим оформление графика. В соответствии с отечественными и международными стандартами, столбики на гистограмме должны соприкасаться сторонами, прилегать друг к другу. Это объясняется тем, что при группировке данных интервалы группирования тоже соприкасаются своими границами. На гистограмме границы интервалов превращаются в границы столбиков.

Чтобы установить правильную ширину столбиков, щёлкаем левой кнопкой по столбикам гистограммы и устанавливаем нулевой зазор между столбиками:

Format Data Series — Series Options — Gap Width — 0%

Формат ряда данных — Параметры ряда — Боковой зазор — 0%

Зазор между столбиками

Теперь настроим изображение столбиков. Слишком много закрашенных столбиков на графике отвлекает внимание от графика. Убираем заливку столбиков:

Format Data Series — Series Options — Fill & Line — Fill — No fill

Формат ряда данных — Параметры ряда — Заливка и границы — Заливка — Нет заливки

Очертания столбиков должны изображаться сплошной линией:

Border — Solid Line

Граница — Сплошная линия

Линии должны быть чёрного цвета:

Border — Color — Black

Граница — Цвет — Черный

Установим толщину линий 0,5 пункта:

Border — Width — 0.5 pt

Граница — Ширина — 0,5 пт

Только линии

Наконец, настроим масштаб по горизонтальной оси. Щёлкаем по горихонтальной оси. Выбираем вкладку

Axis Options

Параметры оси

Устанавливаем формат вывода числовых меток на оси:

Format Axis — Axis Options — Number — Category — Number

Decimal places = 0

Формат оси — Параметры оси — Число — Категория — Числовой

Число десятичных знаков = 2

Масштаб

Рассмотрим полученный график. При большой объёме выборки отдельные редкие значения появляются очень далеко от среднего значения — гораздо дальше, чем три сигмы. Чтобы собрать редкие удалённые значения в крайние интервалы, используем дополнительные настройки оси:

Format Axis — Axis Options — Underflow bin / Overflow bin

Формат оси — Параметры оси — Выход за нижнюю / верхнюю границу интервала

Выход за границы

После группировки крайних значений получаем два крайних интервала: «меньше 189» и «больше 311». При необходимости корректируем общее число интервалов.

Следующая особенность нашего графика — это форма скобок: круглая скобка для нижней границы и квадратная скобка для верхней границы интервала:

(250, 254]

Это означает, что нижняя граница не входит в интервал значений, то есть не учитывается при подсчёте количества попаданий случайных чисел в данный интервал. Аналогично работают остальные функции Excel, которые выполняют группировку данных. Отметим, что такой подсчёт частот полностью соответствует основным положениям теории вероятностей.

И последнее, что можно отметить в полученной гистограмме: высота столбиков соответствует количеству попаданий в интервал, что в статистике называется термином ЧАСТОТА или АБСОЛЮТНАЯ ЧАСТОТА. Для анализа гистограммы более информативным будет ОТНОСИТЕЛЬНАЯ ЧАСТОТА (в процентах). И такая возможность отсутствует в текущей версии встроенной статистической диаграммы.

Самое главное — графический интерфейс позволяет ознакомиться с инструментом и в диалоге, на ходу выбрать количество интервалов группировки. Эту настройку мы будем использовать при построении гистограммы с помощью других инструментов пакета.

Повторите все описанные выше шаги для выборки с равномерным распределением. Здесь и далее мы проводим свой анализ для обоих наборов исходных данных — с нормальным и с равномерным распределением.