Гистограмма. Надстройка

Второй способ построения гистограммы — функция надстройки

Histogram

Гистограмма

Вызываем эту функцию через верхнее меню:

Data — Analysis — Data Analysis — Histogram

Данные — Анализ — Анализ данных — Гистограмма

Параметры гистограммы

Появляется диалоговое окно

Histogram

Гистограмма

Надстройка требует, чтобы мы сами подготовили столбец чисел, которые станут границами интервалов группировки.

Input — Bin Range

Входные данные — Интервал карманов

На этот раз интервалы группировки названы КАРМАНАМИ. Причём имеются в виду только ВЕРХНИЕ (ПРАВЫЕ) ГРАНИЦЫ этих интервалов. В роли нижней границы интервала выступает верхняя граница предыдущего интервала. Эта часть интерфейса была разработа гораздо раньше встроенной статистической диаграммы и, скорее всего, другими людьми. Такой же подход к заданию границ интервалов встретится нам и при вызове статистической функции группировки.

Закрываем окно параметров гистограммы.

Нам нужно вручную сформировать столбец ВЕРХНИХ (ПРАВЫХ) ГРАНИЦ интервалов группирования. Возьмём постоянную длину интервала. Попробуем длину, равную 5. Судя по предыдущему графику и по нашим предварительным оценкам, нас будет интересовать диапазон значений от 190 до 310. Сформируем два столбца, чтобы легче было работать с нижними и верхними границами интервалов.

Сделаем заготовку таблицы для границ интервалов. Первый интервал от 190 до 195, второй — от 195 до 200.

Заготовка границ

Выделяем две строки таблицы и перетаскиваем маркер заполнения, то есть «растягиваем» таблицу вниз. Удаляем лишние ячейки.

Границы интервалов

Снова вызываем гистограмму в надстройке

Data — Analysis — Data Analysis — Histogram

Данные — Анализ — Анализ данных — Гистограмма

Появляется диалоговое окно

Histogram

Гистограмма

Выбираем диапазон ячеек, где находятся наши исходные данные:

Input — Input Range

Входные данные — Входной интервал

Нажимаем кнопку выбора диапазона со стрелкой, нарпавленной вверх — см. рисунок.

Выбор диапазона

Появляется окно выбора диапазона.

Выбор диапазона

Переходим на нужный лист нашей рабочей книги и выделяем столбец округлённых данных — вместе с заголовком. В этом случае имя переменной — заголовок столбца — автоматически появится в таблицах и на графиках. Поэтому щёлкаем по первой ячейке столбца B и нажимаем комбинацию клавиш Ctrl + Shift + ?, а затем клавишу Enter или кнопку со стрелкой, направленной вниз. Кроме диапазона адресов указывается название листа, на котором находятся наши данные — см. рисунок.

Здесь 04 — указание на лист с названием 04.

$B$1:$B$10001 — диапазон ячеек на указанном листе

Выбранный диапазон

Чтобы использовать заголовок столбца в качестве названия переменной, поставим галочку в разделе

Labels

Метки

Следующий шаг — выбираем диапазон ячеек, в котором мы сформировали ВЕРХНИЕ (ПРАВЫЕ) ГРАНИЦЫ интервалов группировки. Не перепутайте, именно верхние границы!

Input — Bin Range

Входные данные — Интервал карманов

Щёлкаем кнопку выбора диапазона и выделяем диапазон верхних границ — тоже вместе с заголовком.

Диапазон верхних границ

Аналогично указываем диапазон ячеек для вывода результатов. На самом деле, мы указываем только одну ячейку — левый верхний угол той области, куда будут выводиться результаты группировки.

Output options — Output Range

Параметры вывода — Выходной интервал

Настройки функции Гистограмма

Отмечаем ещё две позиции

Накопленные (кумулятивные) относительные частоты:

Cumulative Percentage

Интегральный процент

Автоматическое построение графика по результатам группировки:

Chart Output

Вывод графика

Настройка закончена. Нажимаем OK.

Рассматриваем результаты группировки данных.

Результаты группировки

Можно заметить, что ширина столбцов осталась стандартной, и длинные заголовки не умещаются в таких ячейках. Настроим ширину столбцов. Для этого наводим курсор на границу между именами столбцов, и он превращается в указатель границы ячеек (двунаправленную стрелку). Стрелочки влево и вправо намекают, что эту границу можно передвинуть.

Дважды щёлкаем левой кнопкой мыши, и программа автоматически подстраивает ширину левого из двух соседних столбцов. В результате ширина столбца меняется так, чтобы всё содержимое всех ячеек данного столбца было видно на экране и не перекрывалось ячейками справа.

Аналогично настроим ширину остальных «пострадавших» столбцов. Если слова и числа в столбце короткие, то ширина столбца может даже уменьшиться.

Столбцы разной ширины

Рассмотрим полученную таблицу. В ней всего три столбца.

Первый столбец — верхние границы интервалов группировки. В качестве заголовка столбца использован заголовок соответствующего столбца нашей вспомогательной таблицы границ интервалов верх гр.

Второй столбец — абсолютные частоты, то есть число попаданий в интервал:

Frequency

Частота

Третий столбец — накопленные (кумулятивные) относительные чатоты в процентах:

Cumulative %

Интегральный %

Теперь обратим внимание на график. Здесь есть столбики, отдалённо напоминающие стандартную гистограмму. Ширину столбиков придётся дополнительно настроить.

Есть график накопленных частот, который называется КУМУЛЯТА. Про кумуляту мы подробно поговорим чуть позже, когда будем строить её вручную. Пока примем к сведению, что кумулята — это график накопленных относительных частот в процентах. Кумулята — это оценка формы функции распределения по результатам группировки данных.

Для каждого графика имеется своя вертикальная ось, потому что числа слишком уж разные. Вертикальная ось слева — для гистограммы, показывает число единиц, попавших в интервалы. Масштаб от 0 до 1200. Вертикальная ось справа — для кумуляты; здесь указан масштаб в процентах. Ломаная линия накопленных процентов идёт от 0% до 100%.

Гистограмма и кумулята

Займёмся настройкой гистограммы. Дважды щёлкнем по любому столбцу и настроим изображение, как было описано выше: ширина столбика, заливка, линии, цвета.

Настроим график кумуляты. Кроме линии, здесь присутствуют маркеры для каждой точки:. Чтобы убрать маркеры и оставить только линию, щёлкаем по ней и устанавливаем следующие настройки:

Сплошная линия на графике:

Format Data Series — Series Options — Fill & Line — Line — Solid line

Формат ряда данных — Параметры ряда — Заливка и границы — Линия — Сплошная линия

Убираем маркеры точек:

Marker — Marker Options — None

Маркер — Параметры маркера — Нет

Настройка графика кумуляты

Отключаем легенду, и график практически готов.

Chart Elements — Legend

Элементы диаграммы — Легенда

Окончательный вид гистограммы и кумуляты

На графике можно обнаружить следующие особенности.

Появился дополнительный интервал, куда складывают всё, что не попало в наши интервалы:

More

Ещё

Горизонтальная ось в качестве текстовых меток содержит верхние границы интервалов группировки, причём эти метки расположены посередине интервалов. Получается, что значения накопленных частот привязаны к середине интервала, а не к его верхней границе.

По сути, здесь нет масштаба по оси Х, а использованы ПОРЯДКОВЫЕ НОМЕРА столбиков и ТЕКСТОВЫЕ ПОДПИСИ под ними — вместо числовых меток. Чтобы это увидеть, щёлкаем правой кнопкой по графику и выбираем пункт

Select Data

Выбрать данные

Выбор данных

Появляется диалоговое окно

Select Data Source

Выбор источника данных

Можно видеть два ряда данных в разделе

Legend Entries (Series)

Элементы легенды (ряды)

Первый набор данных — Frequency.

Второй набор данных — Cumulative %.

Кроме того, имеется раздел

Horizontal (Category) Axis Labels

Подписи горизонтальной оси (категории)

Здесь указаны метки для горизональной оси: 195, 200, 205 — весь столбец верхних границ.

Данные для графика и метки по горизонтальной оси

Выбираем ряд данных Frequency и нажимаем кнопку

Edit

Изменить

Ряд данных Frequency

Появляется диалоговое окно

Edit Series

Изменение ряда

Здесь есть возможность указать только имя ряда

Series Name

Имя ряда

В нашем примере это поле не заполнено.

Сами данные для графика

Series values

Значения

Здесь указан диапазон ячеек и первые несколько значений:

27, 27, 7210.

Здесь есть только «игреки», а «иксов» для графика нет. Та же картина наблюдается и для графика накопленных частот. В качестве «иксов» на графике использованы ПОРЯДКОВЫЕ НОМЕРА СТОЛБЦОВ, а по горизонтальной оси выводтся текстовые метки вместо масштаба.

Чтобы из полученных таблицы и графика сделать что-то осмысленное и вразумительное, придётся повозиться, и это будет темой следующего раздела.