Условное среднее

Кроме линии регрессии, есть другой способ изучения той же зависимости — УСЛОВНОЕ СРЕДНЕЕ, то есть среднее при выполнении некоторого условия. Это среднее арифметическое значений результативного признака Y ПРИ УСЛОВИИ, что соответствующие значения факторного признака X попадают в заданный интервал.

Вот пример условного среднего: средний вес людей, у которых рост окажется в диапазоне от 160 до 170 см. Мы выбираем людей ростом от 160 до 170 см, измеряем их вес и находим среднее значение веса только по этой группе. Здесь рост — это факторный признак Х, а вес — это результативный признак Y. Мы получили средний «игрек», а условие определяли по «иксу».

На новом листе добавим интервалы группировки по X: нижние и верхние границы, а также среднее значение. Интервалы группировки выбираем точно так же, как описано в первой работе. Ссылка для скачивания пособия по первой работе приводится в конце данного выпуска.

В нашем примере возьмём 10 интервалов по 100 единиц, чтобы охватить диапазон значений от 1000 до 2000.

Для нахождения условного среднего можно использовать функцию

SUMIF

СУММЕСЛИ.

Функция позволяет вычислить сумму при выполнении заданного условия. Формат функции следующий:

SUMIF (range, criteria, [sum_range])

СУММЕСЛИ (диапазон; критерий; [диапазон_суммирования])

range — диапазон — диапазон ячеек;

criteria — критерий — условие;

sum_range — диапазон_суммирования — диапазон ячеек для суммирования. Если диапазон не указан, то суммируются значения из диапазона, указанного в первом аргументе.

Для определения средних значений фактора Х в каждом интервале группировки используем только два первых аргумента функции.

Рассмотрим примеры условных сумм — см. формулы.

Условные суммы

Первая формула вычисляет сумму значений фактора, не превышающих верхнюю границу первого интервала. Сюда попадут все значения из первого интервала, а также все точки, которые окажутся левее этого интервала.

Вторая формула определяет сумму значений фактора, попадающих во второй интервал.

В третьей формуле мы фиксируем номера строк для диапазона исходных данных с помощью символа $. Это позволит нам скопировать формулу и заполнить весь столбец.

Для упрощения расчётов мы определяем разность сумм значений, не превышающих верхние границы интервалов. В этом случае формулы получаются немного короче и понятнее. Мы уже использовали подобный приём в первой работе, когда определяли частоту попадания в интервал. Мы находили относительные частоты как разность соседних значений накопленной частоты.

Функция SUMIF

При вычислении среднего арифметического нужно поделить сумму значений на их количество.

Для определения количества элементов используем функцию

COUNTIF

СЧЕТЕСЛИ.

Формула для расчета условного среднего фактора Х получается довольно громоздкой — см. формулы.

Расчёт условного среднего

Изучите формулы и найдите следующие элементы:

— диапазон ячеек от А2 до А121 на листе 04;

— верхняя граница первого интервала на листе 05;

— верхняя граница второго интервала на листе 05.

Чтобы не запутаться, проведём наши расчёты по частям. Сначала найдём суммы и количества значений Х, не превышающих верхней границы. Затем определим разности соседних ячеек. Затем проведём деление и в результате получим среднее значение Х в каждом интервале группировки.

Вычисление условного среднего значения результативного признака Y немного сложнее. Здесь проверяется условие попадания факторного признака Х в интервал группировки, а сумма считается по столбцу результативного признака Y. Для этого используется третий аргумент функции SUMIF — см. формулу.

Условное среднее Y (X)

Для копирования формулы фиксируем номера строк с помощью знака $.

Вычисление условного среднего

После вычислений наносим линию условного среднего на диаграмму разброса. Для этого нам потребуется ломаная линия с маркерами точек.

Строим диаграмму разброса, как описано выше.

Выбираем второй ряд данных:

Select Data — Select Data Source — Add

Выбрать данные — Выбор источника данных — Добавить.

Добавляем новые данные для графика. В качестве значений x берём условные средние «иксы», а в качестве y — условные средние «игреки». На графике появляются новые точки.

Изменяем тип диаграммы: щёлкаем правой кнопкой по графику и выбираем комбинированный график:

Change Chart Type — Combo

Изменить тип диаграммы — Комбинированная.

Для исходных данных оставляем диаграмму разброса:

Scatter

Точечная.

Для условного среднего выбираем ломаную линию:

Scatter with Straight Lines

Точечная с прямыми отрезками и маркерами.

Для использовани единого масштаба на графиках снимаем выбор пункта:

Secondary Axis

Вспомогательная ось.

Если на графике будет две вертикальных оси, то будет свой масштаб для каждого набора данных. Такие графики будет невозможно сравнивать. Нам нужен общий, единый масштаб.

Комбинация графиков

В процессе настройки графиков можно видеть, как меняется изображение. При выборе данных для графиков мы не указывали названия рядов, поэтому они названы по умолчанию Series1 и Series2. Пока на графике не так много данных, это не доставляет неудобств. В следующей работе всё-таки придётся задать имена для каждого набора данных, чтобы легче было работать с несколькими графиками.

Как и раньше, настраиваем масштаб, заголовки, цвета. График готов.

Условное среднее на диаграмме разброса