Нелинейная регрессия

Нелинейная регрессия — это построение уравнения связи и графика с использованием нелинейной функции. Другими словами, здесь работает всё, что не является линейным. Но только с одной оговоркой: уравнение должно выглядеть как сумма или разность. Тогда для каждого члена уравнения программа сможет подобрать коэффициенты.

В данной работе мы рассмотрим самые простые уравнения регрессии, в которых «икс» участвует не только в первой степени, но также в квадрате и в кубе — см. формулы.

Уравнения регрессии

Для построения нелинейной регрессии придётся создать вспомогательные столбцы нелинейных членов уравнения. Для параболы и кубической параболы необходимо в качестве входного интервала X выбрать соответствующие столбцы с разными степенями «икса». Эти значения желательно расположить в соседних столбах и выделить как один диапазон.

Обратите внимание на то, в каком порядке идут члены уравнения. По возрастанию или по убыванию степени «икса»? За этим нужно будет следить при формировании вспомогательных столбцов, при вызове функций регрессионного анализа и при чтении результатов.

Итак, на новый лист копируем исходные данные и добавляем колонку квадратов «икса» — рядом с «иксами» в первой степени. Будущие члены нашего уравнения регрессии называются красивым словом РЕГРЕССОРЫ. Это просто «участники» уравнения, для которых подбирают коэффициенты. В этом названии нет негативного оттенка, как и в слове РЕГРЕССИЯ. В статистике слово «регрессия» означает просто «зависимость в среднем». А вот в других дисциплинах регрессия может означать движение назад, противоположность прогрессу или возвращение в прошлое.

Для дальнейшей работы все столбцы регрессоров должны идти друг за другом. Тогда мы сможем выделить их как один диапазон ячеек. Так будет проще и понятнее.

Украсим заголовки столбцов со степенями «иксов». Выделяем показатель степени — цифру 2 — и вызываем форматирование, нажав кнопку

Font Settings

Настройки шрифта.

Это загадочная стрелочка в правом нижнем углу раздела

Font

Шрифт.

Форматирование текста

Появляется диалоговое окно настройки форматирования содержимого ячеек:

Format Cells

Формат ячеек.

Верхний индекс

Выбираем пункт

Superscript

Верхний индекс.

Нажимаем кнопку OK.

Форматирование заголовка столбца

Теперь заголовки столбцов со степенями «икса» легко читаются.

Исходные данные — регрессоры

Когда исходные данные подготовлены, вызываем надстройку и указываем входные данные, как показано на рисунке. По-прежнему, вначале указываем диапазон Y, а потом диапазон X в разных степенях. Заголовки столбцов пригодятся при расшифровке результатов. Поэтому выбираем пункт

Labels

Метки.

Начнём с построения параболы. Указываем в качестве факторных признаков два столбца «иксов» — в первой и второй степени.

Нелинейная регрессия

Выбираем автоматическое построение графика «аппроксимации»:

Residuals — Line Fit Plots

Остатки — График подбора.

На экране появляются два загадочных графика.

Графики аппроксимации

Чтобы понять, почему появилось два графика вместо одного, заглянем в исходные данные второй диаграммы. Щёлкнем правой кнопкой по графику и выберем

Select Data

Выбрать данные.

В этой диаграмме использованы два набора данных: y (исходные «игреки») и Predicted y (прогноз значений «игрека» по уравнению регрессии). В окне

Select Data Source

Выбор источника данных

выберем строчку y и нажмём

Edit

Изменить.

Данные для второй диаграммы

Рассмотрим, какие данные были выбраны для диаграммы. Нужные сведения выводятся в окне

Edit Series

Изменение ряда.

Выясняется, что по горизонтальной оси были выбраны квадраты «иксов».

Данные для второй диаграммы

Оставляем только первый график, а второй — удаляем. Теперь настроим наш график аппроксимации и рассмотрим его поподробней.

«График» параболы

Вместо ЛИНИИ регрессии можно видеть странную фигуру, которая утолщается в середине и сужается по краям. Причина в том, что соседние точки на графике соединяются отрезками. Но эти точки идут в том же порядке, как в исходной таблице, а там данные расположены в случайном порядке, не по возрастанию. Придётся кое-что подправить.

Скопируем столбец «иксов» и вставим на место столбца

Observation

Наблюдение

в таблицу

RESIDUAL OUTPUT

ВЫВОД ОСТАТКА.

Столбец Observation содержит порядковые номера i наблюдений в таблице исходных данных.

Третий столбец

Residuals

Остатки

нам для работы не потребуется — мы его просто удаляем.

Таблица прогнозов

Теперь у нас есть пары соответствующих «иксов» и «игреков». Отсортируем их по возрастанию. Для этого выделяем диапазон данных в столбцах Х и

Predicted y

Предсказанное Y.

Вызываем сортировку через верхнее меню:

Home — Editing — Sort & Filter — Sort Smallest to Largest

Главная — Редактирование — Сортировка и фильтр — Сортировка по возрастанию.

Сортировка по возрастанию

Сортировка ячеек выделенного диапазона выполняется по возрастанию чисел в первом столбце. Это значит, что «иксы» выстраиваются по возрастанию, а соответствующие им «игреки» перемещаются вслед за своими «иксами».

Отсортированные данные

Теперь изменим диапазоны ячеек для Predicted y в данных для графика:

Select Data — Select Data Source — Legend Entries (Series) — Predicted y — Edit.

Выбор данных — Выбор источника данных — Легенда — Предсказанное Y — Изменить.

Данные для Predicted y

Вместо столбца исходных «иксов» выбираем отсортированные «иксы» из вспомогательной таблицы. Диапазон для прогноза «игреков» оставляем тем же.

Отсортированные Predicted y

Теперь линия регрессии на графике стала похожа на линию. Поскольку мы генерировали исходные данные с помощью уравнения прямой линии, в наших точках особой «кривизны» не наблюдается. Так что мы видим участок параболы с очень небольшой кривизной.

График по отсортированным данным

Перейдём к уравнению регрессии. Надстройка выдаёт нам оценки коэффициентов уравнения. Заголовки строк указывают, к чему относится каждый коэффициент:

Intercept — свободный член уравнения;

x — «иксы»;

x2 — квадраты «иксов».

В исходной таблице мы сделали красивый заголовок для квадратов «икса» x2с помощью форматирования. Как видим, при выводе результатов регрессионного анализа форматирование потерялось и осталось только x2. Делаем вывод: заголовки должны быть такими, чтобы они хорошо читались как с форматированием, так и без форматирования.

Оценки коэффициентов

Берём коэффициенты и записываем уравнение регрессии. Нам понадобится несколько ячеек. Используем ссылки на ячейки с оценками коэффициентов.

Уравнение регрессии

Коэффициент при квадрате «икса» небольшой. С учётом величины квадрата «икса» получаем небольшой вклад в общий результат — на фоне остальных членов уравнения. Сравним вклад членов уравнения для среднего значения аргумента. Вычисления округлим до целых:

x = 1 500

x2 = 2 250 000.

Свободный член: 1 086.

Вклад х: 1,0733 * 1500 = 1 610.

Вклад х2: 0,000 137 * 1 500 * 1 500 = 308.

Относительный вклад х2:

308 / (1086 +1610 +308) * 100% = 10%.

Получается, что нелинейная часть уравнения даёт всего 10% изменения результативного признака.

Чтобы построить уравнение третьей степени, повторите описанные шаги для диапазона ячеек, дополнительно включающего столбец третьих степеней «иксов».