Нелинейная регрессия
Нелинейная регрессия — это построение уравнения связи и графика с использованием нелинейной функции. Другими словами, здесь работает всё, что не является линейным. Но только с одной оговоркой: уравнение должно выглядеть как сумма или разность. Тогда для каждого члена уравнения программа сможет подобрать коэффициенты.
В данной работе мы рассмотрим самые простые уравнения регрессии, в которых «икс» участвует не только в первой степени, но также в квадрате и в кубе — см. формулы.
Уравнения регрессии
Для построения нелинейной регрессии придётся создать вспомогательные столбцы нелинейных членов уравнения. Для параболы и кубической параболы необходимо в качестве входного интервала X выбрать соответствующие столбцы с разными степенями «икса». Эти значения желательно расположить в соседних столбах и выделить как один диапазон.
Обратите внимание на то, в каком порядке идут члены уравнения. По возрастанию или по убыванию степени «икса»? За этим нужно будет следить при формировании вспомогательных столбцов, при вызове функций регрессионного анализа и при чтении результатов.
Итак, на новый лист копируем исходные данные и добавляем колонку квадратов «икса» — рядом с «иксами» в первой степени. Будущие члены нашего уравнения регрессии называются красивым словом РЕГРЕССОРЫ. Это просто «участники» уравнения, для которых подбирают коэффициенты. В этом названии нет негативного оттенка, как и в слове РЕГРЕССИЯ. В статистике слово «регрессия» означает просто «зависимость в среднем». А вот в других дисциплинах регрессия может означать движение назад, противоположность прогрессу или возвращение в прошлое.
Для дальнейшей работы все столбцы регрессоров должны идти друг за другом. Тогда мы сможем выделить их как один диапазон ячеек. Так будет проще и понятнее.
Украсим заголовки столбцов со степенями «иксов». Выделяем показатель степени — цифру 2 — и вызываем форматирование, нажав кнопку
Font Settings
Настройки шрифта.
Это загадочная стрелочка в правом нижнем углу раздела
Font
Шрифт.
Форматирование текста
Появляется диалоговое окно настройки форматирования содержимого ячеек:
Format Cells
Формат ячеек.
Верхний индекс
Выбираем пункт
Superscript
Верхний индекс.
Нажимаем кнопку OK.
Форматирование заголовка столбца
Теперь заголовки столбцов со степенями «икса» легко читаются.
Исходные данные — регрессоры
Когда исходные данные подготовлены, вызываем надстройку и указываем входные данные, как показано на рисунке. По-прежнему, вначале указываем диапазон Y, а потом диапазон X в разных степенях. Заголовки столбцов пригодятся при расшифровке результатов. Поэтому выбираем пункт
Labels
Метки.
Начнём с построения параболы. Указываем в качестве факторных признаков два столбца «иксов» — в первой и второй степени.
Нелинейная регрессия
Выбираем автоматическое построение графика «аппроксимации»:
Residuals — Line Fit Plots
Остатки — График подбора.
На экране появляются два загадочных графика.
Графики аппроксимации
Чтобы понять, почему появилось два графика вместо одного, заглянем в исходные данные второй диаграммы. Щёлкнем правой кнопкой по графику и выберем
Select Data
Выбрать данные.
В этой диаграмме использованы два набора данных: y (исходные «игреки») и Predicted y (прогноз значений «игрека» по уравнению регрессии). В окне
Select Data Source
Выбор источника данных
выберем строчку y и нажмём
Edit
Изменить.
Данные для второй диаграммы
Рассмотрим, какие данные были выбраны для диаграммы. Нужные сведения выводятся в окне
Edit Series
Изменение ряда.
Выясняется, что по горизонтальной оси были выбраны квадраты «иксов».
Данные для второй диаграммы
Оставляем только первый график, а второй — удаляем. Теперь настроим наш график аппроксимации и рассмотрим его поподробней.
«График» параболы
Вместо ЛИНИИ регрессии можно видеть странную фигуру, которая утолщается в середине и сужается по краям. Причина в том, что соседние точки на графике соединяются отрезками. Но эти точки идут в том же порядке, как в исходной таблице, а там данные расположены в случайном порядке, не по возрастанию. Придётся кое-что подправить.
Скопируем столбец «иксов» и вставим на место столбца
Observation
Наблюдение
в таблицу
RESIDUAL OUTPUT
ВЫВОД ОСТАТКА.
Столбец Observation содержит порядковые номера i наблюдений в таблице исходных данных.
Третий столбец
Residuals
Остатки
нам для работы не потребуется — мы его просто удаляем.
Таблица прогнозов
Теперь у нас есть пары соответствующих «иксов» и «игреков». Отсортируем их по возрастанию. Для этого выделяем диапазон данных в столбцах Х и
Predicted y
Предсказанное Y.
Вызываем сортировку через верхнее меню:
Home — Editing — Sort & Filter — Sort Smallest to Largest
Главная — Редактирование — Сортировка и фильтр — Сортировка по возрастанию.
Сортировка по возрастанию
Сортировка ячеек выделенного диапазона выполняется по возрастанию чисел в первом столбце. Это значит, что «иксы» выстраиваются по возрастанию, а соответствующие им «игреки» перемещаются вслед за своими «иксами».
Отсортированные данные
Теперь изменим диапазоны ячеек для Predicted y в данных для графика:
Select Data — Select Data Source — Legend Entries (Series) — Predicted y — Edit.
Выбор данных — Выбор источника данных — Легенда — Предсказанное Y — Изменить.
Данные для Predicted y
Вместо столбца исходных «иксов» выбираем отсортированные «иксы» из вспомогательной таблицы. Диапазон для прогноза «игреков» оставляем тем же.
Отсортированные Predicted y
Теперь линия регрессии на графике стала похожа на линию. Поскольку мы генерировали исходные данные с помощью уравнения прямой линии, в наших точках особой «кривизны» не наблюдается. Так что мы видим участок параболы с очень небольшой кривизной.
График по отсортированным данным
Перейдём к уравнению регрессии. Надстройка выдаёт нам оценки коэффициентов уравнения. Заголовки строк указывают, к чему относится каждый коэффициент:
Intercept — свободный член уравнения;
x — «иксы»;
x2 — квадраты «иксов».
В исходной таблице мы сделали красивый заголовок для квадратов «икса» x2с помощью форматирования. Как видим, при выводе результатов регрессионного анализа форматирование потерялось и осталось только x2. Делаем вывод: заголовки должны быть такими, чтобы они хорошо читались как с форматированием, так и без форматирования.
Оценки коэффициентов
Берём коэффициенты и записываем уравнение регрессии. Нам понадобится несколько ячеек. Используем ссылки на ячейки с оценками коэффициентов.
Уравнение регрессии
Коэффициент при квадрате «икса» небольшой. С учётом величины квадрата «икса» получаем небольшой вклад в общий результат — на фоне остальных членов уравнения. Сравним вклад членов уравнения для среднего значения аргумента. Вычисления округлим до целых:
x = 1 500
x2 = 2 250 000.
Свободный член: 1 086.
Вклад х: 1,0733 * 1500 = 1 610.
Вклад х2: 0,000 137 * 1 500 * 1 500 = 308.
Относительный вклад х2:
308 / (1086 +1610 +308) * 100% = 10%.
Получается, что нелинейная часть уравнения даёт всего 10% изменения результативного признака.
Чтобы построить уравнение третьей степени, повторите описанные шаги для диапазона ячеек, дополнительно включающего столбец третьих степеней «иксов».