11.2. Подходы для сокращения количества предикторов

Кроме моделей со встроенным выбором предиктора, большинство подходов для сокращения количества предикторов может быть разделено на две главных категории:

– методы обертки оценивают многоуровневые модели, используя процедуры, которые прибавляют и/или удаляют предикторы для поиска оптимальной комбинации, которая максимизирует результативность модели. В основном методы обертки являются алгоритмами поиска, которые принимают предикторы на входе и используют результативность модели как результат, подлежащий оптимизации.

– методы фильтра оценивают уместность предикторов за пределами предсказательных моделей и впоследствии моделируются только предикторы, которые удовлетворяют некоторому критерию. Например, для задач классификации индивидуально оценивается каждый предиктор для проверки существования вероятного отношения между ним и наблюдаемыми классами. Только предикторы со значимыми отношениями включаются в модель классификации.

У обоих подходов есть преимущества и недостатки.

Методы фильтра более эффективны в вычислительном отношении, чем методы обертки, но критерий выбора непосредственно не связан с эффективностью модели. Кроме того, большинство методов фильтра оценивает каждый предиктор отдельно, и, следовательно, могут быть выбраны избыточные, то есть чрезвычайно коррелированные предикторы, и важные взаимодействия между предикторами не будут определены количественно.

Преимущество метода обертки состоит в оценке многих моделей (что может потребовать настройки параметров), и таким образом приведет к увеличению времени вычислений. Также методы обертки увеличивают риск переобучения модели.

Данный текст является ознакомительным фрагментом.