11.4. Методы фильтра
Методы фильтра оценивают предикторы до обучения модели, и, основываясь на этой оценке, подмножество предикторов включается в модель. Так как оценка предикторов отделена от модели, многие из метрик значимости предикторов пригодны для фильтрования. Большинство этих методов одномерное, что означает оценку каждого предиктора по отдельности. В этом случае существование коррелированных предикторов позволяет выбрать значимые, но избыточные, предикторы. Очевидным следствием этой проблемы является выбор слишком большого числа предикторов, и в результате возникают проблемы коллинеарности.
Кроме того, если используются гипотезы, основанные на тестах для определения статистически значимых отношений с другими предикторами (такие как t-тест), то может возникнуть проблема кратности. Например, если уровень значимости ? = 0.05 используется в качестве порога р-значения для значения у каждого отдельного теста, то есть теоретический ложно-положительный уровень 5%. Однако при проведении большого количества одновременных статистических тестов полная ложно-положительная вероятность увеличивается по экспоненте.
В то время как методы фильтра достаточно простые и быстрые, есть субъективизм в процедуре. У большинства методов нет очевидной точки разделения для отбора предикторов в модель. Даже в случае гипотез, основанных на статистических тестах, пользователь все равно должен выбрать уровни значимости, которые будут применены в итоге.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.