9.4. Методы сэмплирования

Если есть априорное знание о неустойчивости класса, то можно уменьшить его воздействие при обучении модели путем формирования выборки для набора обучения таким образом, чтобы получить примерное равенство. Появление этого подхода устраняет фундаментальную проблему неустойчивости при обучении моделей. Однако если набор данных обучения составлен сбалансированным, то тестовый набор должен иметь естественное состоянием и должен отразить неустойчивость для вычисления честных оценок будущей эффективности.

Если априорный подход к выборке не возможен, то реализуют апостериорный подход к выборке, который может помочь ослабить влияние неустойчивости во время обучения модели. Два общих апостериорных подхода – это понижающая дискретизация и повышающая дискретизация данных. Повышающая дискретизация – любой метод, который имитирует или приписывает дополнительные наблюдения для улучшения балансов классов, в то время как понижающая дискретизация обращается к любому методу, который сокращает количество наблюдений для улучшения баланса классов.

Возможен подход к повышающей дискретизации, в которой наблюдения из классов меньшинства выбираются с заменой, пока классы не становятся примерно равными. Предположим, набор данных обучения содержит 6466 «лонгов» и 1411 «вне рынка». Если сохранить исходные данные класса меньшинства, а затем добавить ресемплированием 5055 случайных наблюдений (с заменой), то получим дополнение меньшей части до размера большей части. При выполнении некоторые наблюдения класса меньшинства могут обнаружиться в наборе данных обучения со справедливо высокой частотой, в то время как у каждого наблюдения в классе большой части есть единственное наблюдение в наборе данных.

Понижающая дискретизация выбирает наблюдения из большего класса так, чтобы он сравнялся размером с меньшим классом.

Данный текст является ознакомительным фрагментом.