У К., Чжан К., Фань В., Гао Дж. и Эдвардс А.
Эффективная структура для классификации несбалансированных потоков данных
Классификация потоков данных с перекошенным распределением находит множество применений в реалистичных средах; однако, только несколько методов решают эту совместную проблему классификации потоков данных и обучения несбалансированным данным . В этой статье мы предлагаем новую динамическую структуру взвешивания групп признаков, основанную на выборке по важности (DFGW-IS), для решения этой проблемы. Наш подход решает внутренние характеристики дрейфующих концепций, несбалансированных потоковых данных. В частности, постоянно развивающаяся концепция обрабатывается ансамблем, обученным на наборе групп признаков, причем каждый подклассификатор (т. е. отдельный классификатор или ансамбль) взвешивается по своей дискриминативной мощности и стабильному уровню. С другой стороны, неравномерное распределение классов борется с подклассификатором, построенным в определенной группе признаков, с базовым распределением, перебалансированным методом выборки по важности. Мы предоставляем теоретический анализ границы ошибки обобщения предлагаемого алгоритма. Масштабные эксперименты с несколькими искаженными потоками данных показывают, что предлагаемый алгоритм не только превосходит конкурирующие методы по стандартным метрикам оценки, но и хорошо адаптируется к различным сценариям обучения.