从新的角度理解分类,提出一种有效的用于数据挖掘分类任务的方法—基于影响函数的分类方法(Classification Based on Influential Function,CBIF).CBIF首先定义了影响函数,然后利用影响函数考察已知类标号样本对未知类标号样本x的影响,对x影响越大,表明x与该样本越相似,综合考虑各个类对x的影响,最后,对x影响最大的类决定了x的类标号.本文设计了指数影响函数,将其用于CBIF方法并给出基于指数影响函数的分类算法,基于UCI数据集上的实验结果表明,CBIF方法提高了分类的性能,与传统的分类方法相比,该方法也显示出明显优势.
基于逻辑判别式(LD,Logistic Discrimination),提出一种叫做LDRC(LD based Rare-class Classification)方法用于提升LD在稀有类问题中的泛化性能.为了充分考虑稀有类的特性,构建了一种新目标函数RPM(Recall and Precision based M etric),其同时考虑正类和负类的召回率以及正类的精度,其中正类和负类的召回率用于保障模型在评估指标召回率以及g-mean(正类和分类的召回率的几何平均数)上具有较高的泛化能力,正类的召回率和精度用于保障了模型具有较高的准确率以及fmeasure值(基于正类召回率与精度的指标).LDRC使用RPM作为目标函数监督参数学习过程,以保障LDRC具有较高的整体泛化能力.UCI数据集上的实验结果表明,与传统的逻辑判别、基于过采样和基于欠采样的逻辑判别相比,LDRC模型在评价指标召回率、g-mean和f-measure上都表现出明显优势.