摘要: 分类不平衡是指不同类别间样本数量分布不均衡的现象.在软件缺陷预测中,传统预测模型的性能可能会因数据集分类不平衡而受到影响.为了探究分类不平衡对软件缺陷预测模型性能的影响程度,该文提出一种分类不平衡影响分析方法.首先,设计一种新数据集构造算法,将原不平衡数据集转化为一组不平衡率依次递增的新数据集.然后,选取不同的分类模型作为缺陷预测模型,分别对构造的新数据集进行预测,并采用AUC指标来度量不同预测模型的分类性能.最后,采用变异系数C·V来评价各个预测模型在分类不平衡时的性能稳定程度.在8种典型的预测模型上进行实验验证,结果表明C4.5、RIPPER和SMO这3种预测模型的性能随着不平衡率的增大而下降,而代价敏感学习和集成学习能够有效提高它们在分类不平衡时的性能和性能稳定程度.与上述3种模型相比,逻辑回归、朴素贝叶斯和随机森林等模型的性能更加稳定.
摘要:分类不平衡是指不同类别间样本数量分布不均衡的现象.在软件缺陷预测中,传统预测模型的性能可能会因数据集分类不平衡而受到影响.为了探究分类不平衡对软件缺陷预测模型性能的影响程度,该文提出一种分类不平衡影响分析方法.首先,设计一种新数据集构造算法,将原不平衡数据集转化为一组不平衡率依次递增的新数据集.然后,选取不同的分类模型作为缺陷预测模型,分别对构造的新数据集进行预测,并采用AUC指标来度量不同预测模型的分类性能.最后,采用变异系数C·V来评价各个预测模型在分类不平衡时的性能稳定程度.在8种典型的预测模型上进行实验验证,结果表明C4.5、RIPPER和SMO这3种预测模型的性能随着不平衡率的增大而下降,而代价敏感学习和集成学习能够有效提高它们在分类不平衡时的性能和性能稳定程度.与上述3种模型相比,逻辑回归、朴素贝叶斯和随机森林等模型的性能更加稳定.
说明:如本页面涉及到版权问题或作者不愿意公开,请联系本站管理员删除!
[1] | 张红燕 韩琳 张秀娟 刘嘉 左亚梅 牛欢欢 马玉霞 . 国外临床护理分类系统的应用现状及启示 [J]. 中华护理杂志 ,2018,7 |
[2] | 邹功林 贺建东 陈伟达 . 浅谈肠梗阻的常见病因分类及治疗策略 [J]. 名医 ,2016,1 |
[3] | 冯浩 . 肠梗阻的常见病因治疗策略与分类 [J]. 名医 ,2015,8 |
[4] | 韩家琪 毛克彪 葛非凡 郭晶鹏 黎玲萍 . 分类回归树算法在土壤水分估算中的应用 [J]. 遥感信息 ,2018,3 |
[5] | 李楠 朱秀芳 潘耀忠 詹培 . 人工蜂群算法优化的SVM遥感影像分类 [J]. 遥感学报 ,2018,4 |
[6] | 谢相建 薛朝辉 王冬辰 刘伟 杜培军 . 顾及物候特征的喀斯特断陷盆地土地覆盖遥感分类 [J]. 遥感学报 ,2015,4 |
[7] | 宋怀荣 林峰 魏合龙 苏国辉 . 基于用户分类的海洋地质数据库移植 [J]. 海洋地质前沿 ,2018,5 |
[8] | 罗伟东 郭军 . 基于多波束背向散射数据的海底底质分类 [J]. 海洋地质前沿 ,2017,8 |