分类不平衡对软件缺陷预测模型性能的影响研究

       摘要: 分类不平衡是指不同类别间样本数量分布不均衡的现象.在软件缺陷预测中,传统预测模型的性能可能会因数据集分类不平衡而受到影响.为了探究分类不平衡对软件缺陷预测模型性能的影响程度,该文提出一种分类不平衡影响分析方法.首先,设计一种新数据集构造算法,将原不平衡数据集转化为一组不平衡率依次递增的新数据集.然后,选取不同的分类模型作为缺陷预测模型,分别对构造的新数据集进行预测,并采用AUC指标来度量不同预测模型的分类性能.最后,采用变异系数C·V来评价各个预测模型在分类不平衡时的性能稳定程度.在8种典型的预测模型上进行实验验证,结果表明C4.5、RIPPER和SMO这3种预测模型的性能随着不平衡率的增大而下降,而代价敏感学习和集成学习能够有效提高它们在分类不平衡时的性能和性能稳定程度.与上述3种模型相比,逻辑回归、朴素贝叶斯和随机森林等模型的性能更加稳定.

作者:
于巧 姜淑娟 张艳梅 王兴亚 高鹏飞 钱俊彦
单位:
中国矿业大学计算机科学与技术学院 江苏徐州 221116 中国矿业大学计算机科学与技术学院 江苏徐州 221116;桂林电子科技大学广西可信软件重点实验室 广西桂林541004 中国矿业大学计算机科学与技术学院 江苏徐州 221116;南京大学计算机软件新技术国家重点实验室 南京210023 桂林电子科技大学广西可信软件重点实验室 广西桂林541004
出处:
《 计算机学报》
刊期:
2018年第0卷第4期
基金:
国家自然科学基金(61673384,61502497,61562015) 广西可信软件重点实验室研究课题(kx201530) 南京大学计算机软件新技术国家重点实验室开放课题(KFKT2014B19) 江苏省普通高校研究生科研创新计划项目(KYLX15_1443) 国家级大学生创新项目(201510290001)

分类不平衡对软件缺陷预测模型性能的影响研究

摘要:分类不平衡是指不同类别间样本数量分布不均衡的现象.在软件缺陷预测中,传统预测模型的性能可能会因数据集分类不平衡而受到影响.为了探究分类不平衡对软件缺陷预测模型性能的影响程度,该文提出一种分类不平衡影响分析方法.首先,设计一种新数据集构造算法,将原不平衡数据集转化为一组不平衡率依次递增的新数据集.然后,选取不同的分类模型作为缺陷预测模型,分别对构造的新数据集进行预测,并采用AUC指标来度量不同预测模型的分类性能.最后,采用变异系数C·V来评价各个预测模型在分类不平衡时的性能稳定程度.在8种典型的预测模型上进行实验验证,结果表明C4.5、RIPPER和SMO这3种预测模型的性能随着不平衡率的增大而下降,而代价敏感学习和集成学习能够有效提高它们在分类不平衡时的性能和性能稳定程度.与上述3种模型相比,逻辑回归、朴素贝叶斯和随机森林等模型的性能更加稳定.

说明:如本页面涉及到版权问题或作者不愿意公开,请联系本站管理员删除!

0.172828s