随着人工智能的发展,机器学习进入了越来越多的实际应用领域。在机器学习的实际应用中,特征选择作为预处理步骤,是影响分类性能的关键因素。特征的数量通常很大,特征选择可以剔除不相关或冗余的特征,从而减少特征的数量,提高模型的精度,减少运行时间。《电子学报》围绕这一研究主题,汇集了2016年到2021年中关于机器学习中特征选择的9篇相关文章形成本虚拟专栏,旨在推动相关领域的学术研究及机器学习中特征选择的更快发展。感谢您花宝贵的时间阅读这期虚拟专栏。
网络业务流量的多样化高速化发展给流量识别技术带来了极大挑战,特征选择作为对数据降维处理的有效方法,具有重要的研究意义.本文描述了流量二次特征选择模型,并以此为基础提出了流量二次特征选择算法.算法将流量数据分为若干数据子集进行分治处理,对各数据子集提取出的特征进行汇总,以提出的影响度这一指标作为特征评估排序的依据,进行二次特征提取.实验表明,提出的算法在模型构建上性能更加优越,并且可以选取更少的特征实现对流量更准确的识别.
现有的概念漂移算法大多建立在数据流的分类模型上,忽略了特征空间与样本空间的分布特点,以及特征选择和加权的重要性.针对此问题提出了一种基于特征项分布的信息熵及特征动态加权算法,从概念漂移的动态演化性出发,根据样本和特征空间的拟合程度,运用特征信息熵理论对数据流中的概念漂移现象进行捕捉,以实现新旧概念的过渡.利用改进的隐含Dirichlet模型特征动态加权算法,以解决当前特征与历史特征的权重确定和无效特征的裁剪问题.在公开的语料库CCERT和Trec06上的测试实验证明了所提出算法的有效性.
目标降维算法通过去除冗余的目标达到简化问题规模的目的,为求解高维多目标优化问题提供了一种新的思路和方法.近似解集的几何结构特征和Pareto占优关系从不同侧面反映了多目标优化问题的内在结构特性,而现有算法仅利用其中一种特征分析目标之间的关系,具有较大局限性.本文提出基于稀疏特征选择的目标降维方法,该方法利用近似解集的几何结构特征构建稀疏回归模型,求解高维目标空间映射为低维目标子空间的稀疏投影矩阵,依据此矩阵度量目标的重要性,并利用Pareto占优关系改变程度选择满足误差阈值的目标子集,实现目标降维.通过与其他已有目标降维算法比较,实验结果表明本文提出的降维算法具有较高的准确性,并且受近似解集质量的影响较小.
特征选择作为机器学习过程中的预处理步骤,是影响分类性能的关键因素.网络流量具有数据量大,特征维度高的特点,如何快速提取特征子集,并提高分类效率对于基于机器学习的流量分类方法具有重要意义.本文提出基于分治与投票策略的特征提取方法,将数据集分裂为多个子集,分别执行特征提取算法,利用投票方法获得最后的特征子集.实验表明可有效提高特征提取的时间效率,同时使分类器取得良好的分类准确率.
频繁模式挖掘在分类问题中得到了广泛的应用,大量的工作利用频繁模式挖掘对分类问题进行特征选择,但对于为什么频繁模式挖掘可以在分类问题中进行有效的特征选择则缺乏系统的研究.为了为频繁模式挖掘在分类问题中的特征选择应用提供理论基础,需要确立特征的支持度与特征分类能力之间的关系,本文以特征的信息增益作为分类能力的评价准则,讨论其与特征支持度之间的联系.首先证明了信息增益是特征支持度的上凸函数;然后,在二类问题和多类问题情况下,分别证明了具有低支持度或高支持度的特征具有有限的信息增益,即具有低支持度或高支持度的特征具有有限的分类能力.最后,通过仿真实验验证了支持度与信息增益之间的关系,为频繁模式挖掘在分类问题中的应用提供了理论基础.