期刊首页 在线期刊 专题

专题

机器学习—特征选择

随着人工智能的发展,机器学习进入了越来越多的实际应用领域。在机器学习的实际应用中,特征选择作为预处理步骤,是影响分类性能的关键因素。特征的数量通常很大,特征选择可以剔除不相关或冗余的特征,从而减少特征的数量,提高模型的精度,减少运行时间。《电子学报》围绕这一研究主题,汇集了2016年到2021年中关于机器学习中特征选择的9篇相关文章形成本虚拟专栏,旨在推动相关领域的学术研究及机器学习中特征选择的更快发展。感谢您花宝贵的时间阅读这期虚拟专栏。


Please wait a minute...
  • 全选
    |
  • 学术论文
    尹建芹, 田国会, 魏军, 李金屏, 林佳本
    电子学报. 2015, 43(2): 248-254. https://doi.org/10.3969/j.issn.0372-2112.2015.02.007

    频繁模式挖掘在分类问题中得到了广泛的应用,大量的工作利用频繁模式挖掘对分类问题进行特征选择,但对于为什么频繁模式挖掘可以在分类问题中进行有效的特征选择则缺乏系统的研究.为了为频繁模式挖掘在分类问题中的特征选择应用提供理论基础,需要确立特征的支持度与特征分类能力之间的关系,本文以特征的信息增益作为分类能力的评价准则,讨论其与特征支持度之间的联系.首先证明了信息增益是特征支持度的上凸函数;然后,在二类问题和多类问题情况下,分别证明了具有低支持度或高支持度的特征具有有限的信息增益,即具有低支持度或高支持度的特征具有有限的分类能力.最后,通过仿真实验验证了支持度与信息增益之间的关系,为频繁模式挖掘在分类问题中的应用提供了理论基础.

  • 科研通信
    高文, 钱亚冠, 吴春明, 郭晔, 朱凯, 陈双喜
    电子学报. 2015, 43(4): 795-799. https://doi.org/10.3969/j.issn.0372-2112.2015.04.024
    摘要 (432) PDF全文 (1229)   可视化   收藏

    特征选择作为机器学习过程中的预处理步骤,是影响分类性能的关键因素.网络流量具有数据量大,特征维度高的特点,如何快速提取特征子集,并提高分类效率对于基于机器学习的流量分类方法具有重要意义.本文提出基于分治与投票策略的特征提取方法,将数据集分裂为多个子集,分别执行特征提取算法,利用投票方法获得最后的特征子集.实验表明可有效提高特征提取的时间效率,同时使分类器取得良好的分类准确率.

  • 学术论文
    孙雪, 李昆仑, 韩蕾, 白晓亮
    电子学报. 2015, 43(7): 1356-1361. https://doi.org/10.3969/j.issn.0372-2112.2015.07.016
    摘要 (553) PDF全文 (1179)   可视化   收藏

    现有的概念漂移算法大多建立在数据流的分类模型上,忽略了特征空间与样本空间的分布特点,以及特征选择和加权的重要性.针对此问题提出了一种基于特征项分布的信息熵及特征动态加权算法,从概念漂移的动态演化性出发,根据样本和特征空间的拟合程度,运用特征信息熵理论对数据流中的概念漂移现象进行捕捉,以实现新旧概念的过渡.利用改进的隐含Dirichlet模型特征动态加权算法,以解决当前特征与历史特征的权重确定和无效特征的裁剪问题.在公开的语料库CCERT和Trec06上的测试实验证明了所提出算法的有效性.

  • 学术论文
    陈小红, 李霞, 王娜
    电子学报. 2015, 43(7): 1300-1307. https://doi.org/10.3969/j.issn.0372-2112.2015.07.008
    摘要 (688) PDF全文 (1353)   可视化   收藏

    目标降维算法通过去除冗余的目标达到简化问题规模的目的,为求解高维多目标优化问题提供了一种新的思路和方法.近似解集的几何结构特征和Pareto占优关系从不同侧面反映了多目标优化问题的内在结构特性,而现有算法仅利用其中一种特征分析目标之间的关系,具有较大局限性.本文提出基于稀疏特征选择的目标降维方法,该方法利用近似解集的几何结构特征构建稀疏回归模型,求解高维目标空间映射为低维目标子空间的稀疏投影矩阵,依据此矩阵度量目标的重要性,并利用Pareto占优关系改变程度选择满足误差阈值的目标子集,实现目标降维.通过与其他已有目标降维算法比较,实验结果表明本文提出的降维算法具有较高的准确性,并且受近似解集质量的影响较小.

  • 学术论文
    申健, 夏靖波, 张晓燕, 赵广辉, 付凯
    电子学报. 2017, 45(1): 128-134. https://doi.org/10.3969/j.issn.0372-2112.2017.01.018
    摘要 (361) PDF全文 (1148)   可视化   收藏

    网络业务流量的多样化高速化发展给流量识别技术带来了极大挑战,特征选择作为对数据降维处理的有效方法,具有重要的研究意义.本文描述了流量二次特征选择模型,并以此为基础提出了流量二次特征选择算法.算法将流量数据分为若干数据子集进行分治处理,对各数据子集提取出的特征进行汇总,以提出的影响度这一指标作为特征评估排序的依据,进行二次特征提取.实验表明,提出的算法在模型构建上性能更加优越,并且可以选取更少的特征实现对流量更准确的识别.

  • 学术论文
    席旭刚, 汤敏彦, 张自豪, 张启忠, 罗志增
    电子学报. 2017, 45(11): 2735-2741. https://doi.org/10.3969/j.issn.0372-2112.2017.11.022
    为了提高下肢运动模式识别率,本文设计了一种融合表面肌电和加速度信号的下肢运动模式识别方法.首先,用局部均值分解将表面肌电信号分解为多个乘积函数(Product Functions,PFs),再计算PF成分的多尺度排序熵.然后,通过拉普拉斯权重(Laplacian score,LS)特征选择算法选定每路肌电信号的一个尺度排序熵为特征,并把该特征和加速度信号的排序熵组成特征向量.最后,根据类内欧氏距离和类间样本分布,设计了改进的二叉树支持向量机,把特征向量输入该支持向量机进行下肢运动模式分类.实验结果表明所提方法对七个日常动作的平均识别率达到98.62%,相较于其他方法有较高的识别率.
  • 学术论文
    周光兵, 宋华军, 吴玉兴, 任鹏
    电子学报. 2018, 46(10): 2384-2390. https://doi.org/10.3969/j.issn.0372-2112.2018.10.011
    3D图像刚性配准旨在将一个图像映射到另一个具有相同场景的图像上,已经在医学诊断和其它领域中得到了广泛的应用.已有的方法大都基于特征点和针对特定的约束条件,带来了特征选择耗时多,随机性强,而且约束条件使用不灵活等问题.针对这些问题,提出直接使用图像灰度值的无特征3D刚性配准方法.该方法使用泰勒展开式和最小二乘法直接计算待配准图像的变换参数,并且使用较少的数据点完成快速的配准.实验结果表明,提出的算法获得较高的精度,并且使用少量的数据仍可以有效计算,这一特性使得它在大数据3D图像应用中更有吸引力.
  • 学术论文
    方佳艳, 刘峤
    电子学报. 2020, 48(1): 44-58. https://doi.org/10.3969/j.issn.0372-2112.2020.01.006
    本文提出了一种新的带有同步化特征选择的聚类算法,称为"具有同步化特征选择的迭代紧凑非平行支持向量聚类算法"(IT-NHSVC-SFS).在具有两个非平行超平面的学习模型中使用迭代(交替)优化算法完成聚类,同时引入两种类型的正则项,分别是欧几里得范数和无穷范数,欧几里得范数用于提升聚类模型的泛化能力,无穷范数实际上是对两个非平行超平面进行同步化地隐式特征抽取,从而降低来自于不相关特征的聚类噪音,保证了模型的聚类精度,并引入一组束缚变量(bounding variables)避免无穷范数的最大化操作,将非凸优化问题转化成二次凸优化问题.同时,由于新提出的模型体现着"最大间隔"的思想,因此具有良好的泛化能力.为了方便实现两个非平行超平面同步化的特征选择过程,文中将非平行超平面SVM(Nonparallel Hyperplane SVM,NHSVM)作为IT-NHSVC-SFS算法的基础模型,因此和TWSVM以及它的变体模型不同的是:只需要求解一个二次规划问题(QP问题)就可以同时得到两个最优超平面.同时,新算法在原有的NHSVM模型的约束条件集合中新添加了两组等式约束条件,从而无需进行原有模型中的两个大矩阵的求逆操作,降低了计算复杂度.此外,在IT-NHSVC-SFS模型中,用拉普拉斯损失函数(Laplacian loss measure)代替了NHSVM模型原有的铰链损失函数(hinge loss function),避免了算法早熟收敛(premature convergence).在一组标准数据集上的数值实验结果表明,相对于其他已有的聚类算法,IT-NHSVC-SFS算法在聚类精度方面具有更好的表现.
  • 学术论文
    周伯阳, 郭志民, 王延松, 阮伟, 吴春明, 周宁, 张伟, 程国振
    电子学报. 2020, 48(8): 1552-1557. https://doi.org/10.3969/j.issn.0372-2112.2020.08.013
    电力无线接入网的安全性对于电网生产至关重要,然而由于其IEC 60870-5-104规约控制数据存在着高维度的特点,且无线信道质量动态变化,难以快速、有效地检测控制数据的异常.鉴于此,本文提出了一种基于多尺度低秩的电力无线网异常流量检测器,首先构建一种规约深度分析的多尺度低秩模型,对其安全特征进行归一化和维度缩减,然后采用改进的递归特征选取和聚焦分类算法实现异常数据的检测.实验结果表明异常流量分类的准确性和维度缩减的性能.