针对谱聚类算法self-tuning的局部尺度参数σi会受噪音点影响,进而影响聚类结果,及其所使用的K-means算法的不稳定,对聚类结果的影响,提出两种完全自适应的谱聚类算法SC_SD(Spectral Clustering based on Standard Deviation)和SC_MD(Spectral Clustering based on Mean Distance),分别定义样本i的标准差、样本i到其余样本的距离均值,为样本i的邻域半径,统计邻域内的样本数,以样本i的邻域标准差为其局部尺度参数,避免样本i的局部尺度参数受噪音点影响,进而影响聚类结果;以方差优化初始聚类中心的SD_K-medoids算法代替K-means算法,克服K-means算法的不稳定,发现数据的真实分布.UCI数据集和人工数据集实验测试表明,提出的SC_SD和SC_MD算法能得到更优聚类结果,不受噪音点影响,有很好的伸缩性.提出的SC_SD和SC_MD能完全自适应地发现数据集的真实分布信息,尤其SC_MD算法很适合较大规模数据集的聚类分析.
为满足多品种小批次、大规模定制模式下有效划分产品族的需求,全面分析BOM(Bill of Materials,物料清单)所包含的特征,概括已有结构近似方法并提出内容近似度量模型,在此基础上提出组合两者的集成模型.结构近似模型方面,以包含BOM层次结构和物料数量的相邻矩阵表示BOM,利用正交普氏分析法计算BOM与BOM之间的近似程度.内容近似模型方面,从BOM文本中提取有效特征,引入逆向词频法将文本特征转换成机器可识别向量形式,采用余弦近似公式完成向量近似的计算.集成模型提出基于基尼系数的权重分配方法集成结构和内容两种模型.最后,提供测试框架并通过实验评价集成模型较已有方法在模型性能及训练耗时上的优劣.
基于Babin模型并分析了海上蒸发波导对气象输入参数的敏感性,引入数值天气预报中集合预报的思路,提出了一种新的蒸发波导诊断方法——集合诊断方法(Babin_Ens法).运用它对中国近海4个岛屿站点的实测数据进行了波导诊断结果的对比验证,发现:与Babin模型(Babin法)相比,Babin_Ens法使波导高度与强度偏差的平均改进率分别达到了23.49%与19.29%.进一步尝试运用Babin_Ens法对WRF(Weather Research and Forecasting)模式的预报信息进行了蒸发波导的数值预报,波导高度与强度预报偏差的平均改进率分别提高了14.01%和16.92%.研究表明,集合诊断可以显著地提高波导信息的诊断准确度,是一种改进蒸发波导诊断准确度的可行途径.
本文提出了有监督的关键词抽取算法——KEING(Keyphrase Extraction using sequentIal patterns with oNe-off and General gaps condition)算法.首先,将每篇文档作为一个序列库,利用SPING(Sequential Patterns mIning with oNe-off and General gaps condition)算法获取词语之间的关系及其多种变化形式,并利用统计模式特征的方式描述候选关键词;然后,通过朴素贝叶斯分类算法对大量带标记的训练数据进行训练,构造分类器;最后利用分类器从测试文档中识别出关键词.通过实验验证了SPING算法的完备性以及KEING算法的有效性.