1
试验于2015年进行,地点设在云南省,以烤烟品种K326为试验品种。鲜烟叶成熟度评判标准由烟叶成熟度评判专家结合生产经验与文献给出如表1所示。
按批次在试验地中挑选烟叶,按照上述成熟度特征,在各部位叶片成熟度为欠熟、适熟、过熟时分别采收12~15片,每片烟叶为1个样本。采下后为保证测定结果精确可靠,迅速装入塑封袋,在室内密闭环境下的测量。
采用近红外光谱仪采集样本光谱,仪器配有标准探头和漫反射白板。扫描次数为32次,分辨率为3.5cm-1,积分时间为400us,光谱采集范围为11000~5800cm-1(900~ 1700nm),优化光谱仪扫描条件后,立即进行近红外光谱扫描,其中扫描时,每个样本在视线范围内避开主脉在左右两侧各取6个点,每个点测量3次取平均值,所有点的平均值作为该烟叶的代表光谱。
主成分分析法(Princi-pal Component Analysis,PCA)是以一种最优化方法去浓缩和综合原始数据信息、研究如何将多指标问题转化为较少的综合指标的统计方法,采用舍弃部分线性变换信息,对高维变量空间进行降维处理,达到以少数的综合变量代替原有的多维变量的目的。
PCA对样本分类主要是通过投影判别法,先直接对样本测量数据矩阵进行分解,只取其中的主成分来投影,然后进行判别分析。
PCA所得的主成分轴是该数据矩阵的最大方差方向,且这些主成分轴相互正交,这样就可保证从高维向低维空间投影时尽量多地保留有效信息。
K最近邻算法(K-Nearest Neighbors Algorihm,KNN)是一种简单的机器学习算法,由Cover和Hart于1968年提出,理论比较成熟。
该方法的思路是:若一个样本在特征空间中的K个最相似(特征空间中最邻近)的样本中的大多数属于某一类别,则该样本也属于此类别。
KNN算法中,基于给定的邻居度量方式以及结合经验选取合适的K值,所选择的邻居都是已经正确分类的对象。
该方法在分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
支持向量机(Support Vector Machine,SVM)由Vapinik等人在20世纪90年代提出。
SVM能够结合统计学习优化方法和核函数方法,考虑训练误差(经验风险)和测试错误(期望风险)最小化,在模型的复杂性与学习能力中,根据有限样本信息找到最优的解决办法,并拥有准确的预测和避免过拟合问题等优点。
SVM的核函数有线性核函数、多项式核函数、sigmoid核函数和径向基核函数(RBF核函数)。如何选择出应用SVM的核函数及惩罚参数C和核参数g是关键,不同的参数对SVM的机器学习性能影响较大。
随机森林(Random Forest,RF)是LeoBreiman(2001)提出的一种根据分类回归树模型的集成学习算法,它是采取Bootstrap重复抽取样本的方法,从原始的训练样本集N中有放回地重复随机抽取样本生成k个新的训练集;
同时从初始训练样本集中未能抽取出来的样本组成的集合,称为袋外数据集(out of bag,OOB),再构建多个决策树模型,通过对决策树模型进行投票,得票愈多的决策树模型分类性能愈高。
未完待续......