色婷五月,bbw是什么,国产你懂的,国产AV无码专区亚洲精品

產(chǎn)品分類
文章詳情

近紅外光譜無損檢測技術中數(shù)據(jù)的分析方法概述

日期:2024-09-20 07:32
瀏覽次數(shù):234
摘要: 近紅外光譜檢測技術的成本低,對于樣本無損傷、無污染、方便在線分析。在食品無損檢測中得到了廣泛的應用。 近紅外光譜技術是建立一個穩(wěn)定可靠的定性或者定量模型來實現(xiàn)數(shù)據(jù)樣本的校準,常用于定性分析。定性分析中常用的方法有主成分分析法(principal component analysis ,PCA)、模式識別方法等;定量分析中常用的方法主要是各種多元校正技術,如偏*小二乘回歸(partial least squares ,PLS)、支持向量機(support vector machine ,SVM)以及神經(jīng)網(wǎng)絡算法(back propagation ,BP)等。 ...

近紅外光譜檢測技術的成本低,對于樣本無損傷、無污染、方便在線分析。在食品無損檢測中得到了廣泛的應用。

 

 

近紅外光譜技術是建立一個穩(wěn)定可靠的定性或者定量模型來實現(xiàn)數(shù)據(jù)樣本的校準,常用于定性分析。定性分析中常用的方法有主成分分析法(principal component analysis ,PCA)、模式識別方法等;定量分析中常用的方法主要是各種多元校正技術,如偏*小二乘回歸(partial least squares ,PLS)、支持向量機(support vector machine ,SVM)以及神經(jīng)網(wǎng)絡算法(back propagation ,BP)等。

 

 

偏*小二乘法

 

偏*小二乘法(partial least squares ,PLS)是一種新的多元校正方法,可以建立多元的回歸模型,主要是基于因子分析。偏*小二乘法的原理是首先將樣本的光譜矩陣X和光譜濃度矩陣Y進行分解,同時把包含在樣本中的信息引入進來,分解后提取出樣本中的m個主因子,如公式(1)所示:

 

式(1)中:測量矩陣X和Y的得分矩陣分別是T和U;tkuk分別表示光譜矩陣X的第k個主成分因子和濃度矩陣的第k個主成分因子;pkqk表示主成分因子的載荷,m為成分因子的個數(shù)。對于和進行線性關聯(lián),如公式(2)所示:

在進行回歸預測時,首先求出未知樣品光譜矩陣的得分Tx,再根據(jù)公式(3)得到組分濃度預測值,如公式(3)所示:

在該算法的整個運算過程中,矩陣的分解和回歸分析是同時進行的,計算新的主成分時,首先交換T和U,使的主成分和測量矩陣Y直接關聯(lián)。偏*小二乘PLS算法分析是通過建立光譜數(shù)據(jù)和品種分類之間的回歸模型來實現(xiàn)的。使用PLS分析得到的結(jié)果中,不僅可以建立更優(yōu)化的回歸模型,還可以同時進行主成分分析來簡化數(shù)據(jù)結(jié)構(gòu),觀察變量之間的相互關系等研究內(nèi)容,提供更多的建模信息。所有的獨立變量都可以包含在*終建立的回歸模型中,PLS可以有效解決變量多重性問題。

 

主成分分析

 

主成分分析是一種線性投影方法,它主要被應用在多元統(tǒng)計分析中,在不損害樣本的原始信息的前提下,對高維數(shù)據(jù)進行降維處理,將其映射到低維空間中。PCA的基本思路是通過*優(yōu)化方法簡化樣本的數(shù)據(jù)矩陣,降低維數(shù),從原本樣本的指標中,得到幾個主成分,用來揭示樣本中包含的信息。

計算步驟首先是對原始數(shù)據(jù)矩陣X進行拆分,如公式(4)所示:

 

借助投影矩陣LTX投影到多維子空間。T中的列向量和L中的列向量是相互正交的關系,如公式(5)所示:

 

重建后的數(shù)據(jù)變量相互獨立,各主成分按照方差順序進行排列,**主成分包含了數(shù)據(jù)方差的絕大部分,排名越靠前的主成分,其所包含的的數(shù)據(jù)信息量越大。經(jīng)過計算所得到的新的橫坐標是樣本原來變量的線性組合。**主成分元素可以表示為如下形式:

 

主成分分析的對象減少,從而可以有效地降低分析的工作量和誤差。分析過程中只使用獨立變量,這樣可以達到消除噪音的目的。對數(shù)據(jù)進行降維處理可以幫助信息的提取和聚類分析。

BP神經(jīng)網(wǎng)絡算法

 

BP算法又稱為誤差反向傳播算法,是人工神經(jīng)網(wǎng)絡中的一種基于誤差反向傳播的監(jiān)督式學習算法。在理論上,BP神經(jīng)網(wǎng)絡算法可以逼近任意函數(shù),基本的結(jié)構(gòu)是由很多非線性變化的單元組成,具有實現(xiàn)輸入和輸出數(shù)據(jù)高度非線性映射能力。人工神經(jīng)網(wǎng)絡是對人類大腦結(jié)構(gòu)以及信息處理運作過程進行模擬之后,提出的信息處理系統(tǒng)。因此具有自學習和自適應的能力。

 

BP神經(jīng)網(wǎng)絡的計算包括正向和反向兩個子過程。正向傳播過程中,是從輸入層逐層轉(zhuǎn)向傳出層。如果輸出和期望不同的時候,則進行反向傳播,把誤差沿著正向傳播路徑的原路徑反向傳播回去,經(jīng)過各個神經(jīng)元的修改,使得誤差達到*小。BP神經(jīng)網(wǎng)絡法的缺點是學習速度慢;在解決全局問題時,很有可能陷入局部*優(yōu)化,使得訓練失?。挥捎趯W習能力和泛化能力之間的矛盾,過程中容易出現(xiàn)“過擬合”現(xiàn)象。

 

支持向量機算法

 

支持向量機算法的優(yōu)化原則是采用以結(jié)構(gòu)化風險*小化取代我們常用的經(jīng)驗風險*小化;基本思想是利用核函數(shù)代替向高維空間的非線性映射,對于樣本,若是非線性可再分,則構(gòu)建一個或多個甚至無限多個高維的超平面,在經(jīng)過變換后的高維空間,利用這個超平面來對樣本點進行分類。一個好的超平面要求離分類邊界*近的訓練樣本點的與分類邊界的距離越大越好,這個距離被稱之為間隔(Margin),這些樣本點被稱之為支持向量。SVM的目標就是要找出使間隔*大的分類超平面。

給定的樣本集,步驟一般如下:首先要將樣本集分為訓練集和測試集,訓練集是(x1,y1) (x2,y2)…(xi,yi),其中橫坐標xi∈Rn為輸入變量的值,yi∈Rn為相應的輸出值。通過對訓練集進行機器學習,尋求*優(yōu)化的模式M(x),要求這個模式不僅滿足訓練集輸入和輸出的對應關系,而且對于測試集的樣本輸入變量的值進行預測,同樣能得到效果較好的輸出。

在支持向量機算法中,使用不同的核函數(shù)會產(chǎn)生不同的算法,因為SVM具有優(yōu)良的泛化能力,所以是一種適合小樣本的學習方法。在SVM進行分類的時候,起到?jīng)Q定性作用的是支持向量。計算的復雜性取決于支持向量的數(shù)目,在實驗的過程中只需要抓住關鍵的樣本。SVM在運算的過程中很少涉及到概率測度及大數(shù)定律等規(guī)律,而且支持向量法整體具有較好的“魯棒”性。

在數(shù)據(jù)挖掘的實際應用中,一般要解決多類的分類問題。如:將SVM與粗集理論結(jié)合,形成一種優(yōu)勢互補的多類問題的組合分類器。

*小二乘支持向量機算法

 

  

*小二乘支持向量機(least square support vector machines ,LS—SVM)是支持向量機的一種類型,是在經(jīng)典SVM的基礎上改進得來的。LS—SVM既可以進行線性,也可以進行非線性的多元建模,支持少量的訓練樣本中高維特征空間的學習,是解決多元建模的一種快速方法。*小二乘支持向量機具有建模速度快、優(yōu)化參數(shù)少、泛化能力強等優(yōu)點,因此被廣泛應用于近紅外光譜技術檢測的定量分析中。*小二乘支持向量機同時具有很好的非線性處理能力,可以用于快速建立多元模型。

 


K*近鄰分類算法

 

K*近鄰分類算法(K-nearest neighbor,KNN)算法中每個樣本都可以用它*接近的k個鄰居來代表。KNN算法的核心思想是在特征空間中,如果以一個樣本為中心,它周圍*相鄰的k個樣本,它們大多數(shù)屬于某一個類別,則這個樣本也屬于這個類別,并且具有這個類別上其他k個樣本的特性。

 

如圖1所示,有三類不同樣本,分別以方框、空心圓點和實心圓點表示。其中以“+”標記出的樣本,需要分析出它所屬的類別。在此圖中以該樣本作為圓心,畫出兩個圓,如果以小圓為界線,只有2個實心圓點落在小圓的范圍內(nèi),此時按照KNN原理應該將樣本劃分為實心圓點那一類。如果以大圓為界線,共有10個點落在了大圓的范圍內(nèi),其中有3個方框類,有8個實心圓點類,按照KNN理論,也應該被劃為實心圓點這一類。這說明K值的大小對判別的結(jié)果是有一定的影響的。如果K>1,則這K個*近鄰樣本不一定都屬于這一類。如果K=1,很自然這一個*近鄰樣本屬于哪類,那么未知樣本就屬于此類。

KNN分類算法的*大優(yōu)點是其適合于屬性較多或者數(shù)據(jù)量很大的問題。在進行數(shù)據(jù)處理的過程中,不需要提前設計分類器對訓練樣本進行分類,而是可以直接進行分類,確定每個類的類標識號,不需要估計參數(shù),無需訓練;在解決多分類的問題上KNN比SVM表現(xiàn)要好。KNN在實際的應用中存在下面兩個問題:當對估計參數(shù)沒有相應的限制時,訓練集的數(shù)目又比較大,這時尋找*近鄰所花費的時間較長。其次,對于觀測集的增長速度有較高要求。

 

線性判別分析法

 

主要用來判斷樣品的類別,即可以對樣品中的成分進行定性分析,線性判別分析法(linear discriminant analysis,LDA)在醫(yī)學診斷、氣象學、市場預測、經(jīng)濟學和地質(zhì)勘探等領域中均已起著重要作用。

LDA算法的基本思想是通過特征向量將已經(jīng)分組的數(shù)據(jù)向低維的方向投影,使得同一個組的數(shù)據(jù)關系更為緊密,不同組的之間盡可能的分開。LDA的目標是要根據(jù)樣本中的n個指標變量x=(x1x2,…,xnT建立一個*優(yōu)分類判別函數(shù),判別函數(shù)的建立*終是尋找一個矢量w=(w1w2,…,wnT,那建立一個如下的判別模型,如公式(9)所示:

 

矢量w是個常數(shù),稱作閥值權(quán),相應的決策規(guī)則則可表示為,如公式(10)所示:

 

f(w,x)=0是相應的決策面方程,如公式(11)所示:

 

f(w,x)也就是該決策面到d維空間中任一點w距離的代數(shù)度量,根據(jù)其到該面距離的正負號,該決策平面將樣本分類,并且確定出相應的類別。W(w0≠0)表示的是決策面在特征空間中的位置,當其值為0時,表示這個決策面過原點。

 

 

連續(xù)投影算法

 

連續(xù)投影算法(successive projections algorithm,SPA)是在線性空間中,使共線性達到*小化的一種前向變量選擇算法。設定標集中樣品個數(shù)為n,包含波長數(shù)為m,組成一個光譜矩陣Xn×m,SPA從任選一個波長作為起始波長點,循環(huán)進行搜索,搜索投影中沒有被引入波長組合的部分,每次都將*大的投影方向不斷地引入,直到循環(huán)W(w<n-1)次以后,就可以形成一個波長鏈,使得此鏈中的任意相鄰兩個波長之間線性關系*小。算法如下:初始化波長:令n=1,任取一個波長xj作為算法循環(huán)的起始點,記為Xm(0)。把剩下的沒有選擇到波長鏈中的所有波長,記為一個集合s={j,1≤j≤m,j ?{m(0),m(1),…,m(n-1)}}計算S中波長與xj的投影向量,如公式(12)所示:

 

選擇其中*大的投影,并且記錄下相應序號作為入選的波長,如公式(13)所示:

 

n=w時停止循環(huán),否則返回到**步不斷地做投影優(yōu)選波長。這樣總共得到w×m個模型。

連續(xù)投影算法的優(yōu)點是:*大程度的降低了變量之間的共線性,提取*低限度的冗余信息變量組可以減少建立模型所需要變量的個數(shù),提高建模效率和速度。

 

以上算法都是近紅外光譜在建立定性或定量模型中的常見算法。但目前很多商用的近紅外光譜儀將算法整合到建模軟件中,并不需要使用人員完全了解算法即可建模。但今后近紅外的發(fā)展離不開人們對算法的研究??梢灶A見的是,隨著近紅外的發(fā)展普及,越來越多人會對近紅外的算法產(chǎn)生興趣。隨著時代,未來將會有新的技術誕生,給光譜儀產(chǎn)業(yè)帶來翻天覆地的變化。

 

粵公網(wǎng)安備 44010302000429號