產(chǎn)品分類

文章詳情

近紅外光譜無損檢測技術中數(shù)據(jù)的分析方法概述

日期：2024-09-20 07:32

瀏覽次數(shù)：234

摘要：近紅外光譜檢測技術的成本低，對于樣本無損傷、無污染、方便在線分析。在食品無損檢測中得到了廣泛的應用。近紅外光譜技術是建立一個穩(wěn)定可靠的定性或者定量模型來實現(xiàn)數(shù)據(jù)樣本的校準，常用于定性分析。定性分析中常用的方法有主成分分析法（principal component analysis ，PCA）、模式識別方法等；定量分析中常用的方法主要是各種多元校正技術，如偏*小二乘回歸（partial least squares ，PLS）、支持向量機（support vector machine ，SVM）以及神經(jīng)網(wǎng)絡算法（back propagation ，BP）等。 ...

近紅外光譜檢測技術的成本低，對于樣本無損傷、無污染、方便在線分析。在食品無損檢測中得到了廣泛的應用。

近紅外光譜技術是建立一個穩(wěn)定可靠的定性或者定量模型來實現(xiàn)數(shù)據(jù)樣本的校準，常用于定性分析。定性分析中常用的方法有主成分分析法（principal component analysis ，PCA）、模式識別方法等；定量分析中常用的方法主要是各種多元校正技術，如偏*小二乘回歸（partial least squares ，PLS）、支持向量機（support vector machine ，SVM）以及神經(jīng)網(wǎng)絡算法（back propagation ，BP）等。

偏*小二乘法

偏*小二乘法（partial least squares ，PLS）是一種新的多元校正方法，可以建立多元的回歸模型，主要是基于因子分析。偏*小二乘法的原理是首先將樣本的光譜矩陣X和光譜濃度矩陣Y進行分解，同時把包含在樣本中的信息引入進來，分解后提取出樣本中的m個主因子，如公式（1）所示：

式（1）中：測量矩陣X和Y的得分矩陣分別是T和U；t_k和u_k分別表示光譜矩陣X的第k個主成分因子和濃度矩陣的第k個主成分因子；p_k和q_k表示主成分因子的載荷，m為成分因子的個數(shù)。對于和進行線性關聯(lián)，如公式（2）所示：

在進行回歸預測時，首先求出未知樣品光譜矩陣的得分T_x，再根據(jù)公式（3）得到組分濃度預測值，如公式（3）所示：

在該算法的整個運算過程中，矩陣的分解和回歸分析是同時進行的，計算新的主成分時，首先交換T和U，使的主成分和測量矩陣Y直接關聯(lián)。偏*小二乘PLS算法分析是通過建立光譜數(shù)據(jù)和品種分類之間的回歸模型來實現(xiàn)的。使用PLS分析得到的結(jié)果中，不僅可以建立更優(yōu)化的回歸模型，還可以同時進行主成分分析來簡化數(shù)據(jù)結(jié)構(gòu)，觀察變量之間的相互關系等研究內(nèi)容，提供更多的建模信息。所有的獨立變量都可以包含在*終建立的回歸模型中，PLS可以有效解決變量多重性問題。

主成分分析

主成分分析是一種線性投影方法，它主要被應用在多元統(tǒng)計分析中，在不損害樣本的原始信息的前提下，對高維數(shù)據(jù)進行降維處理，將其映射到低維空間中。PCA的基本思路是通過*優(yōu)化方法簡化樣本的數(shù)據(jù)矩陣，降低維數(shù)，從原本樣本的指標中，得到幾個主成分，用來揭示樣本中包含的信息。

計算步驟首先是對原始數(shù)據(jù)矩陣X進行拆分，如公式（4）所示：

借助投影矩陣L^T將X投影到多維子空間。T中的列向量和L中的列向量是相互正交的關系，如公式（5）所示：

重建后的數(shù)據(jù)變量相互獨立，各主成分按照方差順序進行排列，**主成分包含了數(shù)據(jù)方差的絕大部分，排名越靠前的主成分，其所包含的的數(shù)據(jù)信息量越大。經(jīng)過計算所得到的新的橫坐標是樣本原來變量的線性組合。**主成分元素可以表示為如下形式：

主成分分析的對象減少，從而可以有效地降低分析的工作量和誤差。分析過程中只使用獨立變量，這樣可以達到消除噪音的目的。對數(shù)據(jù)進行降維處理可以幫助信息的提取和聚類分析。

BP神經(jīng)網(wǎng)絡算法

BP算法又稱為誤差反向傳播算法，是人工神經(jīng)網(wǎng)絡中的一種基于誤差反向傳播的監(jiān)督式學習算法。在理論上，BP神經(jīng)網(wǎng)絡算法可以逼近任意函數(shù)，基本的結(jié)構(gòu)是由很多非線性變化的單元組成，具有實現(xiàn)輸入和輸出數(shù)據(jù)高度非線性映射能力。人工神經(jīng)網(wǎng)絡是對人類大腦結(jié)構(gòu)以及信息處理運作過程進行模擬之后，提出的信息處理系統(tǒng)。因此具有自學習和自適應的能力。

BP神經(jīng)網(wǎng)絡的計算包括正向和反向兩個子過程。正向傳播過程中，是從輸入層逐層轉(zhuǎn)向傳出層。如果輸出和期望不同的時候，則進行反向傳播，把誤差沿著正向傳播路徑的原路徑反向傳播回去，經(jīng)過各個神經(jīng)元的修改，使得誤差達到*小。BP神經(jīng)網(wǎng)絡法的缺點是學習速度慢；在解決全局問題時，很有可能陷入局部*優(yōu)化，使得訓練失?。挥捎趯W習能力和泛化能力之間的矛盾，過程中容易出現(xiàn)“過擬合”現(xiàn)象。

支持向量機算法

支持向量機算法的優(yōu)化原則是采用以結(jié)構(gòu)化風險*小化取代我們常用的經(jīng)驗風險*小化；基本思想是利用核函數(shù)代替向高維空間的非線性映射，對于樣本，若是非線性可再分，則構(gòu)建一個或多個甚至無限多個高維的超平面，在經(jīng)過變換后的高維空間，利用這個超平面來對樣本點進行分類。一個好的超平面要求離分類邊界*近的訓練樣本點的與分類邊界的距離越大越好，這個距離被稱之為間隔（Margin），這些樣本點被稱之為支持向量。SVM的目標就是要找出使間隔*大的分類超平面。

給定的樣本集，步驟一般如下：首先要將樣本集分為訓練集和測試集，訓練集是(x₁,y₁) (x₂,y₂)…(x_i,y_i)，其中橫坐標x_i∈Rⁿ為輸入變量的值，y_i∈Rⁿ為相應的輸出值。通過對訓練集進行機器學習，尋求*優(yōu)化的模式M（x），要求這個模式不僅滿足訓練集輸入和輸出的對應關系，而且對于測試集的樣本輸入變量的值進行預測，同樣能得到效果較好的輸出。

在支持向量機算法中，使用不同的核函數(shù)會產(chǎn)生不同的算法，因為SVM具有優(yōu)良的泛化能力，所以是一種適合小樣本的學習方法。在SVM進行分類的時候，起到?jīng)Q定性作用的是支持向量。計算的復雜性取決于支持向量的數(shù)目，在實驗的過程中只需要抓住關鍵的樣本。SVM在運算的過程中很少涉及到概率測度及大數(shù)定律等規(guī)律，而且支持向量法整體具有較好的“魯棒”性。

在數(shù)據(jù)挖掘的實際應用中，一般要解決多類的分類問題。如：將SVM與粗集理論結(jié)合，形成一種優(yōu)勢互補的多類問題的組合分類器。

*小二乘支持向量機算法

*小二乘支持向量機（least square support vector machines ，LS—SVM）是支持向量機的一種類型，是在經(jīng)典SVM的基礎上改進得來的。LS—SVM既可以進行線性，也可以進行非線性的多元建模，支持少量的訓練樣本中高維特征空間的學習，是解決多元建模的一種快速方法。*小二乘支持向量機具有建模速度快、優(yōu)化參數(shù)少、泛化能力強等優(yōu)點，因此被廣泛應用于近紅外光譜技術檢測的定量分析中。*小二乘支持向量機同時具有很好的非線性處理能力，可以用于快速建立多元模型。

K*近鄰分類算法

在K*近鄰分類算法（K-nearest neighbor，KNN）算法中每個樣本都可以用它*接近的k個鄰居來代表。KNN算法的核心思想是在特征空間中，如果以一個樣本為中心，它周圍*相鄰的k個樣本，它們大多數(shù)屬于某一個類別，則這個樣本也屬于這個類別，并且具有這個類別上其他k個樣本的特性。

如圖1所示，有三類不同樣本，分別以方框、空心圓點和實心圓點表示。其中以“+”標記出的樣本，需要分析出它所屬的類別。在此圖中以該樣本作為圓心，畫出兩個圓，如果以小圓為界線，只有2個實心圓點落在小圓的范圍內(nèi)，此時按照KNN原理應該將樣本劃分為實心圓點那一類。如果以大圓為界線，共有10個點落在了大圓的范圍內(nèi)，其中有3個方框類，有8個實心圓點類，按照KNN理論，也應該被劃為實心圓點這一類。這說明K值的大小對判別的結(jié)果是有一定的影響的。如果K>1，則這K個*近鄰樣本不一定都屬于這一類。如果K=1，很自然這一個*近鄰樣本屬于哪類，那么未知樣本就屬于此類。

KNN分類算法的*大優(yōu)點是其適合于屬性較多或者數(shù)據(jù)量很大的問題。在進行數(shù)據(jù)處理的過程中，不需要提前設計分類器對訓練樣本進行分類，而是可以直接進行分類，確定每個類的類標識號，不需要估計參數(shù)，無需訓練；在解決多分類的問題上KNN比SVM表現(xiàn)要好。KNN在實際的應用中存在下面兩個問題：當對估計參數(shù)沒有相應的限制時，訓練集的數(shù)目又比較大，這時尋找*近鄰所花費的時間較長。其次，對于觀測集的增長速度有較高要求。

線性判別分析法

主要用來判斷樣品的類別，即可以對樣品中的成分進行定性分析，線性判別分析法（linear discriminant analysis，LDA）在醫(yī)學診斷、氣象學、市場預測、經(jīng)濟學和地質(zhì)勘探等領域中均已起著重要作用。

LDA算法的基本思想是通過特征向量將已經(jīng)分組的數(shù)據(jù)向低維的方向投影，使得同一個組的數(shù)據(jù)關系更為緊密，不同組的之間盡可能的分開。LDA的目標是要根據(jù)樣本中的n個指標變量x=（x₁，x₂，…，x_n）^T建立一個*優(yōu)分類判別函數(shù)，判別函數(shù)的建立*終是尋找一個矢量w=（w₁，w₂，…，w_n）^T，那建立一個如下的判別模型，如公式（9）所示：

矢量w是個常數(shù)，稱作閥值權(quán)，相應的決策規(guī)則則可表示為，如公式（10）所示：

f（w，x）=0是相應的決策面方程，如公式（11）所示：

f（w，x）也就是該決策面到d維空間中任一點w距離的代數(shù)度量，根據(jù)其到該面距離的正負號，該決策平面將樣本分類，并且確定出相應的類別。W（w₀≠0）表示的是決策面在特征空間中的位置，當其值為0時，表示這個決策面過原點。

連續(xù)投影算法

連續(xù)投影算法（successive projections algorithm，SPA）是在線性空間中，使共線性達到*小化的一種前向變量選擇算法。設定標集中樣品個數(shù)為n，包含波長數(shù)為m，組成一個光譜矩陣X_n×m，SPA從任選一個波長作為起始波長點，循環(huán)進行搜索，搜索投影中沒有被引入波長組合的部分，每次都將*大的投影方向不斷地引入，直到循環(huán)W（w<n-1）次以后，就可以形成一個波長鏈，使得此鏈中的任意相鄰兩個波長之間線性關系*小。算法如下：初始化波長：令n=1，任取一個波長x_j作為算法循環(huán)的起始點，記為X_m（0）。把剩下的沒有選擇到波長鏈中的所有波長，記為一個集合s={j，1≤j≤m，j ?{m（0），m（1），…，m（n-1）}}計算S中波長與x_j的投影向量，如公式（12）所示：

選擇其中*大的投影，并且記錄下相應序號作為入選的波長，如公式（13）所示：

當n=w時停止循環(huán)，否則返回到**步不斷地做投影優(yōu)選波長。這樣總共得到w×m個模型。

連續(xù)投影算法的優(yōu)點是：*大程度的降低了變量之間的共線性，提取*低限度的冗余信息變量組可以減少建立模型所需要變量的個數(shù)，提高建模效率和速度。

以上算法都是近紅外光譜在建立定性或定量模型中的常見算法。但目前很多商用的近紅外光譜儀將算法整合到建模軟件中，并不需要使用人員完全了解算法即可建模。但今后近紅外的發(fā)展離不開人們對算法的研究?？梢灶A見的是，隨著近紅外的發(fā)展普及，越來越多人會對近紅外的算法產(chǎn)生興趣。隨著時代，未來將會有新的技術誕生，給光譜儀產(chǎn)業(yè)帶來翻天覆地的變化。

下一篇：米面重金屬污染物來源及其檢測方法
上一篇：如何使用近紅外光譜儀對米糠的三粗進行分析？

粵公網(wǎng)安備 44010302000429號

色婷五月,bbw是什么,国产你懂的,国产AV无码专区亚洲精品

近紅外光譜無損檢測技術中數(shù)據(jù)的分析方法概述