高光譜成像儀在對樣本信息進行采集時,所獲取的高光譜信息數據會受到設備硬件、光源分布、測試環境及目標的形狀等的影響,導致采集到的光譜信息會存在較大的噪聲,影響預測結果的準確性。因此,在建立數據模型之前,需要對光譜信息進行處理。本文對高光譜成像儀高光譜圖像數據和光譜數據處理方法做了介紹,對此感興趣的朋友不妨了解一下!
高光譜成像儀高光譜圖像數據預處理法方法:
高光譜成像儀在對樣本進行信息采集時,所采集的高光譜圖像并不是每個波長的圖像都可以對樣本進行檢測,部分波長的圖像含有較大的噪聲,無法提取有效信息。同時高光譜圖像的質量受到光源分布、相機性能、被測目標的形狀等等影響,其不可避免地會存在一些噪聲。所以很有必要對獲取的圖像進行預處理以消除其他因素對數據的影響。
1.黑白校正
受高光譜相機內的暗電流,設備內部光敏單位的響應速度,各個波段光源強度的不均勻分布等因素的影響,高光譜圖像會存在不同程度的噪聲。為避免對后續數據處理產生負面影響,對數據使用黑白矯正處理以消除部分噪聲。黑白校正前后的圖像其每個像素點的反射光譜會產生明顯的差別。黑白校正的公式為:
其中IR,為經過黑白矯正后的高光譜圖像,IR0為采集到的原始高光譜圖像,IRD為采集到的黑色標定圖像,IRw為采集到的白色標定圖像。
2.圖像數據處理
高光譜圖像數據的處理方法有很多,這里主要介紹主成分分析法(PCA)。PCA是一種利用線性擬合的方法對數據降維,并消除各種信息干擾的統計學方法。PCA可以消除數據中可能存在的內在聯系,將數據整合成為互不相關的新數據并減少數據量,整合后的數據不僅比原始數據數量少,還可以最大限度表示原始數據的大部分信息。使用PCA可以有效降低高光譜圖像數據的維數,使數據簡化,去掉冗余信息,便于對圖像進行定量分析。
上圖展示了PCA中變量與主成分的關系。原始數據沿坐標軸x1和y1分布,從圖中可以看出原始數據存在某些內在聯系,比如:一個點在x1y1,坐標軸上,若x1>0那么它的y有較大的概率大于0。所以需要使用PCA將數據整合為互不相關的,下面簡述PCA的原理。在原始數據的所在空間中尋找一個坐標軸,使所有的點到此坐標軸的投影距離達到最大值,即為圖中的x2軸,此時數據主要沿著x2分布。在確定x2之后再在垂直于x2的方向上尋找軸y2保證兩個坐標軸是互不相關的,軸y2也需要滿足所有的點到此坐標軸的投影距離達到最大值。處理之后可以發現數據大多數是沿x2分布的,此時如果只保留x2方向的數據那么也會丟失比較少的數據。對于多維的數據可能需要多次找尋坐標軸。將x2和y2分別為第一主成分(PC1)和第二主成分(PC2)。
高光譜成像儀高光譜數據預處理法方法:
光譜數據常因某些不可避免的因素,如:設備硬件、光源和環境等干擾,而存在部分隨機噪聲。為避免隨機噪聲對數據處理造成負面影響,提高最終的預測精度,加快模型的運行速度,所以對數據做預處理。下面介紹幾種常用的預處理方法。
1.卷積平滑算法
平滑算法是工程中常用的算法,在遇到初始數據噪聲過多的時候,如:光譜信號抖動嚴重、信號強度抖動嚴重時,常常需要平滑算法消除噪聲。常用的平滑算法有:滑動平均算法、卷積平滑算法、指數滑動平均法等。其中卷積平滑算法最為常見,卷積平滑算法即S-G平滑算法。其原理如下:
設光譜上存在等波長間隔排列的5個點,即:Xm-2、Xm-1、Xm、Xm+1、Xm-2+2,設為窗口P。利用除第3個點Xm,之外的其余4個點求取的多項式擬合值,代替第3個點的值。計算完成之后令P沿著光譜讀取并計算數據,最終遍歷整個光譜。
2.多元散射校正
MSC是多波長定標建模常用的方法,經MSC預處理后的光譜可以有效消除散射對數據帶來的影響,增強與成分相關的光譜吸收信息。此算法需要一個標準值,即:“標準光譜”。此光譜與被測目標所含有的各種屬性呈直接的線性關系,故以其為標準,對其余光譜數據進行偏移校正和基線平移以校正光譜。但標準光譜很難測得,所以為保證數據的準確性并避免繁瑣的測試,將全部光譜數據的均值作為替代。其原理可簡單概括為:
若想對光譜數據進行修正,則需要線性平移量與傾斜偏移量。因此首先求取全部光譜數據的均值,并設為標準光譜。逐個選取光譜數據與標準光譜進行一元線性回歸,得到回歸常數與回歸系數,兩者分別對應線性平移量和傾斜偏移量。將選取的光譜數據減去線性平移量并除以傾斜偏移量,以對所選光譜數據的修正。
3.標準正態變量變換
標準正態變量變換(SNV)與MSC的目的基本相同,多用來消除固體尺寸不同、表面散射、光程變化對反射光譜的影響,但兩者原理不同,SNV是對一組光譜數據進行處理,即基于光譜陣的列計算。其原理如下:
假設光譜曲線上的所有波長處的吸光度滿足標準正態分布,同樣以所有樣本光譜曲線的平均光譜作為標準光譜,逐個求取光譜和標準光譜的差值,再除以光譜數據標準偏差,以對所選光譜數據的修正。