1,關聯規則的采樣
挖掘關聯規則的任務通常與事務處理與關系數據庫相關,該任務需要反復遍歷數據庫,因此在大數據集上將花費大量的時間。有很多的算法可以改進關聯規則算法的效率與精度,但在精度保證的前提下,采樣是最直接與最簡單的改進效率的方法。
2.分類的采樣
分類一般分為三種類型:決策樹、神經網絡及統計方法(如無偏差分析),在這些算法中均有使用采樣的案例。分類的采樣一般有四種,一種是隨機采樣,另外三種是非隨機采樣,分別是“壓縮重復”、“窗口”及“分層”。
3.聚類的采樣
在聚類中進行采樣有若干的用途。有些聚類算法使用采樣進行初始化工作,例如,利用采樣得到的樣本得到初始化的參數,然后再對大數據集進行聚類。當處理大數據集時,需要降低算法使用的空間。為了得到較好的聚類,根據數據的分布情況需要采用不同的采樣方法。隨機采樣仍然是一種常規的方法,在隨機采樣忽略了小的聚類的情況下,一般采用非隨機采樣的方法。非隨機采樣的方法中最常用的是分層采樣。例如,在密度差別很大的數據集中,根據密度的不同,采樣的樣本數量可以不同,在密度較高的區域采樣的次數少一些,而在密度稀疏的區域,采樣的次數多一些。
4.擴充(Scaling-Up)的數據挖掘算法的采樣
擴充是指利用已有的數據挖掘算法能夠高斂地處理大數據集。當數據挖掘的算法初期是處理小數據集的情況下,處理大數據集就會受到限制。在這種情況下,一般會采用分而抬之的方法:將大數據集分解成較小的互不重疊的數據集,利用己有算法進行處理,然后,將小數據集得出的結果合并成最終的結果。需要注意的是,這種方法等價于將困難轉嫁到合并步驟,即需要復雜的處理才能得到正確的結果。因此,整體的復雜性沒有降低。