Clustering analysis ( 群集分析 ) 依相似度或相異度而將資料分群歸屬到數個clusters的方法,使群內相似程度大,群間相似程度小 => 可視為非監督式學習 Classification ( 分類 ) 根據給定之目標資料的類別,找出其分類屬性,建立分類規則或模式,將資料分類至對應目標類別 => 可視為監督式學習 Clustering analysis 4 sections 1. 資料準備與分群特徵選取 2. 相似度計算 (選擇衡量相似度的方式 Ex:距離、相關係數) 3. 分群演算法 (k-means, DBSCAN, 期望最大化, SOM) 4. 分群結果評估與解釋 群集分析可將資料分成數個子群組,使得各群組內個體相似度高,群間相似度低,再者,我認為更重要的在於找出有意義的群集,分析結果的好壞是依據資料的本質是否可解釋,以上的圖是我之前研究股權結構、董事會特性及公司規模對財務績效之影響,所設的幾項變數,依照每個變數彼此之間及對目標變數的影響分類出來的樣子,但其實我覺得分的不是很好,也讓我在研究裡不好下結論,因此要特別注意。
0 評論
定義:
主要是從龐大資料中萃取出一系列變數或因子間的關係,以探索資料之變數隱含的關係 Ex : 若A=>則B ; 若下雨,雨衣銷量會增加 (又稱)購物籃分析(market-basket analysis) 如同在賣場觀察每個顧客購物籃裡所購買的商品 每個購物籃代表一位顧客在某個時間點的購買行為和一項交易紀錄,從中找出潛在有用的關聯規則 衡量指標 1 ) 支持度 => 表示其顯著性 2 ) 信賴度 => 表示其正確性 3 ) 增益 => 表示其價值 透過給定最小支持度與最小信賴度做為支持度與信賴度的門檻值,再評估該規則的資訊價值和增益 (若>=門檻值,則表示該規則有助於進行推論) 假設:前提項目X 結果項目Y 1 ) 支持度(support) 衡量X與Y一起出現的機率 => P(X∩Y) 表示關聯規則相對於全部資料必須具一定普遍性(即顯著性),才是有效資訊 Ex : 同時購買兩項商品X和Y的機率,support(X=>Y) = 0.4 2) 信賴度(confidence) 衡量X發生情況下,Y發生的條件機率 => P(Y|X) Ex : 購買X後會選購Y,confidence(X=>Y) = P(X∩Y)/P(X) = 0.6 (通常一定水準設0.5) 3 ) 增益(lift) 用於比較信賴度與Y單獨發生時兩者機率間的大小 => P(Y|X)/P(Y) 因此lift至少要>1,表示預測結果比原本表現好(信賴度>Y) Ex : 計算出若買燒餅(X)則買豆漿(Y)的lift = 1.2 表示說如果消費者購買燒餅則再買豆漿的機率是原本的1.2倍,此組合可以納入策略 通常廣泛應用在零售業與賣場居多,可制定更良好的行銷策略或配售計畫 IntroductionData Mining 從分析一堆資料中,挖掘特殊資料樣型/規則,再經由資料處理,獲得其中最有價值之資訊 Data 對事件客觀的紀錄,目的在於創造資訊的原料,資料以結構化方式記錄事件發生的相關數據 Information 資料經過處理並賦予意義後,進而變成具淺在價值之產物 Knowledge 來自資訊,結合經驗與價值成為一種接收、評估、整合其他新經驗的架構 Steps / Framework1 ) Check and confirm the applied region 2 ) Objective data integrating 3 ) Data preprocessing (Ex : noise) 4 ) Data transformation (Ex : 降維) 5 ) Determine the goal 6 ) Choose the algorithm 7 ) Evaluate the model (Ex : reliability, validity) 8 ) Show the result (Ex : visualization) Types of questions大致分為四種:分類、預測、分群、關聯預測
分類 (classification) 透過觀察大量資料後得出規則以建立類別模式,將資料中各屬性分門別類地加以定義 預測 (prediction) 利用歷史資料來預測未來可能發生的行為/結果 分群 (clustering) 根據樣本之間的相似度,將資料區分為不同群集,使同一群內個體變異較小 關聯規則 (association rules) 透過資料尋找分析在同一時間發生的事件/紀錄,並呈現搜尋結果的規則 ** 分類 vs 分群 最大差異在於分群並沒有預先定義好類別,群集結果的意義需依靠分析者事後解釋 以上四種問題類型可對應置兩種資料挖礦方式 監督式(supervised) : classification、prediction Top-down,目的為發展模型建立某一特定目標變數與其他變數間的關聯性 非監督式(unsupervised) : clustering、關聯規則 Bottom-up,沒有特別標註特定目標變數,而是嘗試找出所有變數中是否有某種關係存在 由於擔心篇幅過長,資料處理(Ex:降維、填值)的部分暫時略過,底下先討論關聯規則。 |
Author一位平凡大學生,熱愛手語、擔任志工、工作努力賺錢、科技新知。 |