datamining

Clustering / Classification

7/25/2018

Clustering analysis ( 群集分析 )
依相似度或相異度而將資料分群歸屬到數個clusters的方法，使群內相似程度大，群間相似程度小
=> 可視為非監督式學習

Classification ( 分類 )
根據給定之目標資料的類別，找出其分類屬性，建立分類規則或模式，將資料分類至對應目標類別
=> 可視為監督式學習

Clustering analysis 4 sections
1. 資料準備與分群特徵選取
2. 相似度計算 (選擇衡量相似度的方式 Ex:距離、相關係數)
3. 分群演算法 (k-means, DBSCAN, 期望最大化, SOM)
4. 分群結果評估與解釋

群集分析可將資料分成數個子群組，使得各群組內個體相似度高，群間相似度低，再者，我認為更重要的在於找出有意義的群集，分析結果的好壞是依據資料的本質是否可解釋，以上的圖是我之前研究股權結構、董事會特性及公司規模對財務績效之影響，所設的幾項變數，依照每個變數彼此之間及對目標變數的影響分類出來的樣子，但其實我覺得分的不是很好，也讓我在研究裡不好下結論，因此要特別注意。

0 評論

Association rules (關聯規則)

7/25/2018

0 評論

定義：
主要是從龐大資料中萃取出一系列變數或因子間的關係，以探索資料之變數隱含的關係
Ex : 若A=>則B ; 若下雨，雨衣銷量會增加
(又稱)購物籃分析(market-basket analysis)
如同在賣場觀察每個顧客購物籃裡所購買的商品
每個購物籃代表一位顧客在某個時間點的購買行為和一項交易紀錄，從中找出潛在有用的關聯規則

衡量指標
1 ) 支持度 => 表示其顯著性
2 ) 信賴度 => 表示其正確性
3 ) 增益 => 表示其價值
透過給定最小支持度與最小信賴度做為支持度與信賴度的門檻值，再評估該規則的資訊價值和增益
(若>=門檻值，則表示該規則有助於進行推論)

假設：前提項目X 結果項目Y
1 ) 支持度(support)
衡量X與Y一起出現的機率 => P(X∩Y)
表示關聯規則相對於全部資料必須具一定普遍性(即顯著性)，才是有效資訊
Ex : 同時購買兩項商品X和Y的機率，support(X=>Y) = 0.4

2) 信賴度(confidence)
衡量X發生情況下，Y發生的條件機率 => P(Y|X)
Ex : 購買X後會選購Y，confidence(X=>Y) = P(X∩Y)/P(X) = 0.6 (通常一定水準設0.5)

3 ) 增益(lift)
用於比較信賴度與Y單獨發生時兩者機率間的大小 => P(Y|X)/P(Y)
因此lift至少要>1，表示預測結果比原本表現好(信賴度>Y)
Ex : 計算出若買燒餅(X)則買豆漿(Y)的lift = 1.2
表示說如果消費者購買燒餅則再買豆漿的機率是原本的1.2倍，此組合可以納入策略
通常廣泛應用在零售業與賣場居多，可制定更良好的行銷策略或配售計畫

0 評論

Data Mining Introduction

6/24/2018

0 評論

Introduction

Data Mining
從分析一堆資料中，挖掘特殊資料樣型/規則，再經由資料處理，獲得其中最有價值之資訊
Data
對事件客觀的紀錄，目的在於創造資訊的原料，資料以結構化方式記錄事件發生的相關數據
Information
資料經過處理並賦予意義後，進而變成具淺在價值之產物
Knowledge
來自資訊，結合經驗與價值成為一種接收、評估、整合其他新經驗的架構

Steps / Framework

1 ) Check and confirm the applied region
2 ) Objective data integrating
3 ) Data preprocessing (Ex : noise)
4 ) Data transformation (Ex : 降維)
5 ) Determine the goal
6 ) Choose the algorithm
7 ) Evaluate the model (Ex : reliability, validity)
8 ) Show the result (Ex : visualization)

Types of questions

大致分為四種：分類、預測、分群、關聯預測

分類 (classification)
  透過觀察大量資料後得出規則以建立類別模式，將資料中各屬性分門別類地加以定義
預測 (prediction)
  利用歷史資料來預測未來可能發生的行為/結果
分群 (clustering)
根據樣本之間的相似度，將資料區分為不同群集，使同一群內個體變異較小
關聯規則 (association rules)
  透過資料尋找分析在同一時間發生的事件/紀錄，並呈現搜尋結果的規則
** 分類 vs 分群
  最大差異在於分群並沒有預先定義好類別，群集結果的意義需依靠分析者事後解釋

以上四種問題類型可對應置兩種資料挖礦方式
監督式(supervised) : classification、prediction
Top-down，目的為發展模型建立某一特定目標變數與其他變數間的關聯性
非監督式(unsupervised) : clustering、關聯規則
  Bottom-up，沒有特別標註特定目標變數，而是嘗試找出所有變數中是否有某種關係存在

由於擔心篇幅過長，資料處理(Ex:降維、填值)的部分暫時略過，底下先討論關聯規則。

0 評論

David Huang

Clustering / Classification

Association rules (關聯規則)

Data Mining Introduction

Introduction

Steps / Framework

Types of questions

Author