一般工程師訓練過的人,都會知道資料正規畫後,就需要把許多資料表做關聯來進行合併查詢。在PowerBI這類數據工具中,其實也是有著相同的特性存在,有些人會採取直接把資料串接好後推進工具之中進行單表的分析檢核,而這樣的作法其實有一個風險性存在,就是資料的真實性與被控制性降低了,因為在串接資料的過程,可能就會有資料短缺或資料需增的可能性存在,甚至可以懷疑資料是否有被刻意串接修改的可能性存在,因此在使用數據工具分析時,產出的結果有可以被控制。
建議資料盡可能用乾淨的原始資料。只做資料填補的動作,而不要把許多資料表進行串接後載導入數據分析工具之中,已達數據有效性的確保,以及被驗證性的穩定。再來分享一些數據串接的觀念。
數據關聯性基本上區分以下幾種
1.一對一
EX一個身分證號碼只會對應一個人,唯一對應。
2.一對多
EX一的學生可以修習多門學科
3.多對一
EX多門學科都被同一個學生選上
4.多對多
EX一份問卷提供給多位試測者,同時一位試測者具有多份問卷
因此再資料關係需要正確的觀念去區分。
以上的例子中2與3就很接近,其實就是要看出發的點去判讀,因為出發點錯誤就倒是誤判,同時就會數據串接上出現誤判等狀況。
下次一篇在檢視實際操作上PowerBI提供的操作手法。