top of page

6步驟完成數據處理

1. 明確新聞的論點

從一個「假設」開始發想,對於我們來說,是不錯的辦法!日常生活經驗,或者新聞報導,會給予我們各種「認識」,有些認識看似「常識」,但可能是某種迷思,而有些認識又與以往的經驗矛盾,需要進一步調查以確認事實真相。舉例來說,從某則新聞上看到,台北市2014年犯罪率增加了x%,創下了10年最高紀錄。此時,我們可以假設這則新聞屬實,然後透過進一步數據分析來驗證這個論點,甚至需要資料來解釋這個現象。

2. 尋找變項證明論點

我們的論點已經建立起來了,現在要做的是找到支撐這個論點的相關變項(variables),這有點類似做量化研究呢!變項有兩類,一類是用文字表示的,例如性別、犯罪類型、地區,還有一類以數值表示,例如人口數量、犯罪案件數量、受害者數量。以上面那個例子來說,我們需要調查的數據,可能應該涉及:不同年份的犯罪類型、犯罪案件數量、發生地區、罪犯性別、年齡、受害者數量等數據。

3. 誰藏了我的資料

確認好變項後,我們就可以去相應的政府部門或者機構蒐集資料了。不過,要做好資料缺失的心理準備,台灣政府或者機構資料開放剛開始,開放的程度不夠,我們常常會遇到找不到想要的資料的情況。除了敦促政府開放資料,眼前能做的就是尋找其他變項來代替,或者修正想要調查的議題。

4. 抓取資料

接下來就是抓取資料的過程啦!這部分的工具介紹,請參見在「處理數據的工具」。

5. 整理資料

資料抓好之後,先別急著慶祝,讓我們來檢查一下資料的格式是否亂掉了,有沒有其他不相關的數據混進來,不同數據集的統計方式是否同一。整理數據需要遵循一定的原則,這部分會在下面詳述;整理數據的工具請參見「處理數據的工具」。

6. 分析資料

資料整理以後,我們需要輔助一些工具來分析數據,最簡單易用的工具是spreadsheet和excel,處理大數據則常用Python和R,後面我們會向大家介紹學習Python和R的公開課程。除了工具,更重要的是嚴密的邏輯和對數字的敏感。我們常常會關注最高值、最低值、平均值、趨勢變化等,用之前舉的例子來說,我們需要觀察台北市2004年到2014年的犯罪率,2014年是否是十年來最高,是否比2013年增長了x%。進一步來說,如果單從犯罪率上升來看,會造成一種社會治安下降的表象,然而事實是否真的如此,我們需要看這種變化背後的原因是什麼,是犯罪增加,還是人口減少,增長最多的犯罪類型是什麼,聚集在哪個地區,罪犯的人口變項分別發生了什麼變化嗎……這些需要透過數據分析才能下結論。

Please reload

用文字表示

用數字表示

bottom of page