top of page

如何整理數據?

 

想要用資料寫新聞,先要瞭解你的Raw Data,而你的瞭解必須是有用的。

 

 絕大部分的人都以為,Raw Data拿來就能找到政府弊案,或是頭版頭條,而寫不出好報導一定是因為沒有拿到關鍵資料,接著馬上就陷入被誰藏起來的陰謀論迴圈裡。Raw Data之所以是"Raw" Data,就是因為它還沒經過處理。天下沒有白吃的午餐,也沒有拿來就能用的資料。在開始寫作之前,Raw Data應該要被詳加檢視,讓它了解你在寫的東西到底想講些什麼,也讓你了解它能說些什麼。

 

蜀道難,難於上青天,整理Raw data也一樣。差別只在於前者錯了可能粉身碎骨,後者錯了頂多浪費你半天時間,接著面對期末的無盡長夜。

為了避免大家期末報告交不出來被教授慘電,下面幾個小事你必須注意:

 

  • 資料得比你的房間還乾淨一些

Raw Data的數據量通常十分龐大,光是一個檔案裡就有上千甚至上萬筆資料。如果你的資料是Excel檔或者MYSQL表格,千萬記住

備份原始檔!!!

 

在原始檔的複製檔裡做修改,每修改一次檔案就存一份新的文件,詳加標註處理的日期、名稱,甚至是此次改動的內容。抱著鋼盔往前衝的後果往往是被大砲轟掉,不乖乖另存新檔的後果比這更可怕。

  • 善用Spot Check

沒有意外的話,資料成長會跟你小時候養的小動物一樣,長大的速度超乎預期,而且與可愛程度成反比。用MYSQL的人請善用「SELECT * FROM `TABLE` ORDER BY 1 LIMIT 5」指令,如果不是的請隨機選個五筆資料,時不時地查閱你的資料有無可笑之處,也能讓你更了解資料在講些什麼。

 

  • 怪異之所在,精華之所在

字元長度、空格和離均值都是你該特別關心的地方,公部門常常會用「-」、「*」或「~」等奇怪符號來代替空白,這些都是可能出現分析錯誤的地方。此外,不要假設資料是按照日期或順序排好,善用GROUP BY和SELECT DISTINCT指令來找出共通處,新聞點很可能就藏在裡面。

 

如果很不幸的,今天拿到的資料是純文字檔,可以先氣餒五分鐘,接著面對冗長的處理程序。電腦比人腦笨的地方在於它會把「Paris」跟「Paris 」分成不同的類別(其實只差一個Space),此時你需要善用TRIM()來解決。

 

最後,讓我們永遠緬懷不敗的Velman法則:資料裡永遠都有錯,太晚找到的後果就是讓錯誤毀掉一切,或是花更多時間熬夜做完。

 

  • 在開始時統一標準

這種錯誤常發生在小時候沒有聽國文老師的話把表點符號寫好的人。在處理資料的時候,保持每個符號的意義相同,以及每個符號都有單一意旨。簡單來說,選擇一個「」[]『』{} 來當你表示括號的死黨而且在整份資料裡一以貫之。

 

  • 別把自己想的那麼聰明

華麗的Excel檔不會幫你拿到期末分數,報導成果才會。盡量把資料弄得越單純越好,不要加上額外的超連結或者花俏圖片,也不要用你無法駕馭的手法分析資料,當成果不盡人意的時候,你才有辦法回頭檢視哪邊出錯。

 

  • 時時紀錄、刻刻留存

即便睿智如賈伯斯都曾經吃過悶虧,只因為忘了把修改過的檔案妥善存檔。眼下有許多種記錄軟體,可以即時紀錄修改時刻,甚至連改動過哪些內容都能一清二楚,哪怕用紙筆記錄下來也好,就是千萬不要讓你的腦袋有忘記的機會。

 

 

bottom of page