從資料科學看雲端應用趨勢
在雲端應用的領域中,巨量資料分析早已是一門顯學。碩源資訊執行長張家齊指出,資料科學目前仍是一個新的領域,如何選擇資料分析的解決方案,如何跟資料分析業者溝通,以及如何分辨解決方案是否真的能解決問題,其實都與雲端應用息息相關。
把探索資料的本質,當成是最喜歡的事的張家齊,首先對什麼是「資料科學」,提出他個人的看法。張家齊表示,很多人都以為,資料科學是由數學及統計的知識、黑客(Hacking)的技能、特定產業領域的知識以及實務經驗交集而成,但其實「資料」及「科學」都必須加以定義。
什麼是「資料」?張家齊以股票族每天看的行情變化或線圖指出,這些股市資訊,其實對股票族而言,就是資料,但這些資料是否就能進行分析,又是另一個議題了。而對音樂家而言,聲音的波形圖,就是音樂家心目中的資料,只要看到波型圖,心中自然就會「聽」到音樂。
但張家齊指出,如果只是「看」資料,資料使用者的心中,就會有感受嗎?就是要先對資料產生感受,才可能對於進一步的資料分析產生興趣。而最重要的資料格式,張家齊認為,不論是文字、聲音、影像或是任何一種形式,都必須先轉變成資料表格的形式,才能夠加以分析。
張家齊強調,選擇用什麼方式查詢資料,會影響分析後的正確性,如何察覺資料盲點,是很重要的。例如美食網站常常會撰寫推薦文章,但張家齊認為,食物的美味,其實是一種味覺,而非文字或圖片,而且許多美食文可能只是廣告,所以美食文章中的「很好吃」,從資料分析的角度來看,並不是真正的「很好吃」,但如果用文字來分析資料,確實可能會用「好吃」之類的文字,去尋找那些食物才是美味的,自然就不可能得到正確的答案。
因此,在進行資料分析之前,張家齊建議一定要跟客戶深度溝通,設法弄清楚有那些資料可供參考,如想要分析那些食物是美味的,應該是要掌握溫、濕度或調味的酸甜比等資訊,才能做出比分析文字更精準的結果。
此外,資料其實也是一種生活的狀態。張家齊指出,資料本來就已經存在,就算你不蒐集、不紀錄,也不會影響資料本來存在的性質。因此,在進行資料分析前,張家齊建議要不斷的提醒自己,會不會還有什麼額外的資訊,沒有掌握到,有沒有遺漏可能影響分析結果的資料。
至於科學的定義,張家齊認為,科學應該是一種可重複、重視驗驗證的學科,而且是可觀測,重視量化,講究的是「眼見為憑(To see is to believe)」,並以「數學」為其主要溝通語言。
張家齊指出,科學通常無法脫離生活直覺,資料科學也不例外。即使你沒有發展資料科學的能力,但也一定要有評價的能力,千萬不要放棄自己的直覺。事實上,如何判斷兩個資料之間的差距有多少,往往就是資料科學最重要的觀念。
因此,「問問題」及「找答案」也就成為資料科學中最重要的兩個問題。但張家齊指出,在資料科學的領域中,問題有兩種,一個是真實世界會問的問題,往往要在實戰中才學得到,另一個是機器或電腦會問的問題,如果弄錯問題,自然就無法找到正確的答案。
張家齊指出,標準的資料分析流程,依序是提出問題、蒐集資料、將資料向量化(問題數學化)、將生活問題,轉換成數個資料問題或數學問題、解決數學問題,最後則是驗證生活解答。
張家齊認為,任何人都可以學著提出問題及蒐集資料,但如果將資料向量化、轉換及解決問題,可以交由資料分析專家來處理,但在驗證生活解答時,一定要親力而為,如果分析結果違反自己的直覺,也要勇敢地提出來,而非全盤接受資料分析的結果。
而在實際應用時,如何問「好」的問題,始終是一個值得思考的重點。假設已經針對所需要蒐集的資料,建立了一個分類器,如何讓資料都分對?又如何讓資料群中只有所需要蒐集的資料?就攸關資料分析結果的品質了。
而將資料分析應用在雲端應用上,張家齊以「推薦系統」為例指出,第一種是大量使用tensor completion技術,不但計算的資料量非常大,而且用來分析資料的機器往往所費不貲,通常是大企業在使用;第二種是使用各種local approximation系統,只能設法得到逼近前者的結果,但成本比第一種要來得低。
張家齊強調,不論是在學習任何事物,「觀察直覺」及「實作技術」很重要,只有深刻的直覺,才可以駕馭藝術般的實作技術;同樣的,也只有在透徹了解各種實作技術的缺點與限制時,才能在許多的碰撞與挫折的經驗中,淬鍊出深刻的直覺與觀察力。