讀書日
大數據
  • 定價:360
  • 優惠價:9324
  • 本商品單次購買10本8折288
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 台北、新北、基隆宅配快速到貨(除外地區)
載入中...
  • 分享
編輯選書

只要資料夠多,我們能做的,就不只是後見之明。

全世界資料每年以50%的速度增長;而且,90%是近兩年才出現的。
有人給了巨量分析另一個偉大的封號:第五波科技浪潮。
巨量資料重要性不在於資料多,而在於我們如何能從數據中找出線索、趨勢,以及商機。

 

OKAPI 推薦

 

內容簡介

  亞馬遜「資訊管理」暢銷書第一名
  亞馬遜「電腦文化」暢銷書第一名

  汽車烤漆的顏色能告訴你,這輛二手車的故障率高低嗎?
  市政府要怎樣清查,才能迅速找出有致命危險的人孔蓋?
  從谷歌的搜尋字眼,怎麼預測流感疫情的蔓延?

  要回答這些問題,關鍵就在於巨量資料(俗稱大數據)。
  「巨量資料分析」是一門新興科技,能夠解讀和預測無數的現象,
  包括預測機票的價格、好萊塢新片的票房、你家裡的青少年是否未婚懷孕!
  也能協助診斷早產兒的健康情況,探查收入高低與幸福快樂的相關程度,
  幫忙規劃快遞的送貨路線、電動車的充電站應該設置在哪裡,
  還能用來發展自動導航的無人駕駛汽車、
  以及「從駕駛人的臀部形態判斷是否為車主」的防盜系統,
  也能夠快速進行多種語文的互譯……

  兩位最頂尖的大數據專家,真正掌握到巨量資料思維的精髓,
  在這本書裡,清晰曉暢的解釋了巨量資料是什麼,
  它將如何改變我們的生活,對經濟、社會和科學會帶來什麼影響,
  我們又能夠做些什麼,趕搭上這波新潮流,
  同時也懂得保護自己,避免個人資料和隱私受到侵害。

作者簡介

麥爾荀伯格 Viktor Mayer-Schonberger

  牛津大學網路研究所教授,
  並擔任微軟、世界經濟論壇等大公司和組織的顧問,
  是大數據(巨量資料)領域公認的權威,
  寫過八本書以及上百篇專論。

庫基耶 Kenneth Cukier

  《經濟學人》雜誌資料編輯,巨量資料思潮評論員,
  經常於《紐約時報》、《金融時報》、
  以及《外交事務》期刊發表財經文章。

譯者簡介

林俊宏

  師範大學翻譯研究所碩士。
  喜好電影、音樂、閱讀、閒晃,
  覺得把話講清楚比什麼都重要。
  譯有《英語的秘密家譜》、《建築為何重要》、
  《大科學》、《群的智慧》、《天空的女兒》等書。
  現就讀於師大譯研所博士班。

 

目錄

第1章 現在
該讓巨量資料說話了

第2章 更多資料
「樣本=母體」的時代來臨

第3章 雜亂
擁抱不精確,宏觀新世界

第4章 相關性
不再拘泥於因果關係

第5章 資料化
當一切成為資料,用途無窮無盡

第6章 價值
不在乎擁有,只在乎充分運用

第7章 蘊涵
資料價值鏈的三個環節

第8章 風險
巨量資料也有黑暗面

第9章 管控
打破巨量資料的黑盒子

第10章 未來
巨量資料只是工具,勿忘謙卑與人性

資料來源
延伸閱讀
謝辭

 

詳細資料

  • ISBN:9789863201915
  • 叢書系列:科學文化
  • 規格:軟精裝 / 318頁 / 15 x 21 x 1.59 cm / 普通級 / 單色印刷 / 初版
  • 出版地:台灣
 

內容連載

第1章

現在:該讓巨量資料說話了

2009年又冒出了一種新的流感病毒,稱為H1N1。這種新菌株結合了禽流感和豬流感病毒,迅速蔓延。短短幾星期內,全球的公共衛生機構都憂心忡忡,擔心即將爆發流感大流行。有些人發出警訊,認為這次爆發可能與1918年的西班牙流感不相上下,當時感染人數達到五億人,最後奪走數千萬人的性命。雪上加霜的是,面對流感可能爆發,卻還沒有能派上用場的疫苗,公共衛生當局唯一能努力的,就是減緩其蔓延的速度。為了達到這項目的,必須先知道當前流行感染的範圍及程度。

在美國,疾病管制局(CDC)要求醫生一碰到新流感病例,就必須立刻通報。即使如此,通報的速度仍然總是慢了病毒一步,大約是慢上一到兩星期。畢竟,民眾覺得身體不舒服之後,通常還是會過個幾天才就醫,而層層通報回到疾管局也需要時間,更別提疾管局要每星期才整理一次通報來的資料。但是面對迅速蔓延的疫情,拖個兩星期簡直就像是拖了一個世紀,會在最關鍵的時刻,讓公共衛生當局完全無法掌握真實情況。

巨量資料初試啼聲

說巧不巧,就在H1N1躍上新聞頭條的幾星期前,網路巨擘谷歌(Google)旗下的幾位工程師,在著名的《自然》科學期刊發表了一篇重要的論文,當時並未引起一般人的注意,只在衛生當局和電腦科學圈裡引起討論。該篇論文解釋了谷歌能如何「預測」美國在冬天即將爆發流感,甚至還能精準定位到是哪些州。谷歌的祕訣,就是看看民眾在網路上搜尋些什麼。由於谷歌每天會接收到超過三十億筆的搜尋,而且會把它們全部儲存起來,那就會有大量的資料得以運用。

谷歌先挑出美國人最常使用的前五千萬個搜尋字眼,再與美國疾病管制局在2003年到2008年之間的流感傳播資料,加以比對。谷歌的想法,是想靠著民眾在網路上搜尋什麼關鍵詞,找出那些感染了流感的人。雖然也曾有人就網路搜尋字眼做過類似的努力,但是從來沒人能像谷歌一樣掌握巨量資料(big data,直譯為大數據),並具備強大的處理能力和在統計上的專業技能。

雖然谷歌已經猜到,民眾的搜尋字眼可能與流感有關,像是「止咳退燒」,但相不相關其實不是真正的重點,他們設計的系統也不是從這個角度出發。谷歌這套系統真正做的,是要針對搜尋字眼的搜尋頻率,找出和流感傳播的時間、地區,有沒有統計上的相關性(correlation)。他們總共用上了高達4億5千萬種不同的數學模型,測試各種搜尋字眼,再與疾管局在2007年與2008年的實際流感病例加以比較。他們可挖到寶了!這套軟體找出了一組共四十五個搜尋字眼,放進數學模型之後,預測結果會與官方公布的全美真實資料十分符合,有強烈的相關性。

於是,他們就像疾管局一樣能夠掌握流感疫情,但可不是一、兩星期之後的事,而是幾近即時同步的掌握!

因此,在2009年發生H1N1危機的時候,比起政府手中的資料(以及無可避免的通報延遲),谷歌系統能提供更有用、更及時的資訊。公衛當局有了這種寶貴的資訊,控制疫情如虎添翼。

最驚人的是,谷歌的這套方法並不需要去採集檢體、也不用登門造訪各家醫院診所,而只是好好利用了巨量資料,也就是用全新的方式來使用資訊,以取得實用且價值非凡的見解、商機或服務。有了谷歌這套系統,下次爆發流感的時候,全球就有了更佳的工具能夠加以預測、並防止疫情蔓延。

巨量資料功能強大,可以讓許多領域改頭換面,公共衛生領域不過是其中之一,而商業領域也正在經歷這個過程。例如買飛機票就是個很好的例子。

2003年,伊茲奧尼(Oren Etzioni)打算從西雅圖飛往洛杉磯參加弟弟的婚禮。

早在幾個月前,他就已經上網買了機票,一心認為愈早預訂,票價就愈划算。但在航程中,他出於好奇,問了坐在隔壁的乘客票價以及購票時間,結果那個人明明是最近才買,票價卻是便宜得多。一氣之下,伊茲奧尼一個又一個的問下去,發現大部分人的票價都比他的更便宜。

對於大多數人來說,等到收回托盤、豎直椅背、準備下機的時候,這種覺得被敲竹槓的火氣,也差不多消了。但伊茲奧尼身為美國頂尖的資訊科學家,可沒這麼好打發。在他看來,整個世界就是由一連串關於巨量資料的問題構成的,而這正是他拿手的領域。追溯到1986年,伊茲奧尼可是哈佛大學第一位主修資訊科學的畢業生,之後進入華盛頓大學任教;而且早在巨量資料這個詞出現之前,他就已經開了數家處理巨量資料的公司。例如,他曾協助打造了最早期的網路搜尋引擎之一、於1994年推出的MetaCrawler,不久便由當時的網路巨擘InfoSpace公司買下。另外,他也共同創立了史上第一個大型比價購物網站Netbot,後來出售給Excite公司。至於他的另一間公司ClearForest,則是處理如何從文件中取得語義資訊,後來由路透社收購。

客機著陸之後,伊茲奧尼已經下定決心,要讓人能夠知道自己在網上看到的票價,究竟是撿到便宜還是被人坑了。如果把飛機機位看成商品,同一航班的座位基本上也沒什麼不同,但票價卻是天差地別。這裡有許多因素,只有航空公司自己才曉得。

伊茲奧尼認為,這種系統並不需要真的去解出票價背後千絲萬縷的糾纏因素,只要能預測出未來票價是漲是跌就夠了。這其實不困難,只要先取得特定航線售出的所有票價資訊,再與出發前天數做比較即可。

如果平均票價呈現下跌趨勢,買票這件事當然就可慢慢來。如果平均價格呈現上漲趨勢,系統則會建議馬上以目前顯示的價格購票。換句話說,當初伊茲奧尼是在三萬英尺高空詢問其他乘客的票價,而現在這個系統就是個加強版。雖然說這絕對還是個資訊工程的龐大問題,但與過去一樣,這對他而言仍然能夠迎刃而解。於是,他動工了。

伊茲奧尼花了四十一天,從某個旅遊網站取得超過一萬兩千筆票價資料,做為樣本,並建立一個預測模型,讓模擬的乘客都省下了大筆鈔票。這個模型並不懂「為何如此」(why),只知道「正是如此」(what)。換言之,模型完全不知道各種影響票價的因素,像是未售出的機位數、淡旺季、或是星期幾的機票較便宜之類;模型所做的預測,都是基於手中確實的資訊,也就是從其他航班所蒐集到的相關資料。

伊茲奧尼思思念念的,就是「要買還是不買」的問題——像極了莎翁名劇《哈姆雷特》的經典獨白:「生存還是毀滅,這是個問題。」正因如此,伊茲奧尼把這個研究計畫命名為「哈姆雷特」。

原本的小小研究計畫,後來發展成投入大量資金的創業計畫「Farecast」,藉著預測機票票價可能上漲或是下跌,Farecast就能讓消費者知道是否該立刻點選「購買」鍵。在過去,消費者從來不可能得知這些資訊。Farecast堅持一切應該透明,所以甚至還會對自己的預測加上可信度評分,提供給使用者參考。

預測系統要有效,就必須有大量的數據資料。為了提升效能,伊茲奧尼從航空業的一個航班預訂資料庫下手。資料庫存有全年美國商業航空各航班、各座位的資料,能做為系統預測的基礎。現在,Farecast手中大約有近兩千億筆票價紀錄,用以做出預測。如此一來,消費者就能省下大筆的金錢。

伊茲奧尼有一頭黃褐色的頭髮,露齒微笑、一臉天真,看起來實在不像是會讓航空業損失數百萬美元潛在收入的人。但事實上,他的目標甚至還不止於此。到了2008年,伊茲奧尼打算將這套辦法再應用到其他商品,像是飯店客房、音樂會門票、二手車等等,只要是產品差異性小、價格變化大、而且有大量數據資料的商品,都能適用。但他還沒來得及讓計畫成真,微軟就已經找上門來,用大約一億一千萬美元買下Farecast,結合到Bing搜尋引擎之中。到了2012年,該系統平均有75%的預測準確率,讓每位旅客省下50美元。

Farecast正是一個巨量資料的公司縮影,也是世界未來的走向。如果是五年或十年前,伊茲奧尼絕不可能建立起這種公司。他說:「這本來是不可能的任務,」所需要的計算能力和儲存容量都還太過昂貴。然而,讓計畫成真的原因當中,雖然科技進展是關鍵因素,但還有一個更微小、卻也更重要的因素,就是關於該如何使用資料的思維,已有所改變。

過去認為資料是靜態、靜止的,一旦完成原本蒐集的目的(例如飛機已降落、或谷歌完成了一次搜尋),便不再有用處。但現在,資料是新的商業生產原料、重要的經濟資源投入,可以創造出新形式的經濟價值。如果心態正確,就能巧妙重複運用資料,不斷帶來創新和不同的服務。只要夠謙卑、有意願、也有工具傾聽,資料就能讓種種祕密躍然眼前。

會員評鑑

4.5
9人評分
|
9則書評
|
立即評分
user-img
4.5
|
2024/02/01

訓練AI大模型必讀

多年來,我一直忽略閱讀《大數據》,但最近AI的快速發展, 利用大量的資料去訓練AI, 使得我不得不開始重視大數據這一塊領域, 感到必須深入研究。這本書清晰區分了大數據分析與傳統統計方法,特別強調了樣本抽樣的重要性。在當今數據濫觴的年代,使用母體數據進行分析變得更加現實。書中明確指出,大數據分析不再像以往一樣依賴嚴格的抽樣技巧,而更注重利用相關性。這本書為理解大數據提供了實用的視角,令人受益匪淺。
展開
user-img
5
|
2024/01/30

好酒越陳越香,好書也是~

從2015年開始接觸Hadoop平台以來,一直專職在大數據應用和電商推薦系統。有趣的是,一路上我一直沒看過這本幾乎被視為巨量資料聖經的大數據,理由挺傲嬌的,那時心想「如果看了這本書,作法說不定會被引導,而走不出自己的路…」。而為什麼在2024年的今天會動心起念想看這本大數據?原因是經過這些年在大數據的專研與實務經驗,中間遇到許多困難與挑戰,累積自身對這個資訊應用領域的觀點與看法。這時來吸收業界先進的思維與方針,才不會一味的照單全收,更能淬鍊出書中的真知灼見,滿載而歸。

不知你有沒有發現,在新聞報導裡只要有用到數據分析的情況,一律要說是大數據分析。然而怎麼樣的資料才能叫大數據?GB?TB?PB?用單純的資料容量大小適合嗎?答案當然是NO。樣本=母體,在巨量資料的三大特質中,這是最具體能區分傳統的統計分析和巨量資料分析的差異。書中明確的指出,在過去,資料搜集、儲存、處理成本相對高昂,抽樣是一門相當重要的學問,能有效地將分析成本壓低到最小,讓數據分析可以充分應用在各個社會科學和商業領域。以抽象的理論為起點,針對假說進行取樣蒐集資料,最後再針對資料進行相關性分析,是傳統統計學門的標準作業流程。但在資料爆炸的網路時代,加上各種開源的大數據工具蓬勃發展,以母體資料來進行統計分析不再是天方夜談的空想。雖然資料科學家的專業知識,被認為由統計分析、數據工程和資料視覺化三個領域交集而成。在實務操作時統計分析這塊著墨的深度,尚不如其它兩者,大約有基礎的統計能力即可應付一般需求。也如同作者而言,大數據分析十之八九不會用到抽樣技術。

而在巨量資料喊得震天價響的幾年之後,多數企業卻發現大數據帶來的影響並不顯著。首先,不是每個企業都能獲取巨量資料,因此頂多只能扮演資料運用的角色。再者,巨量資料先天的雜亂(或說不精確)特質,如果想廣泛運用,得打破企業運營對數字吹毛求疵的傳統,更讓經營決策高層裹足不前,敬而遠之。因此在企業界,能看到的大數據成功案例,多是打造更優秀的機制、工具,屬於戰術性質,很少看到企業以巨量分析的數據當做訂定戰略方向的核心指標。即便如此,張開雙手擁抱資料數量比資料品質更重要,就促成了更準確的谷歌翻譯模型、亞馬遜推薦系統等,這些都是由簡單的模型加上大量資料,卻打敗複雜但資料量少的模型的例子。

相關性不等於因果關係是反智一書裡耳提面命的重要觀念。然而大數據運用卻是要你張開雙手擁抱相關性,別在拘泥在因果關係。像是在推薦系統中效果最顯著的購物籃分析和谷歌的關鍵字預測流感趨勢等例子,都是利用正是如此,而非苦思為何如此。對理論假說進行實驗設計,以控制組和對照組的資料進行因果關係分析,是科學知識賴以累積的碁石。但大數據的分析思維並不追求這種費時秏工的科學精神,利用低成本的相關性分析,應用在追求成果最大化的領域中(例如商業、政策),就能獲取超乎想像的回報。而相關分析和因果分析也絕不是互斥對立的觀點,有效地利用相關分析當做操作變數的過濾器,可以減少未來要進行實驗設計的變數項目。大數據運用裡的預測分析則是以更積極的態度來運用相關性,利用高度相關性的變數做為想預知事項的有效指標,例如異常的刷卡結帳頻率可能是盜刷。所以想用大數據來找出流失客戶的原因這個命題是有問題的,因為巨量數據分析是找出相關性,並無法真正的找出因果關係,想找到原因得用問券調查和實驗設計等傳統科學作法。

除了上述說明大數據三項特質的豐富內容外,書中也進一步對資料的數位化和資料化間的差異提出說明。也因為數位資料是經濟學者所謂的非競爭商品(某人的使用不妨礙他人使用),所以針對同一份巨量資料的無限制次數運用是可行的。一但出現新的運用觀點,既可對舊有的資料進行再次利用。也可和其它外部資料重新組合、在資料蒐集的過程中額外取得其它面向的資料,都是增進巨量資料價值的具體作法。讀完大數據會深刻領悟,巨量資料像是取之不盡的太陽能,照亮著數據分析的現在與未來。
展開
user-img
4
|
2019/01/05
這本書出版於2013年,也有入選當年金融時報的商業書決選。儘管已經隔了五年,大數據這個概念越來越火熱,我有同學去喬治亞理工學院念了一個大數據分析的碩士,畢業後直接進亞馬遜當分析員。現在每個行業最火紅的職缺好像都跟分析資料有關! 好奇之下google一下,也有一些人開始預言大數據也有可能泡沫化...大環境的趨勢,真的會讓大部分人跟隨。統計學系在幾年之前也被戲稱沒什麼出路,瞬間峰迴路轉,資料科學家橫空出世。越想逃離數學,越發現數學無所不在啊XD

這本書主要分為八個部分,沒有技術性的描述,單純把大數據(或者說資料分析)這個領域介紹給一般讀者。作者是這個領域的執牛耳者,幾十年前就開始關注資料在人類社會發展中扮演的角色。根據他的理念,資料就像是未來的石油,驅動生活的方方面面。說實話我閱讀本書以前,對這種像做彌撒的書(宣稱某個東西能夠如上帝般衝擊人類)有點存疑,但作者的論述功力的確扎實,他把大數據的概念用很淺顯易懂的文字教給讀者,讓本書成為認識大數據的最佳起點之一。

人類使用資料分析由來已久,統計學透過抽樣,試圖用客觀的資料解釋一切;會計學的誕生也是使人類複雜的商業交易分門別類,有跡可循;經濟學的目標是建置模型,分析經濟行為的成因。資料讓人們在複雜的世界中掌握一些規則,我們據此做出決策。

傳統上,人們在分析資料時,會希望把樣本的代表性提高,力求精準,但是人類的活動越來越複雜,電腦的發明、處理器能力的躍升,讓產出的資訊量成指數型成長,資訊氾濫已經是常態,這是一體兩面的,現在我們有能力取得更多珍貴的資訊,但若資訊超載,我們反而不知所措了。

面對這種處境,我們的生活有很多面向都被迫改變。甚至連思維模式都要進行修正,才能更準確的判斷任何事情。小數據時代的思維落伍了,現在講求的不再是[用樣本代替母體],而是[樣本等於母體],基本精神就是透過電腦高效的運算能力,儘可能把越多的數據納入考量,追求事物之間的關聯性,因果關係比較不重要了。舉個例子,"假如"全聯發現每次颱風要來了,刮鬍刀的銷量暴增一百倍,刮鬍刀一定會被擺放在收銀機旁邊。這個現象真正的原因不重要,重要的是發現兩件事之間的關聯性,這就夠了。

接著作者就舉了好多好多例子證明幾乎所有事情都能數據化,假如能善加使用,發掘背後隱藏的意義,人們就能獲得極大的好處。這個趨勢造就了新的商業模式,許多新型態的工作也趁勢而起,數據成為一個金礦,淘金的熱潮席捲各行各業,每間公司在某種程度上都必須轉型為數據公司。數據中介商、分析技術公司、資料科學家變成未來的要角。

不過呢,跟其他科技一樣,大數據有其黑暗面,特別是隱私權的疑慮,已經成為這幾年最熱烈討論的議題。臉書、亞馬遜、谷歌...科技巨頭蒐集每個人的資料,到底用來幹嘛了呢? 除了個性化投放廣告,是否有祕密的濫用,卻不為人知呢? 歐盟今年通過的GDPR提供未來隱私保護一個指引,畢竟這幾年資訊濫用的情況層出不窮: Cambridge Analytica、俄羅斯干預美國總統大選的假新聞...大數據的應用似乎沒那麼安全。

大數據又會如何影響政府呢? 不同於民間企業,政府可以強制蒐集民眾的資訊。最壞的就像歐威爾1984裡全面監控的社會,令人擔憂的是這正在逐步成為現實呀><。 大數據的導入有隱憂,因此我們必須盡快確立制衡的機制。除了最基本的法律修正,釐清數據使用的許可和責任歸屬更重要。另外可以預期的是社會制度會進行校正,就像會計學的發展延伸出審計學,使用大數據,必須有對應的審核機制。

最後,作者提醒人們,資料分析很重要,但人性才是最關鍵的部分,數據不能說明一切。過度依賴數據可能很危險,大數據應用之餘,我們人腦的判斷才是其價值所在。舉個嚴重的例子,電影關鍵報告裡,湯姆克魯斯逮捕了一個"被預測-將要"殺害妻子的人。純粹仰賴數據的話,這個男子將因為自己沒有做過的事而遭受懲罰。這個概念不難理解,假如人們把"預測"當成一切的原則,身而為人最重要的自由權利等同作廢。

大數據好夯,應該大部分的人都已經有基礎認識了,不過這本書依然值得一讀,關於它的未來走向,令人拭目以待,我們也得積極參與其中,別讓明天成為菲利浦狄克式的未來。
展開
user-img
5
|
2018/01/12
大數據的經典著作,要了解大數據的思維適合讀這本書,書中舉不少成功的商業案例談大數據思維,讓讀者了解究竟「何謂大數據?大數據的定義是什麼?與傳統的因果思維有什麼差異?大數據下的致勝模式又是如何?」。
展開
user-img
4
|
2016/07/31
大數據是一個趨勢。
在這個趨勢裡,如何把大量的資訊轉換成有用的資料才是最重要的,這也是現代人最重要的課題之一。
書中提出一個特別的觀點,在大數據的時代裡我們不需要再花時間去尋找事情的原因,因為重要的是結果。
展開

最近瀏覽商品

 

相關活動

  • 破關人生,I'm in!職場「破」力養成指南,電子書/有聲書/影音課程6折起
 

購物說明

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則 

  • 共和國截止加碼
  • 天下雜誌
  • 時報全書系