「知其然而不知所以然」才正確?對行銷人員來說,大數據是不是忽悠人的東西啊


文/黃郁棋 

如果你是一個對網路世界敏感的人,應該也發現了最近有兩個詞非常熱門,一個是「深度學習」(Deep Learning,AlphaGo就有用到這項技術),另外一個是「大數據」(Big Data)。很多人認為,這些「又大、又深」的玩意兒,根本是創業者拿來忽悠資金的玩意兒,絕大多數人根本不知道什麼叫做大數據,或是理解有著根本上的錯誤,真的是這樣嗎?對、也不對。AlphaGo已經證實了,機器學習是有未來的,但是大數據呢?我先試著簡單定義一下什麼是大數據,再從實務面上給幾個範例。

什麼是大數據啊?是泡沫嗎?能吃嗎?能賺錢嗎?

我曾經看過一個有關大數據的笑話,它是這樣說的:

如果要描述數據量非常大,我們用Massive Data(海量數據)

如果要描述數據非常多樣,我們用Heterogeneous Data(異構數據)
如果要描述數據既多樣,又量大,我們用Massive Heterogeneous Data(海量異構數據)
...
如果要申請基金忽悠一筆錢,我們用Big Data(大數據)

當然,這是開玩笑的。但是從這笑話我們也不難發現,大數據這三個字被濫用的情況有多麼嚴重。

首先呢,大數據顧名思義,就是數據量很大!這個名詞最早由IBM提出,Gartner 的分析師 Doug Laney 則在 2001 年時提出了大數據的「3Vs」定義(看看就好,別拘泥在這上面),這3V分別是:Volume(數據量大),Velocity(數據生成快速)以及Variety(數據多樣化)。換句話說,你一台電腦就可以搞定的資訊量,基本不太能稱之為大數據啦!一般大數據會利用分散式計算(Distributed Computing)來處理極度巨大的資料量,而這些資料經整理可以成為有用的資訊,資訊再經過分析可萃煉為商業智慧(Business Intelligence);一般市場上看到的「大數據運用」,其實說的都是商業智慧的層面,以下的論述主要也聚焦於此。


至於你一般小企業搜集用戶資料加以分析、應用,其實稱之為「數據分析」即可,用大數據這三個字容易被人誤解你是在忽悠人。

那麼,真正的大數據應用者有哪些公司呢?最明顯的例子,除了政府以及銀行與金融交易平台,最常見的當然就是那些網路巨頭:Yahoo、Google、微軟、百度、騰訊、阿里巴巴...。若再更深一層來講,數據量的多寡,其實並不是最重要的(數據多、用不上,就變成了數據垃圾),數據的「維度多寡」很多時候才是關鍵!當你可利用的數據種類、來源、目標越豐富,能夠找到的價值與精準度就越高。另外就是,這些數據本身大多數是沒有意義的,必須要自行從「數據與數據間的關聯性」來分析出意義並且加以應用,快人一步知道該採取什麼步驟。

我知道很多人可能開始聽不懂了,什麼是「數據本身沒有意義,要自己從數據跟數據間的關聯性分析意義」呀?我用一個最簡單的例子來形容:

很多人都玩過猜硬幣的遊戲,正面、反面,隨機選一種,運氣好的人就能猜中,運氣差的人猜十次都猜錯也是可能的。但是,當你連續玩「猜硬幣」一百萬次、一千萬次、一億次後,你會發現整體機率無限趨近於「1/2」,也就是50%、50%的機率,我習慣將它稱為「偶然中的必然」。是的,你玩了一億次的猜硬幣遊戲,絕對不會出現「20%、80%」、「15%、85%」的機率分佈,它一定會是、或是極度逼近「50%、50%」。(這邊強調的不是機率問題,而是當數據資料量巨大的時候,某些「必然」的關聯性就會產生)


大數據、機器學習(Machine Learning),很多時候就是在尋找這種「偶然數據中的關聯性,以及彼此的必然性」,再拿這些數據來測試現有模型、或建立一個新的模型,這是「Data Mining」(資料探勘)的層面。當你找出了某種數據跟數據間的規則,下一步該怎麼走往往就呼之欲出了;不過大數據跟機器學習的差別在於,機器學習會利用數據來進行學習(監督式學習、非監督式學習),而大數據不會。

更好玩的是,你其實並不需要知道這些數據的因果關係、為什麼會這樣發生,「知其然而不知其所以然」是正確的!例如,在公共衛生單位工作的小明,發現X地區男性A疾病發生率遠比其他區高,於是開始設定不同的維度搜集資料、建立模型。小明最後從數據中意外發現,住在X地區的男生若時常吃蔬菜Y,得到A疾病的機率特別高,若不吃就沒事;雖然醫學上還不知道為什麼,但是小明從分析中得知,只要呼籲X地區的男生不要吃蔬菜Y,就可能可以避開A疾病,因此採取行動。當然,大數據也能發現很多確切的信息,可以直接採取行動,這些都是單從少數個案無法發現的。

大數據就是這麼有趣的東西,它可以運用在任何產業,尤其「網路行銷」這一個領域,更是適合大數據發揮的遊樂場。


好了,我知道大數據了,然後呢?它對網路行銷有什麼影響啊?

嘿嘿,大數據對「網路行銷」來說影響可大了! Yahoo就曾經針對「大數據」對於行銷的影響作出了明確的判斷與分析:

一、大數據可協助了解每個消費者的insight

簡單來說,隨著行動載具的普及,能夠取得的使用者資訊(消費習慣、地點、喜歡看什麼類型的內容等)已經遠比以往要多。當這些資訊被全面掌控的時候,最精準的個人化行銷就能誕生了。未來甚至可能因為數據的維度夠豐富,從相似的不同人身上挖掘出「潛在的商業價值」也不一定。

二、減少行銷策略的不確定性

除了每分每秒都在產生的新數據可以利用外,過往留存下來的數據也一樣可以拿來建立模型。「建立模型」是關鍵中的關鍵:它讓行銷策略從「憑習慣、憑感覺」進化到「靠數據與模型來說話」。換句話說,當你從數據中發現「A議題的社群熱度達到150的時候,再針對A議題下的廣告ROI(投資報酬率)特別高」,就可以將這個公式給留下來,利用這個模型來進行最有效率的廣告投放,操作社群熱度到150,或是針對當紅的社群議題進行產品策略的調整等。

事實上,除了少數像Yahoo這樣的公司,很少企業真的將搜集到的多維度資訊建立成模型,來輔助商業行為、讓公司獲利。

三、自動化媒體(廣告)採購:提高效率

這邊說的,是以大數據作為基礎,即時配對適合的廣告給適合的受眾,將「對的訊息」在「對的時間」傳遞給「對的人」,這是大數據在精準投遞廣告時的運用,Yahoo的精準廣告(Audience Ads)其實就是最佳範例。


相信很多人想開始利用「大數據」來進行數據分析,都是希望能夠協助公司成長,但是真正做得好的公司並不多。這中間的困難點,就我個人的觀察有幾個:

一、大家不太真的花心思,去利用搜集到的數據「建立模型」。沒有模型,就無法利用數據來協助商業行為,自然對於賺錢沒太大實質幫助。

二、「分析數據、找出數據背後的意義」,是建立模型的前提,但是這個步驟其實也不容易。

三、最好要有專人進行這一個領域的開發,要一個身兼多職的工程師「順便」做這塊,基本上是很辛苦的。

數據可以拿來建立模型、數據也可以拿來推翻模型。根據我去年在三立新聞網協助研究「個人化新聞推送」的經驗,設立好資料搜集目標、建立模型進行新聞推送內容調整後,後續「驗算模型」的動作也是至關重要的;如果數據量不夠大、累積的時間不夠長,在回頭檢視成效的過程當中,就可能出現模棱兩可的結果。一般來說,模型也不會是一成不變的,工程師應該隨時利用數據不斷的進行「A/B Test」,盡可能找到甜蜜點。


對行銷人員來說,最著名的行動大數據免費工具,應該非Flurry莫屬了吧!這款免費的行動應用程式分析與廣告平台,可以自動統計使用者背景與進行使用行為分析、行動裝置的分類、監控各種數位行銷活動成效。Flurry甚至提供「標竿分析」,開發者可以拿同類型APP的平均水準作為標竿,來衡量自己的APP使用者活躍程度是否健康,這也是大數據在商業智慧上的使用之一。

拿幾個「大數據與商業智慧」實際案例來說說(不限定網路行銷):


一、Overstock(電子商務)

Overstock是美國知名的線上零售商,主要業務是販售線下沒販售完的貨品;它們在2013年導入了Flurry Analytics,利用數據分析來優化使用者體驗,最終提升了高達25%的人均購買量。Overstock嘗試追蹤使用者行為,包括:搜尋行為、滑動目錄頁的行為、點擊放大圖片觀看行為、觀看評論行為、以及不同設備使用習慣差異。

最後Overstock發現,iPhone用戶較偏向目標導向,iPad用戶較偏向瀏覽導向,最終Overstock著手調整了介面的機制與流程,讓iPhone使用者更容易搜尋到想要的產品,iPad用戶則強化視覺效果、將圖片放大,最終獲得了非常好的結果:iPhone用戶的應用程式內購買者提升了70%,iPad用戶的應用程式內購買者提升了30%。


二、U.S.Xpress(卡車貨運公司)

U.S.Xpress是美國市場份額第三名的卡車貨運公司,他們構建了一個系統,為了最佳化燃油成本,在卡車上安裝了傳感器。除了地理位置信息外,包括同一位置的停留時間、怠速時間、燃油剩餘量、空調的開關等超過900項數據,全都記錄了下來。最終他們決定對那些「減少怠速、省油」的駕駛給予表揚,成功讓整體燃油節省了40%,每年省下了1700萬美元。另外,為了節約成本,他們還會把冷氣溫度低於規定值的卡車,強制調整回規定的範圍內。(案例出處:城田真琴《大數據的衝擊》)


三、Decide(電商資訊服務)

Decide在過去是一家「3C產品價格預測」網站,他們可以為消費者提出最佳的購買時間建議,透過抓取Amazon、Bestbuy、新蛋以及其他電子商務網站上的數十億條商品數據進行分析,最終預測出產品的價格趨勢,來替消費者找到最好的購買時機。

看完了這麼多大數據的敘述,不知道你是不是也躍躍欲試了呢?

▣本文同步刊登在Yahoo奇摩網路行銷

留言