新用戶登錄后自動創建賬號
登錄這是一個不說自己搞大數據就不好意思和人打招呼的時代。阿里巴巴用大數據貸款,百度用大數據推廣告。那么,沒有巨頭的天然優勢,創業公司具體怎么搞大數據?
開搞之前,先明確一下目前大數據主要是用來預判,挖掘用戶的需求(也有用過去的大數據判斷現在的需求,如大數據種菜判斷菜目前的長勢情況)。那么,預判的依據是什么?就是所謂樣本,例如我通過前幾年的平均氣溫判斷今年的溫度是高是低。
這里還可以分為三種情況:一種是我的大數據軟件自帶了很多樣本可以作為分析依據,一種是我把之前的交易數據作為樣本。第二種較先進,要求系統有自我學習建立樣本模型的能力,也就是邊干邊學。第三種最牛不光能做出預判,還能告訴你下一步怎么做,例如一家賣拖拉機的公司,為用戶提供何時在哪里種植何種作物,犁地的最佳路線。
首先說一下數據來源問題,可以是平時經營過程中積攢下來的也可以向別的公司購買(像京東那樣買騰訊的數據,目前國內貴州大數據交易中心和DATACOMB很出名,后面細說).
技術關鍵:積攢數據同時要根據自己的需求為用戶和產品貼標簽,例如我希望了解和用戶年齡段有關的規律,那么年齡就是必須采集的一個標簽。
積攢數據的方式大致分兩類,一類是圍繞用戶,一類是圍繞產品,將兩者每次交易的數據都采集下來,可用人力,例如飯店服務員每次交易記錄下菜品,性別,滿意度之類,這一步又叫企業數據化。
然后是數據的初步處理:租服務器,建立自己的數據分析架構,例如日報表月報表這些都OUT了,應該明確適合公司的格式,如果需要這些定制需求的報表,目前流行的大數據的解決方案大部分都是以Hadoop為基礎架構。什么是Hadoop?
簡單來說Hadoop是一個分布式計算的解決方案,分布式通俗來說就是把一件事分布到幾臺計算機上運行。由多臺計算機同時運行和存儲數據,比一臺計算機運行速度快,而且如果數據量大了,或者報表復雜導致運算速度慢,只要再加計算機就解決了。
當每臺計算機運算完畢后,會把中間結果集中到一臺計算機上,再把這些中間結果匯總起來得出最終結果。把手頭的數據進行預處理,包括將不同數據庫的數據導入到一個數據庫中.
數據的粗選,分析,分類,會用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。先別頭大,如果你不是淘寶京東這樣的巨頭沒有那么大數據量可以不這么麻煩,剔除那些和其他數據差別很大的就行
接下來,就是最核心的,數據挖掘。這一步可以挖掘出你意想不到的信息,比如,買啤酒的顧客通常會買尿布,持續買無香精面霜的顧客通常接下來會買母嬰用品。這些數據怎么挖?需要用到以下工具:
1.決策樹,各種可能性的展示圖,主要用來精確分類。例如,樹的根部是雜貨鋪里所有商品,往上走就是第一個分叉,分叉處有一個判斷標準-吃的還是用的,于是所有商品被分開為兩個樹枝,吃的再往上走又出現分叉,于是被分成甜的和咸的...
2.神經網絡,例如,計算機預判迎面走來的這個軟妹子會買奶茶,因為根據神經網絡顯示,上次買咖啡,上上次買酸奶的,這次99.99%的概率會買奶茶。什么?這貨買的啤酒?那計算機就會根據這次的結果修改神經網絡。沒錯,神經網絡是具有學習能力的模擬人腦總結教訓的分析模式,他會自己得到一個穩定準確的結果。
3.關聯規則,例如上文說的買啤酒的一定買尿布。
先看一個簡單的例子,假如有下面數據集,每一組數據ti表示不同的顧客一次在商場購買的商品的集合:
t1: 牛肉、雞肉、牛奶
t2: 牛肉、奶酪
t3: 奶酪、靴子
t4: 牛肉、雞肉、奶酪
t5: 牛肉、雞肉、衣服、奶酪、牛奶
t6: 雞肉、衣服、牛奶
t7: 雞肉、牛奶、衣服
假如有一條規則:牛肉—>雞肉,那么同時購買牛肉和雞肉的顧客比例是3/7,而購買牛肉的顧客過一段時間也購買了雞肉的顧客比例是3/4。這兩個比例參數是很重要的衡量指標,它們在關聯規則中稱作支持度(support)和置信度(confidence)。
前者反映了牛肉雞肉組合的吸引力,后者可用來預判消費行為。好了,現指定你想要的支持度和置信度是多少,然后把牛奶雞肉,衣服奶酪等各種組合用程序算一遍,找出支持度和置信度滿足你要求的組合。
其中,假如一條關聯規則的支持度和置信度很高時,不代表這個規則之間就一定存在某種關聯。舉個最簡單的例子,假如X和Y是最近的兩個比較熱門的商品,大家去商場都要買,比如某款手機和某款衣服,都是最新款的,深受大家的喜愛,那么這條關聯規則的支持度和置信度都很高,但是它們之間沒有必然的聯系。
所以,搞大數據既要對專業精通又要對你公司的業務精通,這也是現在公司經常碰到的難題,此事古難全啊。
除了這些,大數據還經常用到一些數學工具如,線性回歸,支持向量機等來幫助進行比對和分類。不要小看這些輔助工具,有時候他們是主力。美國警察用電力公司的數據與培養大麻的LED燈用電曲線進行比對,數學工具就是線性回歸,只要發現哪家用電曲線和樣本相符(相符的程度用方差表示,標準老警自己定),直接踹門抓人一抓一個準。
這些數學工具很多都是用來分類的,分類在大數據中是個大事,例如國外有的門戶網站首頁分類用大數據直接篩選出詳細頁使用頻率較高的詞匯作為各個大類的標題。
工具列完了,下面數據挖掘正式開幕:
大數據對于什么時候用人力什么時候用計算機也能看出來功力,中小公司更應該注意巧妙利用人力,可避免在技術上過多拼財力。比如以上的例子中大家可以看到,相似不相似,是不是關聯,這些標準都是人定的。
計算機常負責一些同一個算法算大批量數據的活。美國大數據公司的老大Palantir就因精于此道而著稱。中小公司在這方面也有做的不錯的,最近開始流行的圖片新聞APP 網新聞的策略就很值得借鑒:
網新聞主要是用關系圖,時間軸各種圖片展示更豐富信息,一條新聞,用戶希望在哪一點上獲取更深入的信息是網新聞最想分析的,明確了這個目的又積累了一定用戶行為的數據后,網新聞做了如下工作:舉個栗子,把一個新聞如釋永信事件,讓小編寫完這條新聞就分析用戶關注這條新聞的點在哪,并且把各種可能性列出來。列出的結果是:
1、用時間軸展示少林寺背后的利益紛爭事件,用關系圖展示各利益相關方的關系,這兩條可以滿足求知欲,用戶也可以說出去秀知識。
2、說明佛門中的禪宗一派特點就是不避世俗。古代就在寺廟做小買賣。進而拓展到律宗,密宗是怎么回事。
3、傳聞釋永信嫖娼,有情婦,桃色因素是一個。
4、中國法律目前對寺廟住持是怎么定性的,有哪些法律來約束,觸犯了這些法律會受到什么樣的懲罰,對事件目前形勢未來預判也是一個吸引人的因素...
這樣列出來后,進行關聯性分析,點擊量高的新聞,一定是具備因素2和因素3?還是因素1和因素3?...網新聞用這種方法得出很多有價值的信息,如用戶對用圖片解釋“經理人采購指數”感興趣還是對展示某經濟指標對自己生活的影響更感興趣,然后用這些數據指導小編擺圖寫稿。
另外,不要覺得分析數據預判用戶需求很屌,其實路邊賣手抓餅的也經常能猜出你這次要不要放辣椒,就是調用的他腦中的大數據。可以讓用戶刷打折卡或者是通過QQ定外賣時顯示他平時的偏好。
這個方法需要對數據預處理去掉那些和其他數據偏離較大的數據可獲得基本的“用戶畫像”。另外還可以結合其他因素數據豐富“用戶畫像”,例如天氣炎熱或寒冷的情況下用戶的喜好,每到周末是不是多買一些等。
還有一個很重要的使用人力的節點就是先想好你想了解什么。例如,買啤酒的顧客會買尿布這個例子中,數據挖掘工程師其實提前就想到有必要查看一下啤酒和其他商品的關聯,才有了這個發現,而不是計算機自己去找這兩者關系。這需要洞察力!福布斯網站發文稱“首先制定好策略,然后奔著結果找出答案”,并由此得出“問題比答案重要”的結論。
使用大數據的流程就這些了。總結一下哪些地方使用人力:收集什么樣的數據需要人來做決定,想好要弄清楚哪些規律需要人來做決定。電腦主要用來存儲,以及用數學工具來進行具體計算。哈哈,原來大數據不是巨頭們買一個塞滿房子的超級計算機把海量數據統統輸進去然后“度昂”一下就出來結果了!我們小公司一樣可以搞啊!
由于“問題比答案重要”,再說一下大數據領域提出的幾個有代表性的“問題”。既然除了利用之前積累的數據了解用戶偏好向用戶推銷這次的產品,還可以用大數據讓用戶方便的消費來提高用戶體驗:快餐業的視頻分析。
該公司通過視頻分析等候隊列的長度,然后自動變化電子菜單顯示的內容。如果隊列較長,則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但準備時間相對長的食品。這個案例門檻極低,只要人為設定隊伍多長算長,做食物的速度多塊算快即可,也可以人工標定一下哪些是快食哪些是慢食。
不僅可以預判需求予以滿足,營銷時還可以定點營銷。此類打法常常是從別的機構購得數據或者連錢都不花從政府開放的數據中拿,一家領先的專業時裝零售商,通過當地的百貨商店、網絡及其郵購目錄業務為客戶提供服務。
公司希望向客戶提供差異化服務,如何定位公司的差異化,他們通過從Twitter 和Facebook 上收集社交信息,更深入的理解化妝品的營銷模式,隨后他們認識到必須保留兩類有價值的客戶:高消費者和高影響者。然后通過免費化妝服務,對這兩類消費者進行精準的宣傳。這個案例中,需要用到的工具有用于歸類的線性回歸,聚類分析等。
數據的來源問題:由于沒有巨頭那樣的數據積累,中小企業經常想到購買數據,或使用政府公開的免費數據。目前國內掌握大數據的巨頭不夠開放,形成了讓仁人志士頭大的“數據堰塞湖”。雖然也有開放數據的,例如中國首個大數據開放平臺DataComb,對于掌握一些數據的公司來說也多了一些數據變現的渠道,然而對疏通“堰塞湖”并沒有太大作用。
也有好消息,8月19日,國務院常務會議審議通過《關于促進大數據發展的行動綱要》,全面公開應該就在眼前了。在美國最重要的數據開放平臺就是奧巴馬政府在2009年推出的Data.gov,奧巴馬同學對搞大數據一向蠻拼的。
另外,創業公司切記,巨頭們整天嚷嚷的“大數據不必追求精確,犧牲精確性可以換取效率和更多規律的發現”,可問題是那是在數據量異常大的情況下,對中小企業數據量不太大時務必要精確。
總的來說,大數據分析可謂是兵無常勢,水無常形,真正厲害的數據挖掘大師是碰到什么樣的形勢知道用什么樣的工具來解決的人。中小企業玩大數據切記:1.不炒概念。2.不燒錢。切實用大數據提升企業競爭力才是王道。