當大數據開啟一個時代時,擁有海量交易數據的阿里巴巴已經認識到這是一座富礦,并開始摸著石頭過河

摸著石頭過河 阿里探寶大數據

來源:中國經濟和信息化  |  作者:崔婧  |  閱讀:

 

500多年前哥倫布做環球航行時,最想得到的就是航海地圖,要不然他不會把美洲大陸當成印度。

當大數據開啟一個時代時,阿里巴巴集團(下稱阿里)從海量交易數據中挖掘有價值的數據,猶如在大海中航行,馬云的鴻鵠之志也是那張航海地圖。只是哥倫布的目的地是印度,馬云的目標是大數據。

馬云宣稱平臺、金融和數據是阿里未來的三大戰略方向。其實,“阿里未來本質上是一個數據公司”,電商越來越離不開數據,金融的核心也是數據。阿里設立首席數據官,并把首席數據官陸兆禧升任CEO,傳聞將收購移動APP數據公司友盟等,這些都顯示馬云的大數據戰略萌動生芽。

在幾乎全球所有公司都還徘徊在大數據門前時,馬云縱然有大數據的宏韜偉略,在具體操作層面也只能摸著石頭過河。

完成25個事業部戰略調整后,阿里巴巴成立了數據委員會,由淘寶網商業智能部負責人車品覺出任首任會長。這位曾經在微軟、ebay出任產品經理,在支付寶、淘寶主管數據業務的香港人,大半生都癡迷于數據迷宮。

“我之所以來淘寶就是喜歡它的數據,就希望好好梳理下數據。”車品覺談到數據時異常興奮,在接受《中國經濟和信息化》記者3個小時采訪后,他還要給同事做有關大數據的培訓。此時,已經是晚上10點多。

車品覺是馬云大數據戰略棋局中已經過了河的卒子,他肩負著為阿里尋找開啟大數據之門鑰匙的重任。馬云給了他異常寬松的工作環境,甚至沒有具體的KPI考核。在接受《中國經濟和信息化》記者采訪時,他對所謂大數據贏利模式之類的問題并不看重:“阿里跟別人不一樣的地方就是愿意嘗試不同的產品,連領導都不能控制手下人到底玩什么。一幫很愛數據的人玩一堆產品出來,偶爾能出現如阿里金融這樣的產品就很好,允許他們玩就是允許差異化,做數據如果急于現在賺錢就會失去機會。”

“玩數據”其實并沒有這么簡單,特別是車品覺出任阿里數據委員會的安全責任人之后,他每時每刻都處在忐忑不安中。他認為,今后一段時間,數據質量、數據安全以及數據化運營將是阿里必須翻越的三座“大山”。

從“淘數據”起步

2003年的淘寶還是個“小朋友”,一個不起眼的購物平臺,遠不如當時的易趣(eBay)名氣大,甚至還有人預言淘寶會在18個月內夭折。

18個月后,淘寶讓預言夭折了,淘寶交易量幾乎呈指數增長,在2006年上半年注冊用戶數超過了易趣。從某種程度上看,易趣的存在是淘寶數據業務起步的外部動力。為了與易趣的銷售額對比,淘寶開始搜集每天的成交額、用戶訪問數等數據,從起步就增強了對數據的粘性。

淘寶嚴格意義上的第一個數據產品是“淘數據”,說白了這就是一個經營數據報表。“每個公司都需要了解經營業務狀況,淘寶業務大了也需要看經營狀況做未來決策,‘淘數據’就是為內部報表服務的一個工具,大約是淘寶成立兩年后的2005年開發的。”淘寶商業智能部一名元老級數據分析師告訴《中國經濟和信息化》記者。

這一年,淘寶迎來第一個數據分析師。半年后,淘寶建立第一批數據分析師隊伍,并成立第一個數據部門——商業智能部(BI)。他們每天的工作就是把日成交額、訪問用戶數等數據統計之后放入報表,讓淘寶決策層能夠清楚了解業務狀況。

此時的淘寶不再是一個賣家掛貨、買家購物的購物平臺,開始關注數據產生出來的意想不到的價值。當然,馬云當時還不至于把數據提升到公司戰略高度,但他敏銳地發現,“數據非常重要,未來的世界是數據的世界”。

外界廣為流傳這樣一個故事:2008年,中國眾多企業受國際金融危機重創,而阿里根據買家詢盤數急劇下滑,及時向中小制造商提供預警信息,為應對國際金融危機做好準備。雖然車品覺把這次經濟預警歸結為偶然事件,但阿里確實在數據分析中嘗到了甜頭。

隨著數據越來越多,原來的處理方式已不能進一步擴展,淘寶在用傳統數據庫方法處理數據問題時遇到了麻煩。

“我們早上9點上班要看數據,但傳統數據處理技術很難在9點之前讓所有人看到結果,數據處理的時間成本非常高。再這樣發展下去,就扛不住了。”前述分析師告訴《中國經濟和信息化》記者。

這一問題觸發了淘寶第一次技術層面的架構變遷,把以Oracle為主的傳統數據庫遷到了大數據技術Hadoop數據庫上,正式開啟阿里的大數據實踐應用。

兩條腿走路

淘寶的數據視野并沒有停留在公司內部決策上,2009年數據應用與開發開始走向外部,讓淘寶商戶分享數據。

在這一背景下,淘寶商業智能部的一部分人“被趕了出來”,開發淘寶商戶能分享的數據產品。這是淘寶的一次大膽嘗試,進行技術架構調整后,為挖掘更多有價值的數據騰挪出了空間,讓數據變成產品為公司掙錢。當然,此時淘寶并不是從掙錢的角度開發數據產品,而是想整合數據為商戶提供優質服務。

2010年3月,淘寶“數據魔方”產品正式對外發布。麥包包箱包在線商城是首先接觸并嘗到“數據魔方”甜頭的商家。麥包包運營總監畢志鵬稱:“在‘數據魔方’提供的數據支撐下,麥包包能及時準確把握市場動態,銷售業績迅速提升。”隨著淘寶數據正式對外開放,越來越多商家、企業能分享淘寶的海量數據,并獲得有價值的數據支撐。

幾乎同時,淘寶內部對數據的渴求也日益強烈。商業智能部留下的團隊繼續為公司內部提供數據支撐。此時“淘數據”開始從單純的報表系統擴展為內部數據產品的統稱。2009年4月和12月,商業智能部團隊又開發出可以預警的“KPI系統”和提供給業務部門使用的“數據門戶”。一年后,為了配合淘寶的大促銷活動,便于及時查看實時數據,這個團隊又開發了“活動直播間”。為了讓賣家更好地運營,2011年2月,“賣家云圖”出世。2個月后,“頁面點擊”誕生,它可以監控每個頁面的每個位置,用不同的數字和顏色標注出頁面點擊情況。

此時的車品覺在阿里已經擁有良好口碑,“要數據找品覺”成為慣例,很多管理層都習慣了車品覺提供的數據。

時任阿里首席人力資源官的彭蕾找到車品覺說:“馬云覺得該考慮一下如何從數據運營轉到運營數據了,你回去好好想想這個事情。”

黃金策”是車品覺較為得意的一個能稱得上運營的數據產品。車品覺帶領團隊處理了1億多活躍的消費者數據后,拿出500個變量,只要2秒鐘就能計算出結果。“黃金策”最早在支付寶成型,現在在與淘寶數據對接。

“支付寶發展大數據的目的,跟淘寶系有點偏差。支付寶更多是為內部服務,淘寶和天貓更多強調商業化。”車品覺如是說。2012年年中,車品覺來到了淘寶。時任淘寶網CEO的姜鵬邀請車品覺同時兼任淘寶商業智能部負責人,之后車品覺又成了阿里巴巴集團層面數據委員會的首任會長。

車品覺很看重淘寶的數據,因為淘寶數據更豐富,不僅有業務數據(交易行為數據),還有過程數據(如一個買家在某個頁面上停留了多久等)。在他看來,淘寶的這些數據就是SNS關系數據,這種數據脈絡看起來很像社會關系,并非一般B2C模式可以比較,這對他特別有吸引力,套用馬云的話這叫做生態鏈。

來到淘寶后,車品覺相繼開發了兩款產品——“無量神針”和“類目360”。通過“無量神針”,淘寶的管理者可以辨別萌芽狀態的可疑行為,迅速做出決策。而“類目360”則把淘寶的類目做得非常細,如果銷售增長了10%,可以知道是哪一個類目,哪一部分用戶對營收增長貢獻大,能評估集團內部哪些人工作有效率,哪些部門不給力,讓管理層2秒鐘就知道如何決策。

之后,淘寶有了自己的“黃金策”,鎖定用戶群后,可以立即對這些用戶進行針對性營銷,營銷后的效果又會回到“黃金策”上,形成一個閉環。

比車品覺團隊開發“黃金策”稍晚,淘寶對外團隊研發了“淘寶指數”,這是一款中國消費者行為數據的研究平臺。無論是淘寶賣家還是媒體從業者、市場研究人員,都可以利用“淘寶指數”了解淘寶搜索熱點、查詢成交走勢、定位消費人群、研究細分市場。

在這段時期,阿里一直在用兩條腿走路,對外團隊為外部服務,商業智能部服務于內部。

2012年阿里又推出了“聚石塔”產品,這是阿里首次聯合全集團大數據力量打造的一款大數據商用產品,可提供數據存儲、數據計算兩類服務。

“聚石塔”平臺沒有辜負馬云的期望。據天貓CEO張勇透露,“雙11”狂歡節大促銷當天,“聚石塔”處理的訂單超過天貓總量的20%,比平時增長20倍。

“聚石塔”上的客戶不僅包括淘寶上的商家,也包括淘寶外的電子商務企業。在淘寶和天貓平臺上,有ERP系統(企業資源計劃系統)的商家可以直接找天貓對接“聚石塔”,沒有ERP系統的商家,可以找提供第三方軟件服務的電子商務服務企業,通過他們的ERP服務接入“聚石塔”服務。

數據平臺戰略

大數據部門該放在運營團隊還是技術團隊?這是車品覺經常被其他公司詢問的一句話。聽到這個問題時,車品覺就覺得“這些人沒戲了”,因為其實他們并不重視大數據戰略。

在車品覺看來,一個企業如果真想做好大數據,大數據必須成為CEO直接領導的一級戰略部門。如果數據部門想要在結構龐雜的企業內部提高地位,數據產品一定要刺激決策部門和業務部門,直至促使他們對前端的業務環節做出調整。

2013年1月,阿里調整為25個事業部,CEO陸兆禧分管的數據平臺事業部團隊正是“數據魔方”衍生出來的團隊。而在數據平臺事業部很得力的員工空無(淘寶員工的化名)就是當年做“數據魔方”走出來的人。

在數據戰略架構上,阿里早在3年前就開始布局。2010年阿里推出一淘網,目標是做一家全網購物搜索引擎。2011年淘寶收購CNZZ網絡技術服務公司,第二年CNZZ推出“云推薦”內容推薦引擎。淘寶聯盟在今年重啟“阿里媽媽”品牌名,從以服務淘寶系商家為主轉為面向全網所有廣告主。阿里與新浪微博仍在進一步談判,近期傳聞阿里將收購移動開發者服務平臺友盟等。

早在阿里醞釀設立首席數據官崗位(CDO)前,馬云就意識到數據產品要建在一個平臺上才有更大的價值。2012年7月,阿里委任陸兆禧為首席數據官職務,負責全面推進阿里“數據分享平臺”戰略。

事實上,馬云希望建立囊括所有與消費相關的數據平臺,包括實體類商品消費數據、服務類商品消費數據、金融相關數據等,再以自己的數據平臺為中心建立數據交易中心。也就是說,誰想獲得數據,上這個平臺來,要么用貨幣來換,要么用數據來換。

阿里金融是大數據衍生產品開發的一個范例,通過分析淘寶、天貓、支付寶、B2B上商家的各種數據,阿里打造了一個信貸工廠,為平臺上的賣家提供小額信貸服務。

馬云這步棋下得很準,小微企業的資金困境影響著企業的發展。目前,中國有近4200萬家小微企業,在影響企業發展壯大的因素中,資金占96%,銀行考慮到風險太大,很少向小微企業貸款。那么,阿里金融如何通過大數據規避風險呢?

除了容易標準化的交易數據外,非結構性數據也一并被錄入到數據庫中,類似賣家和買家的聊天記錄、評價、店鋪信用等。然后,阿里金融通過數學模型,對上述數據分析處理,就能自動確定貸款申請人的貸款限額。發放貸款以后,阿里通過實時監測貸款商家的交易、退貨、評分等經營情況,能方便了解客戶還款能力,一旦客戶交易情況下滑,系統會自動發出預警。

這就是阿里金融打造的一個純粹基于互聯網信用小額信貸的平臺。截至2012年底,阿里金融累計服務小微企業已經超過20萬家。同年11月初,阿里金融的壞賬率僅為0.9%,低于很多銀行。

讓愛數據的人玩起來

“今年你給我的績效是什么?”

“你開心就好。”

這是阿里數據委員會成立后,車品覺和姜鵬的一次對話。不過,車品覺想開心并不容易。他的擔心更多于開心。

車品覺的擔心是有理由的。阿里數據委員會是一個虛擬的組織,虛擬如何管理實體?“有點打太極,四兩撥千斤的感覺。”車品覺苦笑稱。

2013年在香港特區過新年的時候,車品覺想方設法讓自己盡量休息。他知道今年數據委員會的工作肯定會千頭萬緒,他要籌建數據挖掘工程師、分析師等協會,為大數據業務培養足夠的人才。他告訴記者:“數據人才是最大的競爭力。我今天看大數據的時候,是如何讓他們玩出來,而不是把人管理起來。”

在阿里的大數據團隊中,有這樣幾批人:決策分析師、業務分析師、數據挖掘工程師、數據科學家、數據產品經理、數據開發師、基于數據的前端開發工程師、數據底層平臺搭建師。車品覺的想法是讓愛數據的人玩起來:“我們相信只要這樣走下去,會有一幫懂數據的人玩出來。我們要找到出路,但是不一定現在就能明確看到出路。這也是為什么我們邀請數據科學家來,很多事情不能說今天就要效益,偶爾能產生阿里金融這樣的產品就很好。”

車品覺對數據分析師的考核有自己的標準。每個月的最后一周,數據分析師都有一場考試。如果分析師的觀點能在月度經營分析報告里出現,就說明這個分析師的分析有價值。如果在報告提交給管理層討論的時候,某個分析師的觀點能改變業務部門領導的看法,那就得到3.75分。更進一步,如果分析師的觀點能讓公司領導接受,并最終促進相關業務的調整,那就是4分。4分幾乎是一般數據分析師能得到的最高分。

“數據的數據”

一次大數據會議討論中,車品覺向姜鵬提了這樣一個問題:做數據的人,為什么沒有數據的數據呢?正是這次提問,淘寶開始著手建立“數據的數據”,即數據地圖。“每一個數據都由很多個數據產生,數據的數據是讓我們看見今天數據做得怎么樣,建立數據地圖,以追溯到數據的源頭,提高數據的質量和價值。”車品覺說。

保障數據質量要在大數據源頭獲取方式上下功夫,從源頭上保證數據的準確度。“就好比去挖掘一個信用卡持有人的消費記錄,必須清楚這些消費行為是不是都來自持卡人,有沒有可能部分是持卡人老婆去消費的?”車品覺表示,要盡可能保證數據的精確度,不然會導致數據質量失準。

大數據跟個人最為密切的關系是對隱私的可能侵入,數據安全是阿里大數據面前的第二座大山,也是第二大核心。“有些人不知道數據的危險性,但我們做數據的人深知其中的利害。數據安全得不到保障,早晚會出事。”車品覺說,為了數據安全,他在支付寶里可能得罪了不少人,“但個人隱私絕對不能泄露,這是底線”。

目前在阿里內部,淘寶系的淘寶、天貓和一淘,在數據上是共享的,B2B的數據則是獨立的。支付寶有金融牌照,法律要求數據必須獨立,如果集團某個部門需要一些數據,查看數據必須提出權限申請。

事實上,車品覺剛開始做安全的時候也失敗過。那時候,他第一次建支付寶的安全架構,直接套用了銀行的一套物聯網安全架構,“我想定義所有數據的層,做完就進行不下去了。”在支付寶第二次做安全的時候,他采用case by case(案例法)這種方法,然后成功了?,F在在淘寶,他也使用了案例法,慢慢積累安全經驗。在他看來,安全是開放的前提,如果國家未來想到管理數據,現在阿里的經驗將很有參考價值。

為了保證數據安全,車品覺的團隊在研究用戶行為時,框定的最低數據量是1000人用戶群的購物行為,不能再少于這個人數,針對某個具體用戶的數據分析是不允許的。車品覺說:“阿里對數據的挖掘處理有一套自律準則,包括后臺數據的查看,一些明細是看不到的,這樣封閉的目的在于維護用戶的隱私,同時也防止數據濫用。”

阿里內部還專門成立了小組,數據的公開與否主要由他們進行判斷。評判小組沒有一個具體統一的標準,數據該不該公開、公開到什么程度,都以每個案例本身為依據。

到今天為止,數據委員會里的安全小組跟數據質量小組已經成立,相比年初時,車品覺的心沉下來一點了。“數據開放現在太早了,度很難把握。”車品覺說,在某種程度上,數據開放考驗的是數據人的良心和經驗。

阿里還在路上。車品覺和同事現在所走的路是一條很新的路,可參照的東西不多,從國外公司來看,擁有阿里這個數據量級的公司并不多。在大數據的路上,阿里需要做的還有很多。