數據中臺:基于標簽體系的 360°用戶畫像

作者丨石秀峰
全文共6375個字,建議閱讀需18分鐘
一、從“標簽”說起
標簽是用來標志您的產品目標和分類或內容,像是您給您的目標確定的關鍵字詞,便于您自己和他人查找和定位自己目標的工具。目前標簽廣泛的使用到我們的工作和生活中,常見標簽有三類:實物標簽、網絡標簽和電子標簽。
實物標簽是用于標明物品的品名、重量、體積、用途等信息的簡要標牌,例如:商品標簽、圖書標簽、車檢標簽、文件標簽、服裝吊牌、車票、登機牌都是實物標簽。
網絡標簽(Tag)是一種互聯網內容組織方式,是相關性很強的關鍵字,它幫助人們輕松的描述和分類內容,以便于檢索和分享,Tag是web 2.0的重要元素。
電子標簽又稱RFID射頻標簽,是一種識別效率高和準確性好的識別工具,通過射頻信號自動識別目標對象并獲取相關數據,識別工作無須人工干預,可工作于各種惡劣環境。

而我們這里用戶畫像使用的標簽是網絡標簽的一種深化應用方式,是某一種用戶特征的符號表示,是我們觀察、認識和描述用戶的一個角度,用戶標簽是基于用戶的特征數據、行為數據和消費數據進行統計計算得到的,包含了用戶的各個維度。而所謂的用戶畫像就是可以用用戶標簽的集合來表示的,作為一種勾畫目標用戶、聯系用戶訴求與設計方向的有效工具。
用戶畫像,即用戶信息標簽化,就是企業通過收集與分析消費者社會屬性、生活習慣、消費行為等主要信息的數據之后,完美地抽象出一個用戶的商業全貌作是企業應用大數據技術的基本方式。用戶畫像為企業提供了足夠的信息基礎,能夠幫助企業快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。

二、用戶標簽的分類
1、按照標簽的變化頻率,可分為靜態標簽和動態標簽。
靜態標簽是指用戶與生俱來的屬性信息,或者是很少發生變化的信息,比如用戶的姓名、性別、出身日期,又例如用戶學歷、職業等,雖然有可能發生變動,但這個變動頻率是相對比較低或者很少發生變化的。動態標簽是指非常經常發生變動的、非常不穩定的特征和行為,例如“一段時間內經常去的商場、購買的商品品類”這類的標簽的變動可能是按天,甚至是按小時計算的。
2、按照標簽的指代和評估指標的不同,可分為定性標簽和定量標簽。
定性標簽指不能直接量化而需通過其他途徑實現量化的標簽,其標簽的值是用文字來描述的,例如“用戶愛好的運動”為“跑步、游泳”,“用戶的在職狀態”為“未婚”等。定量標簽指可以準確數量定義、精確衡量并能設定量化指標的標簽,其標簽的值是常用數值或數值范圍來描述的。定量標簽并不能直觀的說明用戶的某種特性,但是我們可以通過對大量用戶的數值進行統計比較后,得到某些信息。例如“用戶的年齡結構”為“20-25歲”、“單次購買平均金額”為“300元”,“購買的總金額”為“20萬元”……,當我們獲得以上信息是否就可以將該用戶劃分為高價值客戶呢?
3、按照標簽的來源渠道和生成方式不同,可以分為基礎標簽、業務標簽、智能標簽。
基礎標簽主要是指對用戶基礎特征的描述,比如:姓名、性別、年齡、身高、體重等。業務標簽是在基礎標簽之上依據相關業務的業務經驗并結合統計方法生成的標簽,比如:用戶忠誠度、用戶購買力等標簽就是根據用戶的登錄次數、在線時間、單位時間活躍次數、購買次數、單次購買金額、總購買金額等指標計算出來的。業務標簽可以將經營固化為知識,為更多的人使用。智能標簽是利用人工智能技術基于機器學習算法,通過大量的數據計算而實現的自動化、推薦式的進行打標簽,比如今日頭條的推薦引擎就是通過智能標簽體系給用戶推送其感興趣的內容的。
4、按照標簽體系分級分層的方式,可以分為一級標簽、二級標簽、三級標簽等,每一個層級的標簽相當于一個業務維度的切面。在標簽應用中按照不同的業務場景進行標簽組合,形成相應用戶畫像。

5、按照數據提取和處理的維度,可以將標簽分為事實標簽,模型標簽,預測標簽。這種用戶標簽的分類方式更多是面向技術人員使用,幫助他們設計合理的數據處理單元。
事實標簽。既定事實,直接從原始數據中提取,描述用戶的自然屬性、產品屬性、消費屬性等,事實標簽其本身不需要模型與算法,實現簡單,但規模需要不斷基于業務補充與豐富,比如:姓名、購買的產品品類、所在小區等。
模型標簽。對用戶屬性及行為等屬性的抽象和聚類,通過剖析用戶的基礎數據為用戶貼上相應的總結概括性標簽及指數,標簽代表用戶的興趣、偏好、需求等,指數代表用戶的興趣程度、需求程度、購買概率等。
預測標簽。參考已有事實數據,基于用戶的屬性、行為、位置和特征,通過機器學習、深度學習以及神經網絡等算法進行用戶行為預測,針對這些行為預測配合營銷策略、規則進行打標簽,實現營銷適時、適機、適景推送給用戶。例如試用了某產品A后預測可能還想買產品B并推送購買鏈接給該用戶。

三、用戶畫像的應用場景
用戶畫像,即用戶信息標簽化,是企業通過收集與分析消費者基本屬性、社會屬性、生活習慣、行為特征等主要信息的數據之后,抽象出用戶的商業全貌。大數據的發展讓各行各業都日益聚焦于怎樣利用大數據了解用戶需求,實現精準營銷,進而深入挖掘潛在的商業價值。
不同的企業做用戶畫像有不同的戰略目的,廣告公司做用戶畫像是為精準廣告服務,電商做用戶畫像是為用戶購買更多商品,內容平臺做用戶畫像是推薦用戶更感興趣的內容提升流量再變現。企業對用戶的了解越多,就越容易為用戶提供所需產品和服務,從而提升用戶的粘性,提升企業盈利能力。

1、了解用戶
不得不承認大數據正在改變著各行各業,以前了解用戶主要是通過用戶調研和訪談的形式,形式單一、數據收集不全、真假難辨。尤其是在產品用戶量擴大后,調研的效用降低,以不能滿足企業發展的要求。利用大數據技術,基于標簽體系構建用戶的360°畫像,從用戶的各個維度進行分析,了解用戶是誰,他們有什么特征,他們的興趣偏好,而這些信息的研究是企業制定營銷策略、服務策略,提升用戶滿意度的重要依據。
2、精準營銷
要做到精準營銷,數據是最不可缺的存在。以數據為基礎,建立用戶畫像,利用標簽,讓系統進行智能分組,獲得不同類型的目標用戶群,針對每一個群體策劃并推送針對性的營銷。精準化營銷具有極強的針對性,是企業和用戶之間點對點的交互。它不但可以讓營銷變得更加高效,也能為企業節約成本。
3、產品創新
在用戶需求為導向的產品研發中,企業通過獲取到的大量目標用戶數據,進行分析、處理、組合,初步搭建用戶畫像,做出用戶喜好、功能需求統計,從而設計制造更加符合用戶核心需求的新產品,為用戶提供更加良好的體驗和服務。
4、渠道優化
當前的零售企業的銷售渠道有多種,比如:自營門店、經銷商代理、電商平臺、電商APP等,每個渠道的用戶群體的消費能力、興趣偏好可能是不一樣的,通過用戶畫像可以讓合適的產品投放在合適的渠道投放,從而增加銷售量,這是目前零售行業慣用的方法。
5、個性推薦
眾所周知,今日頭條是個個性化的新聞推薦引擎,在今日頭條CEO張一鳴看來,算法是《今日頭條》這款興趣推薦搜索引擎應用的核心,這也是與傳統媒體最本質的區別,今日頭條之所以能夠非常懂用戶,精準推薦出用戶所喜好的新聞,完全得益于算法,而正是精準推薦,使得今日頭條在短短兩年多的時間內擁有了2.2億用戶,每天有超過2000萬用戶在今日頭條上閱讀自己感興趣的文章。
四、用戶畫像的體系架構
按照應用系統分層設計的原則,基于標簽體系的用戶畫像的體系結構可以分為:數據源層、數據采集層、數據建模層、數據應用層,行業應用層等。

數據源層:用戶標簽體系建設的需要從不同的來源匯集數據,例如,企業的核心系統(不同的行業其核心系統不同,對制造業來說核心系統有ERP、MES、PLM等),營銷系統(CRM),互聯網數據(電商平臺以及微信、微博、論壇等社交平臺獲取的數據),以及從第三方專業機構獲取的數據(各地的數據交易中心購買的數據)。
數據采集層:與傳統數據項目的數據采集不同,基于標簽體系的用戶畫像的數據來源廣泛、數據量巨大,數據類型豐富(包括:結構化數據、半結構化數據和非結構化數據),有線上的用戶行為數據,也有應用系統日志數據,有互聯網爬蟲數據,也有API接口的第三方數據包。用戶畫像數據采集需要通過網絡爬蟲或網站公開API等方式從網站上獲取數據信息,并且可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,并支持以結構化的方式存儲。同時支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯。
數據建模:基于標簽體系的用戶畫像建模主要是針對用戶畫像的建模和產品的建模。產品畫像建模包括了數據清洗、文本建模、類別識別、品牌識別、屬性識別、產品畫像等;用戶畫像建模包括了數據清洗、用戶全渠道ID識別、信息整合、分析建模和用戶畫像。通過統一產品類目和屬性體系和統一的用戶畫像標簽體系的建設,為用戶標簽的應用提供支撐。
數據應用:即基于標簽體系的應用,包括分析類應用(如用戶分析、產品分析)、服務類應用(如服務及產品創新)、營銷類應用(精準營銷)、數據接口API等。
行業應用:基于標簽體系的用戶畫像在各行業的所應用和探索,將為行業的發展和創新帶來更多可能。
五、用戶畫像的建設步驟
1、數據采集
用戶畫像是根據用戶的人口信息、社交關系、偏好習慣和消費行為等信息而抽象出來的標簽化畫像,用戶畫像數據來源多樣,采集方式也不同:有線下采集的信息,比如通過訪談、調研等方式采集的數據;有線上采集的信息,比如:消費記錄、瀏覽日志、收藏記錄等;有從第三方接口接入的信息,比如微信接口可以獲取用戶微信的昵稱、性別、地域,QQ接口可以獲取用戶QQ的昵稱、性別、年齡、生日、星座、地域等信息;還有通過爬蟲獲取的數據;比如微博、評論、論壇等社交媒體的內容;通過機器學習來訓練得到信息,比如通過預置機器學習算法,利用網絡爬蟲不斷抓取數據進行大量計算得出來的數據,比如情感偏好、購物偏好等。
2、數據清洗
大家都知道大數據有一個特征Value(價值密度低),在標簽體系的建設是在大數據環境下進行的,大數據的低價值密度性決定著在采集回來的數據中存在著大量的噪聲數據、臟數據,比如:缺失值、重復、數值異常等。要實現精準的用戶畫像就需要對這些噪聲數據、臟數據進行處理,這個過程我們叫做數據清洗。常見的數據清洗方法:缺失值處理,對于缺失數據的處理方法有三種,一是刪除缺失數據(數據采集不易,一般不輕易刪除數據);二是補齊缺失數據,常用方法有:均值插補、中位數插補、最大值插補、最小值插補、固定值插補、最近鄰插補、熱卡填補法等;三是不處理缺失數據。重復數據處理(刪除重復的數據)。異常數據處理,對于異常數據的處理常用的方式是一定的規則先找到異常數據,查找異常數據常用的方法包括:統計分析、分類聚類、箱型圖分析、模型檢測、密度分析、距離分析等。在找到異常數據后,根據業務情況確定是刪除、修正或補齊異常數據值。
3、數據標準化
在做用戶畫像分析之前,需要先將數據標準化,利用標準化后的數據進行數據分析。數據標準化處理主要包括數據同趨化處理和無量綱化處理兩個方面。數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。數據標準化的方法有很多種,常用的有“最小—最大標準化”、“Z-score標準化”和“按小數定標標準化”等。經過上述標準化處理,原始數據均轉換為無量綱化指標測評值,即各指標值都處于同一個數量級別上,可以進行綜合測評分析。用戶畫像的建立需要有整合多源數據的能力,比如一個用戶可能使用多個設備,擁有多個賬號,則須把多個身份ID組合,建立統一的標準,形成完整標識實體的用戶畫像。以上描述的這個場景被稱為OneID體系——統一身份認證,即對于同一個人,使用不同設備或系統只有唯一身份。
4、數據建模
數據建模就是根據用戶行為,構建模型產出標簽、權重。一個事件模型包括:時間、地點、人物三個要素。每一次用戶行為本質上是一次隨機事件,可以詳細描述為:什么用戶,在什么時間,什么地點,做了什么事。
用戶動態建模公式:用戶標識 +時間 + 行為類型 + 接觸點(網址+內容),表示某用戶在什么時間、地點、做 了什么事,所以會打上某標簽。用戶標簽的權重可能隨時間的增加而衰減,因此定義時間為衰減因子r,行為類型,同時該標簽對該用戶的重要程度也決定了用戶標簽的權重,進一步轉換為公式:
用戶標簽權重 = 行為類型權重 × 時間衰減 × 用戶行為次數 × TF-IDF計算標簽權重

行為類型權重:用戶瀏覽、搜索、收藏、下單、購買等不同行為對用戶而言有著不同的重要性(偏序關系),該權重值一般由運營人員或業務來決定;
時間衰減:用戶某些行為受時間影響不斷減弱,行為時間距現在越遠,該行為對用戶當前來說的意義越小,采用牛頓冷卻定律;
行為次數:用戶標簽權重按天統計,用戶某天與該標簽產生的行為次數越多,該標簽對用戶的影響越大。
公式:t=初始溫度×exp(-冷卻系數×間隔的時間),實際應用中,初始溫度為1就行,間隔的時間為今天與產生行為那天的天數,或者小時數都行,根據業務進行調整,冷卻系數的業務來決定,或者通過數據分析而來。
TF-IDF計算標簽權重:tf為某標簽在該用戶出現頻率,idf為某標簽在全部標簽中的稀缺程度。
5、標簽挖掘
標簽挖掘,即對用戶標簽體系中的用戶數據進行挖掘,形成用戶標簽,這個過程也叫標簽生產。標簽的生產方式主要有以下兩種:①基于規則定義的標簽生產方式,即根據固定的規則,通過數據查詢的結果生產標簽,重點在于如何制定規則。②基于主題模型的標簽生產方式,主題模型最開始運用于內容領域,目的是找到用戶的偏好,在用戶標簽中我們可以參照分類算法將用戶進行分類、聚類,使用關鍵詞的算法挖掘用戶的偏好,從而生產標簽。在整體用戶標簽生產過程中,通過用戶關系數據(用戶關系數據體現了用戶之間的客觀重要程度)、用戶內容數據(用戶發布的信息,微博、微信、評論等)、用戶行為數據(用戶的瀏覽、搜索、收藏、下單、加入購物車、購買等行為)挖掘出用戶的標簽及其基礎權重;接下來通過多個維度的定向挖掘進行標簽的校正和增加標簽的覆蓋。最后,將挖掘出來的用戶標簽及權重輸出至用戶標簽庫,供上層業務調用。標簽挖掘常用到數據挖掘、機器學習的相關算法有:支持向量機、線性回歸、樸素貝葉斯、神經網絡、決策樹、分類、聚類、關聯等。
6、數據可視化
數據可視化是基于標簽體系的用戶畫像的重要應用, 通過詳實、準確對用戶的各類標簽數據進行匯集和分析,并以圖片、表格等可視化手段幫助企業全面了解用戶的基礎信息,用戶關系情況,用戶經濟情況、用戶偏好情況、健康情況、飲食情況等信息。同時,利用數據標簽體系的用戶畫像可視化技術,通過對用戶關系數據、用戶內容數據、用戶行為等數據進行可視化展示,能夠幫助企業管理人員、業務人員全面了解用戶,了解用戶是誰,他們有什么特征,他們的興趣偏好等,從而為智能推薦、精準營銷、產品和服務創新、渠道優化等業務提供支撐。
六、總結
用戶畫像的目的是為了精準地定位你的目標群體以及他們的特征,用戶畫像不是簡單的用戶分類,而是一個具體的用戶形象。用戶畫像可以幫助我們了解到最重要的80%用戶需求是什么,以及哪些是用戶其實沒那么在意的20%的需求。用戶畫像可以為各方面的工作展開提供方向,大到營銷戰略的制定,小到如何回復一個用戶的留言。構建基于標簽體系的用戶畫像是為了解決實際的業務問題,需要帶著業務目標進行用戶畫像,為了畫像而畫像的炫技派或者get不到任何價值的粗放式畫像都是不可取的。
