分享
定制
項(xiàng)目經(jīng)驗(yàn)(案例一)
項(xiàng)目時(shí)間:2016-03 - 2016-10
項(xiàng)目名稱:旅游日志數(shù)據(jù)分析平臺(tái) | 項(xiàng)目工具:Nginx+Flume+HDFS+MR+Hive+Mysql
項(xiàng)目描述:
項(xiàng)目介紹
該項(xiàng)目是通過手機(jī)APP和PC端來產(chǎn)生用戶信息,F(xiàn)lume采集,MR對(duì)數(shù)據(jù)進(jìn)一步清洗,Hive存儲(chǔ)數(shù)據(jù),MR,HQL做離線指標(biāo)的分析,結(jié)果數(shù)據(jù)存入Mysql。通過數(shù)據(jù)展示,了解到產(chǎn)品的優(yōu)劣,宏觀上了解到用戶的喜好,從而對(duì)產(chǎn)品功能,頁面進(jìn)行更好的優(yōu)化,為用戶做出推薦,獲取更大的效益。
我的職責(zé)
1.參與項(xiàng)目指標(biāo)文檔編寫。
2.使用Flume采集日志服務(wù)器數(shù)據(jù)到HDFS。
3.離線指標(biāo):首頁跳失率,來源分析,熱門景區(qū)TopN,景區(qū)熱門酒店TopN。
4.將分析好的數(shù)據(jù)存儲(chǔ)到Mysql關(guān)系型數(shù)據(jù)庫。
5.指標(biāo)維護(hù)及相關(guān)性能的優(yōu)化。
項(xiàng)目經(jīng)驗(yàn)(案例二)
項(xiàng)目時(shí)間:2017-06 - 2017-09
項(xiàng)目名稱:網(wǎng)站日志分析系統(tǒng)
項(xiàng)目描述:
項(xiàng)目介紹
我們的日志數(shù)據(jù)來源有2個(gè),一個(gè)是IIS日志,一個(gè)是trace日志。IIS日志主要用于記錄用戶和搜索引擎對(duì)網(wǎng)站的訪問行為。trace日志主要記錄用戶在網(wǎng)站上的操作行為。用戶在網(wǎng)頁上的每次點(diǎn)擊操作都會(huì)生成一條日志記錄。
我的工作是利用spark對(duì)trace日志進(jìn)行離線和實(shí)時(shí)分析。
需求一:商品搜索分析
這主要是分析用戶用戶搜索了哪些產(chǎn)品。
對(duì)日志進(jìn)行處理后取得相應(yīng)字段后,按照vid訪客ID和siteID站點(diǎn)ID對(duì)日志記錄進(jìn)行分組,訪客ID和siteID確定唯一訪客。根據(jù)訪客的操作時(shí)間間隔對(duì)用戶行為劃分session會(huì)話。用戶操作時(shí)間間隔在30分鐘以內(nèi)的操作視作一個(gè)會(huì)話。
首先,對(duì)用戶的操作按照操作時(shí)間進(jìn)行排序。對(duì)用戶的相鄰兩條操作的間隔時(shí)間進(jìn)行判斷。確定了一個(gè)會(huì)話以后,取用戶的vid加上操作的開始時(shí)間和最后時(shí)間作為會(huì)話的標(biāo)識(shí),確定一個(gè)唯一的會(huì)話。
然后對(duì)會(huì)話進(jìn)行處理,先把會(huì)話展開為單條操作。對(duì)單條記錄進(jìn)行判斷,過濾掉不是產(chǎn)品頁以及不是由搜索得來的產(chǎn)品頁記錄。由產(chǎn)品頁得到productID產(chǎn)品ID,通過數(shù)據(jù)庫的數(shù)據(jù)和產(chǎn)品的productID得到該產(chǎn)品的價(jià)格,品類和類目。
最后,將相關(guān)數(shù)據(jù)數(shù)據(jù)導(dǎo)入postgresql數(shù)據(jù)庫中。
需求二:搜索關(guān)鍵詞分析
主要分析用戶對(duì)產(chǎn)品搜索的結(jié)果是否滿意。
首先,對(duì)用戶操作分會(huì)話后,過濾出含有搜索頁面的會(huì)話。按照關(guān)鍵詞對(duì)用戶操作進(jìn)行分組。
通過對(duì)會(huì)話里的搜索關(guān)鍵詞的判斷,得出關(guān)鍵詞在會(huì)話中出現(xiàn)的位置及次數(shù)。在對(duì)會(huì)話里關(guān)鍵詞出現(xiàn)的位置后的記錄進(jìn)行判斷。取urlref上頁的操作記錄和關(guān)鍵詞的url進(jìn)行比較,如果相等,證明是搜索之后瀏覽的頁面。得出搜索后的瀏覽頁面次數(shù)和瀏覽的時(shí)間長度。
最后將相關(guān)數(shù)據(jù)導(dǎo)入postgersql數(shù)據(jù)庫中。
需求三:用戶商品點(diǎn)擊量實(shí)時(shí)分析
sparkstreaming有2種接收kafka數(shù)據(jù)的方式。這里我采用了createDirectStream的方式。
首先,獲取offset信息。先從zookeeper上讀取offset信息,如果offset信息不存在或者offset信息過時(shí),從kafka上獲取當(dāng)前最新的offset。根據(jù)offset從kafka上拉取數(shù)據(jù)。
然后,對(duì)數(shù)據(jù)進(jìn)行處理。過濾掉沒有track id訪客ID和不是商品頁記錄的數(shù)據(jù)。然后將處理后的數(shù)據(jù)轉(zhuǎn)換為(x,1)的元組,調(diào)用reducebykey得出用戶的點(diǎn)擊量。
最后,將數(shù)據(jù)導(dǎo)入postgersql數(shù)據(jù)庫中。
我的職責(zé)
1對(duì)項(xiàng)目代碼做出相應(yīng)注釋
2對(duì)相應(yīng)需求寫出代碼
3對(duì)項(xiàng)目代碼進(jìn)行優(yōu)化
項(xiàng)目經(jīng)驗(yàn)(案例三)
項(xiàng)目時(shí)間:2017-03 - 至今
項(xiàng)目名稱:基于spark的游戲運(yùn)營分析平臺(tái)
項(xiàng)目描述:
項(xiàng)目介紹
為了彌補(bǔ)mapreduce分析計(jì)算比較緩慢的缺點(diǎn),公司對(duì)原來的部分用戶分析業(yè)務(wù)模塊往spark方向上遷移。通過搭建新的spark集群對(duì)hdfs上的數(shù)據(jù)做基于內(nèi)存的分析、計(jì)算,計(jì)算效率高了一個(gè)量級(jí)。分析系統(tǒng)主要有玩家獲取、玩家活躍、玩家留存、玩家習(xí)慣、玩家轉(zhuǎn)化等幾個(gè)方面的分析指標(biāo)。通過對(duì)這些指標(biāo)的多維度分析,可以得出玩家的行為偏好和游戲的運(yùn)營情況。以此可以調(diào)整廣告投入策略,達(dá)到精準(zhǔn)營銷的目的。同時(shí),能幫助改善游戲體驗(yàn),有效提升玩家留存率。
我的職責(zé)
1.參與spark集群搭建與配置
2.根據(jù)需求編寫簡單的scala代碼,利用RDD對(duì)清洗好的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析
3.SparkSQL與hive整合,編寫hql以rdd為執(zhí)行引擎分析處理數(shù)據(jù)
4.將統(tǒng)計(jì)分析后的數(shù)據(jù)導(dǎo)入mysql
項(xiàng)目經(jīng)驗(yàn)(案例四)
項(xiàng)目時(shí)間:2011-04 - 2012-10
項(xiàng)目名稱:審計(jì)項(xiàng)目管理系統(tǒng)
項(xiàng)目描述:
項(xiàng)目介紹
該項(xiàng)目是針對(duì)一些會(huì)計(jì)事務(wù)所做審計(jì)的一套系統(tǒng),通過導(dǎo)入其他財(cái)務(wù)軟件數(shù)據(jù),進(jìn)行分析,查看,生成實(shí)質(zhì)性底稿,然后實(shí)現(xiàn)本地底稿,歸檔文件及數(shù)據(jù)的上傳,通過web管理系統(tǒng)可以很方便對(duì)項(xiàng)目的人員派遣,分工,和項(xiàng)目進(jìn)度監(jiān)控
我的職責(zé)
開發(fā)工具 Eclipse3.6,JDK1.7,weblogic,sqlserver2008,主要負(fù)責(zé)項(xiàng)目功能和業(yè)務(wù)模塊開發(fā),測(cè)試,如小組成員任務(wù)分工,代辦事項(xiàng),底稿評(píng)價(jià)要點(diǎn),風(fēng)險(xiǎn)導(dǎo)向,項(xiàng)目管理,創(chuàng)建項(xiàng)目,項(xiàng)目列示等;項(xiàng)目管理系統(tǒng)web版負(fù)責(zé)與單機(jī)版接口,項(xiàng)目鎖定,項(xiàng)目上傳,及各個(gè)模塊的維護(hù)和修改
【使用錘子簡歷小程序制作簡歷】
零經(jīng)驗(yàn)實(shí)習(xí)簡歷模板
21254人用過
學(xué)生求職簡歷模板
52754人用過
申請(qǐng)研究生簡歷模板
2324人用過
經(jīng)典工作簡歷模板
6254人用過
投行咨詢簡歷模板
12465人用過
產(chǎn)品經(jīng)理簡歷模板
7532人用過
程序員簡歷模板
7457人用過
留學(xué)英文簡歷模板
4554人用過