分享
定制
求職意向
spark研發(fā)工程師 ?全職 ?北京 ?15K-20K 1周內到崗
教育背景
2008.9-2012.7 中山大學 通信工程
職業(yè)技能
熟練掌握Scala語言,熟悉函數式編程,熟悉Java面向對象編程;
理解Spark工作機制,熟練掌握Spark任務的執(zhí)行流程,熟練使用Spark Core算子;
掌握Spark Streaming的流式處理技術,對流式數據在線處理分析以及對出現的問題進行排查,性能調優(yōu);
掌握利用Spark SQL進行數據處理、查詢、統(tǒng)計,擁有一定SparkSQL調優(yōu)經驗;
理解Hadoop的分布式文件系統(tǒng)HDFS,Yarn資源調度機制,掌握MapReduce原理及Job提交流程,實現編碼;
熟悉Hive的工作原理,了解數據倉庫建立,完成對數據主題抽取和多維分析,具有一定Hive調優(yōu)經驗;
熟練使用Redis內存數據庫,分布式列式存儲數據庫HBase及MySQL數據庫;
熟練使用Sqoop工具,實現非關系型數據庫與關系型數據庫表數據互導;
掌握Flume數據采集工具的原理,實現流式數據的過濾和分析,自定義Source實現日志采集過程中的偏移量維護;
熟悉分布式消息系統(tǒng)Kafka集群搭建,熟練使用Kafka直連方式實現消費數據偏移量的手動維護和校驗;
熟悉分布式協調系統(tǒng)Zookeeper集群搭建,了解Zookeeper的主從選舉機制(paxos)
熟悉Linux基本操作,以及Shell腳本編寫;
熟悉HTML、XML、JavaScript、jQuery、Bootstrap、E-charts等前端技術;
熟悉MyBatis 、Spring、SpringMVC等后端開源框架;
熟練使用Git、Maven等項目版本管理及項目構建工具;
熟練閱讀英文技術文檔;
實習經歷
2015.9-2016.2
Arecy LLC
數據分析實習
參與項目需求分析,協助制定方案; 與客戶商討,幫助客戶理解項目,給出建議; 維護核心用戶群; 做一些簡單的數據統(tǒng)計分析工作。
工作經歷
2016.3-2016.7
StupidVideos
大數據開發(fā)工程師
2016.9-2017.5
SWARM Digital Agency
數據開發(fā)
2017.6-2017.12
河南省聚思信息科技有限公司
spark開發(fā)工程師
項目經驗
2016.4-2016.7
優(yōu)質內容分析系統(tǒng)
研發(fā)人員
項目描述:提取公司產品視頻平臺上視頻的單日播放日志數據,根據業(yè)務需求,制定日志數據的采集策略,完成日志中無效數據預處理,實現分析數據和HDFS分布式文件系統(tǒng)的無縫對接。將處理后的日志數據導入Hive數據倉庫,利用HQL進行離線數據的統(tǒng)計和分析,完成優(yōu)質內容判定,實現傳統(tǒng)優(yōu)質內容隨機推薦和熱門推薦。
軟件架構: Flume+HDFS+MapReduce+Yarn+Hive+Sqoop+MySQL
項目職責: 參與產品需求分析,技術方案選型
數據處理:
Flume日志數據采集, Json數據解析;
MapReduce數據清洗、有效數據過濾、HDFS分布式文件系統(tǒng)存儲
Hive指標統(tǒng)計及報表生成
Sqoop報表導出與Mysql數據導入
Shell腳本編程及自動化部署
數據分析:
離線報表:
視頻單日播放總量、視頻單日播放排名統(tǒng)計
視頻單日評論數,視頻歷史總評論數統(tǒng)計
視頻單日得分,視頻歷史總得分統(tǒng)計
2016.10-2017.5
游戲日志分析平臺
研發(fā)人員
項目描述:為了更好地實現游戲推廣策略,優(yōu)化游戲玩家體驗,為游戲產品的運營和研發(fā)等提供數據參考, 游戲服務器會對觸發(fā)重要事件的用戶行為進行埋點并記錄日志。通過對產生的大量日志數據進行離線分析和 在線處理從而實現用戶行為的多維度指標統(tǒng)計。該項目基于游戲日志,主要統(tǒng)計指標有新增玩家,活躍玩 家,玩家留存率,玩家流失率,游戲平均時長,游戲頻次,充值數據。
軟件架構: Flume+Kafka+HDFS+ Spark Core +Spark SQL+ Yarn + Spark Streaming+Redis+MySQL
項目職責:
數據采集: 自定義Flume組件遞歸從以日期格式命名的日志目錄中采集游戲日志文件至Kafka集群;
數據處理: 拉取Kafka中預消費數據,完成數據清洗,過濾有效數據;
數據分析:
1、離線分析:
DAU/WAU/MAU等離線指標統(tǒng)計,生成玩家總體粘度分析報表;
渠道分析、媒體分析、自然流量分析等,優(yōu)化游戲廣告投放策略;
新增用戶、活躍用戶、玩家留存率、累計用戶等離線指標統(tǒng)計,改進產品運營策略;
2、在線報表:
收入金額、充值人次、各地區(qū)收入、各渠道收、分性別收入、各年齡段收入等實時監(jiān)控運營情況;
系統(tǒng)特色:
? 自定義Flume Source實現項目中日志文件遞歸監(jiān)控和采集;
? Spark Streaming直連Kafka手動維護并校驗偏移量避免數據重復消費;
2017.6-2017.12
精準廣告推送系統(tǒng)
研發(fā)人員
項目描述:結合現有的視頻搜索引擎、視頻觀看界面和個性化應用設置以及用戶歷史數據信息,追蹤、研究 用戶偏好,通過技術手段獲取、挖掘用戶上網行為、瀏覽習慣。結合DSP廣告投放引擎日志數據,構建 DMP(Data-Management Platform),將分散的多方數據進行整合納入統(tǒng)一的技術平臺,對用戶數據進行 標準化和細分,最終實現標簽化管理,為實現廣告精準投放提供數據支持。在自有視頻平臺進行廣告投放的 基礎上,參與其他交易平臺廣告實時競價與投放,充分實現數據的商業(yè)價值。
軟件架構:Flume+Kafka+Zookeeper+Spark SQL/Core+Spark Streaming+Spark GraphX +HDFS+HBase+Redis
項目職責:
數據采集: 自定義Flume組件采集Redis溢寫到磁盤上的日志文件至Kafka/HDFS集群;
數據處理: 日志數據切分、封裝,完成數據清洗,過濾有效數據
數據分析:
1、離線分析:
地域分析、終端設備分析、渠道分析、媒體分析等多維度統(tǒng)計廣告投放情況;
用戶畫像及用戶數據標簽化, APP標簽,商圈標簽,關鍵字標簽等,構建、完善公司知識庫;
Spark GraphX圖計算完成統(tǒng)一用戶識別及上下文標簽合并,實現用戶標簽歸一化;
HBase存儲用戶當日及歷史標簽數據,實現用戶特征權重值衰減;
用戶歷史標簽數據導出HBase及ElasticSearch數據導入,為廣告投放引擎提供檢索數據;
2、在線報表:
廣告展示量、點擊量、點擊率、參與競價數、競價成功數、廣告消費等報表生成;
Redis存儲及前端可視化展示;
系統(tǒng)特色:
? 自定義Flume組件TailFileSource實現日志文件Offset記錄及斷點續(xù)傳;
? Spark Streaming直連Kafka手動維護偏移量并校驗偏移量避免數據重復消費;
? 數據清洗完畢采用KryoSerializer壓縮體量更小傳輸更快速;
? 離線數據轉Parquet列式存儲降低IO負載,提高掃描性能;
? GeoHash結合百度逆地理位置編碼,明確用戶活躍商圈范圍;
? Spark GraphX圖計算提高用戶統(tǒng)一識別及上下文標簽合并精確度;
自我評價
認真細致,可以靜的下心專心做事。責任心較強,對于布置下來的任務認真對待。
比較善于溝通,時刻注重 學習,具有較強的學習能力與團隊精神。
工作踏實,能很快的適應新的工作環(huán)境,工作勤奮,能吃苦耐勞,抗壓能力強 。 熱愛學習與分享,喜歡研究新事物,愛好讀書游戲游泳。
【使用錘子簡歷小程序制作簡歷】
零經驗實習簡歷模板
21254人用過
學生求職簡歷模板
52754人用過
申請研究生簡歷模板
2324人用過
經典工作簡歷模板
6254人用過
投行咨詢簡歷模板
12465人用過
產品經理簡歷模板
7532人用過
程序員簡歷模板
7457人用過
留學英文簡歷模板
4554人用過