分享
定制
項(xiàng)目背景
隨著公司大數(shù)據(jù)相關(guān)業(yè)務(wù)的發(fā)展,公司組建了專業(yè)的大數(shù)據(jù)分析部門,負(fù)責(zé)基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘、數(shù)據(jù)分析和數(shù)據(jù)建模工作,結(jié)合電力行業(yè)業(yè)務(wù)需求,實(shí)現(xiàn)數(shù)據(jù)分析成果與業(yè)務(wù)場(chǎng)景的緊密結(jié)合,切實(shí)解決了大量客戶現(xiàn)場(chǎng)的業(yè)務(wù)問題,并基于大數(shù)據(jù)預(yù)測(cè)分析模型,提出許多合理化建議改進(jìn)方案,實(shí)現(xiàn)設(shè)備故障和竊電問題的預(yù)測(cè)判斷,有效提升了客戶現(xiàn)場(chǎng)作業(yè)效率,提升電力計(jì)量業(yè)務(wù)的精益化管理水平。
但是在大數(shù)據(jù)項(xiàng)目的方案制定、分析建模過程中,部分?jǐn)?shù)據(jù)的導(dǎo)入導(dǎo)出、清洗處理工作需要手工完成,工作內(nèi)容重復(fù),占用大量人員時(shí)間,并且不同的項(xiàng)目運(yùn)維需要專人負(fù)責(zé),無形中增加了人員的投入。
現(xiàn)有大數(shù)據(jù)團(tuán)隊(duì)人力資源有限,可支撐項(xiàng)目范圍無法快速擴(kuò)張,不能夠有效發(fā)揮團(tuán)隊(duì)優(yōu)勢(shì)。
另外在技術(shù)積累和擴(kuò)展方面,也需要有一套基礎(chǔ)支撐平臺(tái),能夠支撐大數(shù)據(jù)分析技術(shù)的不斷深入探索,在提供大數(shù)據(jù)分析技術(shù)支撐的同時(shí),形成可延續(xù)的技術(shù)積累,逐漸形成大數(shù)據(jù)技術(shù)的沉淀,為公司未來在大數(shù)據(jù)方面的發(fā)展打下堅(jiān)實(shí)基礎(chǔ)。
02
項(xiàng)目目標(biāo)
為了加強(qiáng)公司對(duì)大數(shù)據(jù)、人工智能等前沿技術(shù)的研究和實(shí)踐,構(gòu)建一套基于大數(shù)據(jù)項(xiàng)目的應(yīng)用集成框架,解耦數(shù)據(jù)分析流程和業(yè)務(wù)應(yīng)用流程,支撐分析算法的模塊化和深入化,積累核心技術(shù)的經(jīng)驗(yàn)和成果,提高項(xiàng)目中的公共組件占比,降低開發(fā)和運(yùn)維成本。
系統(tǒng)建設(shè)按照完善性、易用性、穩(wěn)定性原則,需要達(dá)到以下5個(gè)目標(biāo):
1.為數(shù)據(jù)分析人員提供分析建模工具,支撐大數(shù)據(jù)項(xiàng)目的全流程分析管理;
2.為業(yè)務(wù)人員提供數(shù)據(jù)治理工具,更好地支撐樣本模型訓(xùn)練;
3.簡(jiǎn)化分析過程,調(diào)整團(tuán)隊(duì)成員的分工合作方式;
4.固化既有的分析成果;
5.復(fù)用已有的分析技術(shù)、形成技術(shù)積累和沉淀。
03
總體架構(gòu)
基于大數(shù)據(jù)分析建模工作管理過程,構(gòu)建標(biāo)簽化數(shù)據(jù)分析系統(tǒng),總體結(jié)構(gòu)如下:
源數(shù)據(jù)層:系統(tǒng)可支持多種類型的關(guān)系型數(shù)據(jù)庫(kù)及非關(guān)系型數(shù)據(jù)庫(kù)作為數(shù)據(jù)分析來源,包括MySql、Oracle、MongoDB及其他大數(shù)據(jù)平臺(tái)的數(shù)據(jù)。
數(shù)據(jù)中心:對(duì)源數(shù)據(jù)進(jìn)行匯集整理后,基于ODS和DW構(gòu)建數(shù)據(jù)中心倉(cāng)庫(kù),進(jìn)行初步的篩選、匯總和統(tǒng)計(jì)。
數(shù)據(jù)集市:在數(shù)據(jù)中心基礎(chǔ)上,構(gòu)建數(shù)據(jù)集市,實(shí)現(xiàn)數(shù)據(jù)特征集的定義,并實(shí)現(xiàn)分析結(jié)果的持久化存儲(chǔ)。
分析層:通過大數(shù)據(jù)計(jì)算平臺(tái)生成業(yè)務(wù)數(shù)據(jù)的特征集,供標(biāo)簽計(jì)算層生成業(yè)務(wù)標(biāo)簽使用,針對(duì)不同的業(yè)務(wù)場(chǎng)景,采用不同的分析算法進(jìn)行數(shù)據(jù)挖掘,確定分析指標(biāo),構(gòu)建分析模型,并實(shí)現(xiàn)標(biāo)簽化管理和場(chǎng)景分析。
在標(biāo)簽化分析管理基礎(chǔ)上,對(duì)外提供服務(wù)能力支撐,包括多維數(shù)據(jù)展示、文件報(bào)表生成、對(duì)接第三方系統(tǒng)等,為各系統(tǒng)業(yè)務(wù)應(yīng)用提供數(shù)據(jù)支撐。
數(shù)據(jù)流轉(zhuǎn)及核心技術(shù)應(yīng)用如下圖:
04
系統(tǒng)功能
標(biāo)簽化數(shù)據(jù)分析系統(tǒng)主要包括標(biāo)簽計(jì)算管理和數(shù)據(jù)服務(wù)管理兩方面
1.標(biāo)簽計(jì)算管理
分析系統(tǒng)提供給數(shù)據(jù)分析開發(fā)人員數(shù)據(jù)分析、處理、特征工程、建模、部署的全流程開發(fā)框架。
區(qū)別于市面上的數(shù)據(jù)分析挖掘軟件,標(biāo)簽化分析系統(tǒng)不僅提供了主要的數(shù)據(jù)處理和建模的代碼實(shí)例,也提供了以主題為核心的數(shù)據(jù)分析案例管理功能。
方便用戶快速實(shí)現(xiàn)同類型數(shù)據(jù)分析開發(fā)的遷移工作。
標(biāo)簽計(jì)算管理服務(wù)主要通過:主題管理、標(biāo)簽管理、和模型管理模塊來實(shí)現(xiàn)。
(1)主題管理描述了數(shù)據(jù)分析案例的應(yīng)用特點(diǎn),包括涉及了哪些指標(biāo),特征集以及指標(biāo)與特征之間的關(guān)系。
通過主題管理,用戶可以對(duì)各網(wǎng)省電力計(jì)量領(lǐng)域內(nèi)形成獨(dú)特的主題性認(rèn)識(shí),如專項(xiàng)工作主題、課題研究主題、質(zhì)量提升主題與電力計(jì)量領(lǐng)域電能表、集中器、臺(tái)區(qū)等子領(lǐng)域主題。
方便數(shù)據(jù)分析開發(fā)人員快速開展開發(fā)工作。
(2)分析系統(tǒng)中的數(shù)據(jù)處理和特征工程等實(shí)例統(tǒng)一采用標(biāo)簽指代的形式進(jìn)行管理。
通過標(biāo)簽管理功能,用戶可以對(duì)特征集、標(biāo)準(zhǔn)表之中的特征進(jìn)行再處理,針對(duì)特性化特征進(jìn)行處理,分為枚舉、分類分段、直接讀取標(biāo)簽規(guī)則。
(3)模型管理,實(shí)現(xiàn)了對(duì)分析師與大數(shù)據(jù)工程師算法、模型、計(jì)算邏輯,以及版本迭代管理,還實(shí)現(xiàn)了自定義算法、簡(jiǎn)易算法功能,解放分析師代碼管理混亂,版本迭代管理復(fù)雜的難題。
更是幫助分析師突破py模型與PySpark模型的運(yùn)行難點(diǎn)。
2. 數(shù)據(jù)服務(wù)管理
標(biāo)簽化數(shù)據(jù)分析系統(tǒng)為數(shù)據(jù)分析應(yīng)用提供大數(shù)據(jù)計(jì)算支撐。
解決了用戶人員部署難、維護(hù)成本高等實(shí)施難題。
數(shù)據(jù)服務(wù)管理開放了數(shù)據(jù)管理、工程管理、數(shù)據(jù)預(yù)覽和數(shù)據(jù)發(fā)布模塊,滿足數(shù)據(jù)應(yīng)用開放人員的各種大數(shù)據(jù)計(jì)算配置需求。
(1)數(shù)據(jù)管理實(shí)現(xiàn)了對(duì)特征集的維護(hù)、創(chuàng)建,用于固化特征與新增特征,實(shí)現(xiàn)了對(duì)各網(wǎng)省電力計(jì)量領(lǐng)域內(nèi)形成獨(dú)特的特征集分析。
如特征大類:電能表,特征小類:基礎(chǔ)屬性、管理表現(xiàn)、外部環(huán)境等分類分析。
(2)工程管理主要實(shí)現(xiàn)任務(wù)的創(chuàng)建、執(zhí)行、終止操作、啟動(dòng)功能。
采用有向無環(huán)圖 DAG(Directed Acyclic Graph)對(duì)計(jì)算任務(wù)進(jìn)行編排,提供任務(wù)啟??刂啤v史任務(wù)查詢、任務(wù)狀態(tài)查看以及任務(wù)流定時(shí)執(zhí)行功能,實(shí)現(xiàn)對(duì)計(jì)算任務(wù)生命周期的管理
(3)數(shù)據(jù)預(yù)覽模塊給開發(fā)人員提供查詢數(shù)據(jù)表和特征集的窗口。
一方面幫助用戶快速建立對(duì)于數(shù)據(jù)的直觀認(rèn)識(shí)。
另一方面提供潛在的數(shù)據(jù)分析報(bào)表生成入口,輔助業(yè)務(wù)分析人員開展決策工作。
(4)數(shù)據(jù)發(fā)布模塊通過數(shù)據(jù)歸集、數(shù)據(jù)分發(fā)、數(shù)據(jù)中心、配置映射關(guān)系、發(fā)布數(shù)據(jù)的流程對(duì)系統(tǒng)計(jì)算出的數(shù)據(jù)進(jìn)行發(fā)布和推送。
05
實(shí)施案例
標(biāo)簽化分析系統(tǒng)是一個(gè)大數(shù)據(jù)項(xiàng)目的應(yīng)用集成框架,解耦了數(shù)據(jù)分析流程和業(yè)務(wù)應(yīng)用流程,支撐分析算法的模塊化和深入化,積累核心技術(shù)的經(jīng)驗(yàn)和成果,提高項(xiàng)目中的公共組件占比,降低開發(fā)和運(yùn)維成本,目前已經(jīng)在多個(gè)大數(shù)據(jù)分析建模項(xiàng)目中得到推廣應(yīng)用:
1.在國(guó)網(wǎng)公司的智能反竊電項(xiàng)目中,基于標(biāo)簽化數(shù)據(jù)分析系統(tǒng),構(gòu)建反竊電分析模型,實(shí)現(xiàn)對(duì)竊電用戶的精準(zhǔn)排查,并建立了數(shù)據(jù)、模型共享的反竊電知識(shí)庫(kù),形成技術(shù)知識(shí)積累,為提升反竊電工作效率打下堅(jiān)實(shí)基礎(chǔ)。
2.在計(jì)量庫(kù)存資產(chǎn)精益管理項(xiàng)目中,為計(jì)量資產(chǎn)的庫(kù)存分析、數(shù)據(jù)治理工作提供高效的數(shù)據(jù)管理工具,為一線庫(kù)存管理人員的清倉(cāng)利庫(kù)、庫(kù)存盤點(diǎn)工作提供有效支撐。
3.在計(jì)量資產(chǎn)管控策略研究項(xiàng)目中,基于標(biāo)簽化數(shù)據(jù)分析系統(tǒng)的數(shù)據(jù)服務(wù)管理能力,構(gòu)建資產(chǎn)管控分析模型,根據(jù)業(yè)務(wù)需求,制定特征集,制定數(shù)據(jù)管理和樣本訓(xùn)練任務(wù),進(jìn)行模型訓(xùn)練,并實(shí)現(xiàn)分析結(jié)果數(shù)據(jù)的發(fā)布和推送。
【使用錘子簡(jiǎn)歷小程序制作簡(jiǎn)歷】
零經(jīng)驗(yàn)實(shí)習(xí)簡(jiǎn)歷模板
21254人用過
學(xué)生求職簡(jiǎn)歷模板
52754人用過
申請(qǐng)研究生簡(jiǎn)歷模板
2324人用過
經(jīng)典工作簡(jiǎn)歷模板
6254人用過
投行咨詢簡(jiǎn)歷模板
12465人用過
產(chǎn)品經(jīng)理簡(jiǎn)歷模板
7532人用過
程序員簡(jiǎn)歷模板
7457人用過
留學(xué)英文簡(jiǎn)歷模板
4554人用過