將 ETL 任務減少 30%,指標中台究竟是什麼?
InfoQ · 科技 ·

將 ETL 任務減少 30%,指標中台究竟是什麼?

架構已經經歷了不同的變化,從集中式向著分布式演進。

經過一二十年的 IT 建設,很多企業已經從「沒有數據」發展到了「數據太多」的階段。如今,各行各業正在由過去粗放式的增長向數據支撐的精細化運營轉型,但隨之而來的是 ETL 任務的激劇膨脹,整個數倉可能充斥著幾百萬張表。無數個 ETL 任務的重複性工作,帶來的不僅是存儲問題,不斷被消耗的數據集群資源使大家面臨著更加嚴峻的挑戰,維持這些數據應用模式,傳統方法已經捉襟見肘。


為什麼傳統方法過時了


自「數倉」在 1980 年開始被提出來到現在,數據基礎架構已經經歷了不同的變化,從集中式向著分布式演進。


自「數倉」在1980年開始被提出來到現在,數據基礎


(圖片來源:Kyligence)


集中式的基礎架構演進了幾輪,但都是把業務系統的數據從各個地方匯集過來,規整完成、標準化完成,再存起來放在一個地方。然而在過去的一到兩年,行業開始出現了一個更大的變化——尤其是去中心化,它已經成為了當下最熱且發展最快的基礎架構變化,在整個數倉的方向上,去中心化是如今雲和 SaaS 時代的未來。去中心化代表著不再按原來的數據倉庫的方式收集數據,而是能夠連接到不同的數據源,實時地把數據匯過來,去服務一定的數據服務的應用。


模式,傳統方法已經捉襟見肘。為什麼傳統方法過時了


(圖片來源:Kyligence)


在過去企業構建 IT 基礎設施的過程中,逐漸形成了各種煙囪式的數據設施,也給大家帶來了數據孤島的問題。數據上雲、湖倉一體化都可以很好地解決了數據孤島的問題,讓企業內部的指標管理更統一,數據接口更標準,分析更自助。但一線業務和數據分析人員面臨著一些其它方面的挑戰:各企業的數位化建設在這一二十年裡有了初步的成果,但是數據量巨大。在過去的幾年裡面,企業 CIO 們是非常焦慮的。很簡單,如果你使用了一個中等規模以上的比如說 BI 或者是數字倉庫的技術棧,你一定有幾百到幾千張的報表,每張報表如果有十個以上的指標,那就代表著有幾萬甚至幾十萬的業務指標,這些口徑是不是統一?這些數據是不是在被人使用?這些相應的價值其實已經非常複雜了。


題,不斷被消耗的數據集群資源使大家面臨著更加嚴峻的挑戰,維持這些數據應用


(圖片來源:Kyligence)


更可怕的是整個的過程會讓 ETL 任務和中間進行大量的膨脹。這不僅僅只是存儲的問題,它帶來更大的挑戰在於,它有無數的 ETL 的任務其實在不斷地做著重複性的工作,不斷地消耗整個數據集群的資源。另外還存在口徑不一致的問題,當用這些數據做一個管理決策的時候,需要有數據來參考,但各部門數據來源又可能存在分歧,比如這個部門說自己是從 Power BI 里看到的,另外一個部門說是從數倉裡面拿到的數據,這就不能幫助企業做出高效的決策。


而每一張報表背後每運行一次,都可能涉及到幾百甚至幾千的費用,這就需要用管理的方法把這些報表的數量控制下來。所以企業需要進行數據治理,從幾十萬張報表中去掉重複、不準確的部分,與企業業務目標口徑不對齊的部分,將剩下的做一些高度的統一,甚至在部門的生產線上拉齊認知。


這種轉變,在 Kyligence 春季論壇活動的採訪中,Kyligence CTO 李揚說:「這有點像 20 年前,大家剛切換到 ERP 電子化,從一些手動的辦公能力上升到電子化的辦公能力。那個時候就有一個 Business Process Re-engineering(BPR,企業流程再造)的說法,就是說你要上這個系統先得梳理自己的業務流程。業務流程不梳理好這個系統上也上不去,也沒法提升管理能力。到現在,去中心化的發展後,一樣也需要先將企業的指標,數位化運營的思路理清楚。如果講不清業務目標、過程指標、結果指標,那就不知道拿什麼追蹤,拿什麼來做數位化的管理。」


「這時發展指標中台就能幫助用戶解決這個問題,最終出口可能還是 BI,但可以精準地以統一的口徑快速幫管理者做出決策。從我們的實踐來看,當一個企業需要進行管理改革或者業務變化的時候,指標中台就能反映出這個變化過程和結果,進而驅動整個公司的業務發展。這也是我們說的一個趨勢點:以指標為核心進行公司的指標變革。」


指標中台能改善什麼


過去的幾年裡,很多企業都在投入建設口徑統一、自上而下的新型指標平台,來有效衡量業務經營和發展情況,真正實現數據賦能一線業務。Kyligence 在服務客戶的過程中發現,由於一些中小型企業的 IT 管理人員並非大數據專業出身,因此在維持大數據系統的時候,會逐漸發現難度越來越大。很多大的企業經過一兩年的數據治理之後大概會到 Muddy DW(混亂的數據倉庫)這麼一個階段,其數倉中有非常多的表,而且原始數據可能只有幾千張表,但各部門、各組織都非常有欲望地生產自己的數據指標,就會形成幾百倍的放大。有的客戶原始表經過寬表、聚合表,分析表等的加工處理以後甚至可以達到百萬級別的表。這不僅會造成了數字口徑不統一,拖慢了企業的決策,更是耗費了大量的 IT 資源。


能充斥著幾百萬張表。無數個ETL任務的重複性工作,帶來的不僅是存儲問


(圖片來源:Kyligence)


這種情況下,我們就需要改造它,在數據的入口保持不變的情況下,將提取指標的過程標準化,到接近服務再給到一線業務自由度再放開,所以這個過程在數據處理的路徑上是收斂的,大家可以從面積上直觀感受到背後所節省掉的 IT 的資源是非常可觀的,從整個企業對數字指標化運營的統一邏輯來說也有一個很清晰的抓手。


支撐的精細化運營轉型,但隨之而來的是ETL任務的激劇膨脹,整個數倉可


(圖片來源:Kyligence)


另一方面,Kyligence 核心的能力是來自於多維資料庫乃至 OLAP 的能力,所以其本質可以說是一個管理系統,即使客戶指標完全存在一個數據集裡面,包括度量和維度,再往上就是指標的平台本身,可實現自然的過渡。Kyligence 聯合創始人兼 CEO 韓卿表示指標中台有助於解決企業管理上的挑戰:「任何指標平台一定是一個管理系統,例如不同部門指標不統一、指標過時等等,都屬於管理問題。」


」發展到了「數據太多」的階段。如今,各行各業正在由過去粗放式的增長向數據


Kyligence 指標中台解決方案


在 Kyligence 解決方案中,提供了指標管理引擎和指標計算查詢引擎兩大核心組件,該方案可以部署在任何分布式存儲和計算環境下,比如像公有雲環境、私有雲、大數據平台等等,並支持與底層各類數據源實現對接,從而以此助力企業以指標為中心,構建整個數位化體系建設的方法論,建立數據管理共識,最終服務於企業管理目標。同時,企業在落地指標中台後,可以實現「邊使用,邊治理」,不斷挖掘數據的價值。


指標中台的實施效果


眾所周知,銀行業一直走在信息化、數位化的前沿。近年來眾多銀行都在大力投入建設新型指標平台來實現口徑統一的、自上而下的業務驅動的指標體系,實現數據賦能一線業務,全面推動銀行數位化經營。


韓卿認為金融行業跟其他行業有一個不太一樣的地方,在於金融行業整個 IT 建設相對比較成熟,如果完全按照過去整套的數倉理論進行構建的話,例如從整個原始數據到 ODS 到 ETL ,到數據倉庫,到 BI 端等等,經過發展論證,這將不可避免帶來數據沼澤或者說是混亂的狀態。也就是說,口徑不一致這方面的問題變得更加突出了。以前是沒數據,現在是數據太多,需要通過指標的抓手去進行底層的梳理和相應的規整等,去做整個的數據治理來去降本增效。


例如自某股份制銀行推動集團數位化戰略以來,每個 BU 都在搞自己的數位化經營平台,導致數據需求爆增。同時,煙囪式建設導致口徑不一,還帶來了數據治理和人力成本等等的痛點。當 BI 平台報表就有 7000 多張,為了各類數據應用手工開發的匯總表高達 1 萬多張的時候,隨著數據需求的爆發,這些數據表、ETL 作業、BI 報表的開發維護工作量非常巨大,傳統數據應用模式根本就無法持續。


經過一二十年的IT建設,很多企業已經從「沒有數據


(圖片來源:Kyligence)


因此,經過分析並結合業界的經驗教訓,該銀行提出了指標治理切入,通過指標治理推動數據治理,降低用戶的用數門檻,從而賦能銀行的數位化經營。在這次指標治理的思路當中,治理的重要抓手就是建設新型指標平台。在指標管理系統當中,基於維度模型,通過統一的指標定義派生、衍生,並結合全行規範化的指標需求管理,實現指標口徑的統一。而指標的加工、計算以及查詢,利用 Kyligence 的方案,基於 SQL 模版,自動進行智能建模,並完成指標的匯總、加工和計算。通過建設指標平台,將大量的指標需求轉換為指標及指標看板的開發方式,降低業務用戶製作報表的門檻與難度。


據悉,目前該平台的日均訪問用戶量已經達到了 5000 以上,頁面查詢訪問量高達 20 萬以上,尤其是指標數量,已經高達 1.1 萬,其中大部分是用戶自己派生和衍生出來的自定義指標。新的指標應用模式,使 50% 的報表需求可以基於指標和指標看板來支撐,同時還將 ETL 任務減少了 30% 以上。通過指標平台的建設,能夠幫助該銀行推動數據治理,基於指標平台將企業數據資產實現了廣泛的共享。

聲明:文章觀點僅代表作者本人,PTTZH僅提供信息發布平台存儲空間服務。
喔!快樂的時光竟然這麼快就過⋯
繼續其他精彩內容吧!
more