根據AZure的定義,數據治理是流程、策略、角色、指標和標準的集合,可確保有效和高效地使用信息。這還有助于建立數據管理過(guò)程,在整個(gè)數據生命周期內保持數據安全、私密、準確且可用。
對于使用數據推動(dòng)業(yè)務(wù)增長(cháng)、改進(jìn)決策并確保在競爭激烈的市場(chǎng)中獲得成功的任何組織而言,可靠的數據治理策略至關(guān)重要。在收集大量?jì)炔亢屯獠繑祿r(shí),需要制定一種策略來(lái)有效管理風(fēng)險、降低成本和執行業(yè)務(wù)目標。
根據GoogleCloud的定義,數據治理是指為確保數據安全、私有、準確、可用和易用所執行的所有操作。它包括人們必須采取的行動(dòng)、必須遵循的流程以及在整個(gè)數據生命周期中為其提供支持的技術(shù)。數據治理意味著(zhù)設置適用于收集、存儲、處理和處置數據的內部標準,即數據策略。它規定了誰(shuí)可以訪(fǎng)問(wèn)哪些數據以及哪些數據應受治理。數據治理還涉及遵循行業(yè)協(xié)會(huì )、政府機構和其他利益相關(guān)者設定的外部標準。
元數據,又稱(chēng)為MetaData,是很多數據平臺、軟件系統的核心。如果你熟悉Mysql,那么Mysql中的庫、表、字段等信息,都可以認為是元數據。在大數據領(lǐng)域,元數據往往代表各個(gè)平臺中類(lèi)似Mysql中庫、表、字段的信息,往往是通過(guò)SQL、Thrift、ProtoBuffer等格式進(jìn)行定義,并通過(guò)相應的平臺進(jìn)行管理,這個(gè)平臺就是元數據管理平臺,有的公司會(huì )給這個(gè)平臺起一個(gè)名字,叫數據工廠(chǎng)。許多數據庫、數據平臺中都有相應的元數據管理模塊,比如Hive、Es、Doris等等。
在小米大數據團隊分享的資料中(原文在https://blog.csdn.net/rlnlo2pnefx9c/article/details/121528248),我們可以看到元數據的另一種分類(lèi):從抽象來(lái)看,包括分為實(shí)體、實(shí)體的屬性以及實(shí)體與實(shí)體之間的關(guān)系三個(gè)方面來(lái)進(jìn)行分類(lèi)。實(shí)體主要指表元數據和作業(yè)元數據,來(lái)自于工程師在ETL的實(shí)際工作中所涉及到的系統。如:Hive、Doras、Kudu、MQ、ES、Iceberg,即傳統的數倉及上下游。
比如:實(shí)體包含了技術(shù)元數據和生產(chǎn)元數據。其中技術(shù)元數據用于支撐數據資產(chǎn)管理的資產(chǎn)地圖;生產(chǎn)元數據,主要是作業(yè)的一些調度信息和運行信息,用于支撐數據資產(chǎn)管理的數據質(zhì)量和成本治理的服務(wù)。
實(shí)體的屬性,包含業(yè)務(wù)元數據和衍生元數據。
業(yè)務(wù)元數據包括數倉分層、數據分類(lèi)、指標關(guān)聯(lián)、應用信息、隱私分級等內容。內容來(lái)源于建模規范、業(yè)務(wù)、指標系統、BI看板、數據報表,以及來(lái)自于業(yè)務(wù)的隱私分級定義等。業(yè)務(wù)元數據用于支撐資產(chǎn)管理的資產(chǎn)價(jià)值、安全治理以及規范治理。
衍生元數據包含元數據的存儲計量和訪(fǎng)問(wèn)計量。存儲計量是服務(wù)于存儲層面的成本治理;訪(fǎng)問(wèn)計量用于描述數據的使用情況,從技術(shù)角度去衡量資產(chǎn)的價(jià)值。衍生元數據來(lái)源于ETL工作中涉及的HDFS-Image、Doris、Kudu、MQ、ES以及HDFS-Log、SQL-Log。
描述實(shí)體的關(guān)系,包括血緣元數據,用于描述元數據之間的關(guān)聯(lián)關(guān)系,用于支撐數據資產(chǎn)管理中的影響分析和資產(chǎn)地圖服務(wù)。
關(guān)于元數據平臺和相應技術(shù)架構,我們后續再單獨講解
數據血緣,有時(shí)候又叫數據全景,解決的是數據之間依賴(lài)關(guān)系的收集、存儲和查詢(xún)、分析的問(wèn)題。說(shuō)一個(gè)常見(jiàn)的場(chǎng)景,某業(yè)務(wù)發(fā)現自己的表里有個(gè)字段要下線(xiàn),但是不知道有哪些業(yè)務(wù)、哪些下游數據依賴(lài)這個(gè)字段,那么通過(guò)數據血緣一般就能回答這個(gè)問(wèn)題。
依托數據血緣模塊,往往還可以發(fā)現數據元數據的搜索、上下游依賴(lài)關(guān)系的確認以及數據變更的全鏈路追蹤等功能。
數據質(zhì)量,在大數據領(lǐng)域是一個(gè)大問(wèn)題。典型的場(chǎng)景例如,命名數據生產(chǎn)的POI在北京,但是實(shí)際存儲后發(fā)現數據的POI點(diǎn)到了成都,這對數據后期的使用,尤其是一些基于LBS的廣告業(yè)務(wù)來(lái)說(shuō)是完全無(wú)法忍受的。
數據質(zhì)量治理就是要解決這個(gè)問(wèn)題。往往通過(guò)幾個(gè)方面進(jìn)行:
組建專(zhuān)業(yè)的數據質(zhì)量保障團隊
提出、發(fā)布數據規范,通過(guò)基礎SDK、數據流平臺準入等多種基礎架構平臺的管理和技術(shù)手段確保規范的落地
基于數據血緣等既有元數據平臺,打造數據質(zhì)量自動(dòng)回歸測試平臺
最后一部分是數據ROI。眾所周知,大數據海量數據的采集存儲分析計算等工作,需要大量的人力算力。舉個(gè)小例子,有些日志平臺,每天產(chǎn)生幾百上千T日志數據,供業(yè)務(wù)方檢索分析,往往需要耗費上百臺服務(wù)器來(lái)搭建ES集群才能支撐,加上數據平臺多副本存儲等技術(shù)需求,一個(gè)需求,就要花費每個(gè)月上百萬(wàn)的服務(wù)器成本。但是這些日志如果只拿來(lái)分析技術(shù)故障、定位技術(shù)問(wèn)題,顯然ROI就有點(diǎn)低了。
中大型企業(yè)中往往有大量的這類(lèi)場(chǎng)景。這個(gè)時(shí)候,結合元數據,準確評估每份數據的需求、生產(chǎn)采集存儲計算成本、產(chǎn)生的價(jià)值,甚至是在不同的數據項目之間,合并同類(lèi)項,就顯得非常必要。數據ROI解決的就是這類(lèi)問(wèn)題。
總結
最后,數據治理往往不是一帆風(fēng)順的,往往要觸動(dòng)很多技術(shù)部門(mén)和業(yè)務(wù)部門(mén)的既有利益和做法,需要有很強的資源協(xié)調能力,且無(wú)法一蹴而就。低代碼平臺打破了傳統的軟件開(kāi)發(fā)模式,一切開(kāi)發(fā)從元數據建模開(kāi)始,具有原生數據治理、原生數據血緣等諸多優(yōu)勢,如有需要基于低代碼平臺開(kāi)展數字化業(yè)務(wù),歡迎聯(lián)系我們
暫時(shí)沒(méi)有評論,有什么想聊的?
概述 HART協(xié)議與Modbus協(xié)議簡(jiǎn)介 HART協(xié)議的定義與發(fā)展 HART(Highway Addressable Remote Transducer)協(xié)議是一種用于工業(yè)自動(dòng)化領(lǐng)域的通信協(xié)議,起源于20世紀80年代。它最
...如何優(yōu)化Hart通信協(xié)議:提升工業(yè)自動(dòng)化通信效率 一、Hart通信協(xié)議概述 1. Hart通信協(xié)議的定義與特點(diǎn) Hart通信協(xié)議是一種專(zhuān)為工業(yè)自動(dòng)化領(lǐng)域設計的通信協(xié)議,它以其高效、穩
...HART協(xié)議與RS485協(xié)議:性能與應用的全面對比 一、概述 1. HART協(xié)議與RS485協(xié)議簡(jiǎn)介 HART協(xié)議,全稱(chēng)為Highway Addressable Remote Transducer,是一種用于工業(yè)自動(dòng)化領(lǐng)域的
...??
銷(xiāo)售溝通:17190186096
售前咨詢(xún):15050465281
掃碼加顧問(wèn)微信 -->
阿帥: 我們經(jīng)常會(huì )遇到表格內容顯示不完整的問(wèn)題。 回復
理理: 使用自動(dòng)換行功能,以及利用條件格式和數據分析工具等。回復