關注點贊轉發,是我分享最大的動力
先看一下數據中心的整體架構以及數據流向:
DB 是現有的數據來源,可以為mysql、SQLserver、文件日志等,為數據倉庫提供數據來源的一般存在于現有的業務系統之中。ETL的是 Extract-Transform-Load 的縮寫,用來描述将數據從來源遷移到目标的幾個過程:
- Extract,數據抽取:把數據從數據源讀出來。
- Transform,數據轉換:把原始數據轉換成期望的格式和維度。如果用在數據倉庫的場景下,Transform也包含數據清洗,清洗掉噪音數據。
- Load 數據加載:把處理後的數據加載到目标處,比如數據倉庫。
- ODS(Operational Data Store) 操作性數據:是作為數據庫到數據倉庫的一種過渡,ODS的數據結構一般與數據來源保持一緻,便于減少ETL的工作複雜性,ODS的數據周期一般比較短;也就是原始數據的保存區域,存儲來自各業務系統(消息隊列)的原始數據。如:電商網站的訪問日志(埋點的時候是以JSON存儲),物聯網終端設備實時發送的數據等原始數據直接存儲在數據倉庫的ODS層;ODS的數據最終流入DW。
- DW (Data Warehouse)數據倉庫,是數據的歸宿,這裡保持這所有的從ODS到來的數據,并長期保持,而且這些數據不會被修改。
- DM(Data Mart) 數據集市:為了特定的應用目的或應用範圍,從數據倉庫中獨立出來的一部分數據,也可稱為主題數據,面向應用。