首页
/
每日頭條
/
科技
/
carbondata性能
carbondata性能
更新时间:2025-06-01 08:51:47

Apache CarbonData 是由華為發起并開源的一種高性能數據存儲格式,通過新的融合數據存儲方案,以一份數據同時支持多種應用場景,解決了當前業界因分析場景需求各異而導緻的存儲冗餘等問題。同時,CarbonData 通過多級索引、字典編碼、列存等特性提升 IO 掃描和計算性能,實現百億數據級秒級響應,它的出現為大數據低延時查詢提供了一種新的思路和方向。

為幫助關注 CarbonData 的開發者深入了解該技術,我們發起了一場關于 Apache CarbonData Spark 的技術交流會,并邀請了來自美國 Databricks、華為、上汽集團的行業頂尖專家,希望通過 Spark SQL 使用場景、Spark 2.2 核心特性 CBO 介紹、CarbonData 應用實踐 2.0 新技術規劃等主題内容的分享,讓 CarbonData 的使用變得更加簡單。

活動時間及地點

活動地點:上海車享大樓 (一層會議廳)

活動費用:限額免費

活動日程

carbondata性能(一份數據支持多種應用場景)1

講師及演講主題

議題一:Spark SQL: Past, Present and Future

講師簡介:範文臣,來自美國 Databricks 公司,Apache Spark PMC member,Spark SQL 開發團隊成員。2013 年從浙江大學畢業後,一直在進行分布式系統相關的工作。2014 年開始接觸 Spark,并成為最活躍的代碼貢獻者之一。2015 年正式加入 Databricks,成為 Databricks 中國分部(籌建中)的第一名員工,主要負責開源社區方面的工作,例如:審查其他社區成員提交的 PR,主導 Spark SQL 一些主要功能的設計和研發,定期審計項目代碼質量等。

carbondata性能(一份數據支持多種應用場景)2

議題摘要:Spark SQL 作為 Spark 的基礎框架,已經有了廣泛的用戶基礎,并且經曆了一段漫長的開發曆史。本次議題将會帶領大家回顧一下 Spark SQL 的演進曆史,以及目前的現狀,和未來的一些展望,幫助大家更好的理解 Spark SQL 的一些設計決策以及使用場景。

議題二:CarbonData 應用實踐 2.0 新技術規劃介紹

講師簡介:李昆,Apache CarbonData committer,華為技術有限公司大數據軟件架構師。2004 年加入華為,長期從事電信協議、業務智能化、數據可視化、用戶行為分析等系統研究和開發工作。近年緻力于大數據技術研究,參與 Hadoop、Spark、Alluxio 等開源社區,2016 年作為 CarbonData PMC 成員參與 Apache CarbonData 項目孵化,尋求大數據與一站式分析平台的創新機會點。

carbondata性能(一份數據支持多種應用場景)3

議題摘要:Apache CarbonData 是一種新的高性能數據存儲,針對當前大數據領域分析場景需求各異而導緻的存儲冗餘問題,CarbonData 提供了一種新的融合數據存儲方案,以一份數據同時支持大數據分析的多種應用場景(如:“任意維度組合的數據查詢分析、快速掃描、詳單查詢、數據更新删除等”),并通過多級索引、字典編碼、列存等特性提升了 I/O 掃描和計算性能,實現百億數據級秒級響應。

CarbonData 開源後,受到全球大數據技術愛好者高度關注;截止到目前為止,全球已有 100 開發者參與了代碼貢獻,有 10 家企業上線生産系統。本次演講主要介紹 CarbonData 應用實踐以及 2.0 新技術規劃,幫助大家更好地應用 CarbonData 技術。

議題三:Spark 2.2 核心特性 CBO 介紹

講師簡介:王振華,現任華為公司研究工程師,Apache Spark 核心 Contributor, CBO 主要開發者,緻力于構建高性能大數據查詢分析平台。在此之前,博士畢業于浙江大學計算機科學與技術學院,研究方向涉及空間數據庫、信息檢索、數據挖掘。

carbondata性能(一份數據支持多種應用場景)4

議題摘要:在 Spark SQL 的 Catalyst 優化器中,許多基于規則的優化技術已經實現,但優化器本身仍然有很大的改進空間。例如,沒有關于數據分布的詳細列統計信息,因此難以精确地估計過濾(filter)、連接(join)等數據庫操作符的輸出大小和基數 (cardinality)。由于不準确的估計,它經常導緻優化器産生次優的查詢執行計劃。

在 Spark 2.2 中,在 Spark SQL 引擎内添加了一個基于成本的優化器框架,此框架計算每個數據庫操作符的基數和輸出大小。通過可靠的統計和精确的估算,能夠在這些領域做出好的決定:選擇散列連接(hash join)操作的正确構建端(build side),選擇正确的連接算法(如 broadcast hash join 與 shuffled hash join),調整連接的順序等等。在這次演講中,将展示 Spark SQL 的新的基于成本的優化器框架及其對 TPC-DS 查詢的性能影響

議題四:CarbonData 重要特性 Partition 上汽集團實踐 CarbonData 分享

講師簡介:曹魯, Apache CarbonData 核心 Contributor, partition 主要開發者,現任上汽集團數據業務部大數據平台開發經理。目前主要專注于大數據平台架構,數據存儲、壓縮、索引以及實時流數據處理等領域的研究及應用。曾負責某金融行業公司 ETL、BI 系統開發,某互聯網電商公司的數據倉庫容量管理、性能調優等。熱衷開源技術研究,Apache CarbonData 社區貢獻者。

carbondata性能(一份數據支持多種應用場景)5

議題摘要:CarbonData 的 partition 特性将在 Apache CarbonData 1.2.0 版本裡正式發布,此特性将顯著提升大數據查詢性能。上汽集團大數據将 CarbonData 作為平台基礎組件,以應對迅猛增長的數據量,本議題将分享上汽集團在 CarbonData 項目的實踐和測試數據。

免費報名地址

掃描下方圖片二維碼 或者點擊閱讀原文,填寫報名信息并提交,我們的工作人員審核後将向您發送确認參會短信。無論你是 Apache CarbonData 忠實粉絲和擁趸者,或着在 CarbonData 的使用上有任何的疑問和想法,我們的技術專家都在現場等你!

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
數據庫基本概念講解
數據庫基本概念講解
數據庫基本概念講解?模式:數據庫中全體數據的邏輯結構和特征的描述,下面我們就來說一說關于數據庫基本概念講解?我們一起去了解并探讨一下這個問題吧!數據庫基本概念講解模式:數據庫中全體數據的邏輯結構和特征的描述。實例:模式的一個具體值。模式是相...
2025-06-01
yeezy450值得入手嗎
yeezy450值得入手嗎
yeezy450值得入手嗎?,現在小編就來說說關于yeezy450值得入手嗎?下面内容希望能幫助到你,我們來一起看看吧!yeezy450值得入手嗎Huracán,2017款Performante,指導價350.7萬,排量5.2L,最大馬力6...
2025-06-01
如何做好數據分析的主要方法
如何做好數據分析的主要方法
如何做好數據分析的主要方法?數據分析過程主要包括6個既相互獨立有互有聯系的階段它們是:明确分析目的和思路、數據收集、數據處理、數據分析、數據展現、報告撰寫等6步,下面我們就來說一說關于如何做好數據分析的主要方法?我們一起去了解并探讨一下這個...
2025-06-01
手機貼膜有洞怎麼辦
手機貼膜有洞怎麼辦
手機貼膜有洞怎麼辦?直播日照3月18日訊前段時間,市民陳先生去位于海曲路大潤發内一家店鋪給手機貼膜,本來貼膜是為了保護手機的,可貼膜之後,陳先生的手機卻出現了故障,我來為大家科普一下關于手機貼膜有洞怎麼辦?以下内容希望對你有幫助!手機貼膜有...
2025-06-01
可以随時随地連接wifi
可以随時随地連接wifi
大家正常連接WiFi都是家裡或者公司裡從路由器發出來的WiFi信号,但這是固定的你一離開這範圍就沒有WiFi信号了,還有一種移動WiFi比如手機熱點,随身WiFi等都支持可移動。開啟個人熱點,手機會自動識别當前連接的網絡(如移動網絡或WLA...
2025-06-01
Copyright 2023-2025 - www.tftnews.com All Rights Reserved