首页
/
每日頭條
/
科技
/
數據分析知識點掌握
數據分析知識點掌握
更新时间:2025-05-24 10:16:53

數據分析知識點掌握(有關于數據分析)1

前面的兩篇文章,簡單地分享了下關于數據分析這個工作所涉及到的崗位,流程和所用到的軟件。這篇文章給大家分享下有關于數據分析的幾個基本的知識點。當然,我分享的切入點還是以我的工作中所涉及到的主要内容為基礎,這些内容也是在數據分析這個大類中普遍需要知道的基本知識。今天先給大家介紹三個數據分析中的基本知識點。

SQL語言:

SQL的全稱是Structured Query Language,是數據分析中必須,一定要掌握的語言,除非你所在的公司數據量十分小,隻用Excel就能解決所有問題(當然這種公司也不少),實話實說這種公司應該也用不到數據分析崗位。而隻要一個公司數據量足夠大,需要數據庫,那SQL語句就是必須的,一定的。

還是想先從Structured說起,中文翻譯是結構化,什麼是結構化?用大白話說就是一個表格的第一行是各個列的名字,而剩下的所有行都是數值。舉個例子說明就是如下圖所示的表格就是一個結構化數據表格。

數據分析知識點掌握(有關于數據分析)2

而下圖展示的是一個非結構化的數據表格:

數據分析知識點掌握(有關于數據分析)3

在數據分析中所要處理的數據都是如第一個圖中所展示的結構化的數據表格。在實際工作中也确實會遇到數據源是非結構化的,且非結構化的數據格式也多種多樣。這就需要在存入數據庫前把非結構化的數據轉變成結構化的,方法因實際工作情況而定。

數據分析知識點掌握(有關于數據分析)4

而SQL就是專門用在處理結構化表格的編程語言,盡管SQL的基本語法都大緻相同,但不同的公司或平台對于SQL又有不同的擴展,尤其對于一些函數(Function)來說,不同的平台所用到的Function還是不同的。在微軟的SQL Server中的SQL叫Transact-SQL或T-SQL,在Oracle Server中用到的SQL是PL-SQL,SAS中的SQL是SAS SQL等等。

數據類型(Data Type):

數據類型指的就是除去第一行每列的名字外,表格中的數值的類型,在我常用的軟件SAS中,就是把所有的數據歸為兩類,一類是數字型(numeric),一類是字符型(character)。拿上面的結構性表格為例,就是在姓名一列中,數值是“張三”,“李四”等等這些都是字符型,說白了就是這些數值是“文字”,如果數據中包括特殊符号如“ ”,“$”等都屬于字符型;而工資一列中的5000,5500等屬于數值型。

有兩點需要注意:第一個是一列隻能有一種數據類型;第二個是有的時候一列雖然顯示數字5000,5500等,但有可能是字符型數值,需要查看這一列的數據屬性。拿excel來舉例,很簡單的就是右擊,在格式(format cells)中查看數據類型。

數據分析知識點掌握(有關于數據分析)5

Excel中的數據類型查看(英文版)

SAS對于數據類型的定義是非常簡單的,通常在别的平台中還有其他的數據類型,比如最常見的就是日期(在SAS中日期歸為數字型)。數據類型在數據分析中是十分重要的,因為涉及到了後面的數據的計算和公式的使用。

數據的提取,轉移和加載(ETL):

ETL,英文全稱Extracting, Transferring and Loading,通過字面意思也能大概了解,這個過程是數據的轉移,說的直白一點就是數據的“複制粘貼”。

雖然可以用“複制粘貼”來幫助理解,但ETL在數據分析中是一個無處不在的,甚至有時是十分巨大的工程,可以說存在在數據分析的方方面面,甚至在北美有很多的大公司中數據相關的崗位的主要工作内容就是ETL。

數據分析知識點掌握(有關于數據分析)6

比如在數據庫的建立中,就有從原始數據(Raw File)中讀取數據并且存入數據庫,這個過程就是ETL。拿加拿大的銀行系統來舉例,客戶的信用評分數據就是從第三方的信用評級機構中來(加拿大的是Equifax和TransUnion),而第三方的評級機構通常都是通過CSV file給到銀行的,銀行這邊的數據庫管理者(Database Administrator)根據第三方給的格式錄入數據到數據庫。

再比如在數據使用階段,我們一般都是用不同的軟件去提取數據庫中的數據。在這個階段,一個是需要建立好和數據庫之間的連接;一個是就像上面所說,要注意數據類型在各個軟件或平台間的定義是否相同,當然現在很多的軟件都有自動轉換數據類型的功能。

數據分析知識點掌握(有關于數據分析)7

另一個可能的場景就是數據庫的轉換。比如我們最近更換數據庫,把從Oracle Server中的數據轉移到SQL Server中來等等。而我知道的專門做ETL的一個工具就是SQL Server Integration Service(SSIS)。當然,市面上專門用來做ETL的工具還有很多,且每個數據分析相關的軟件中都有ETL接口。

上面所提到的三個概念隻是數據分析中的很小一部分,但也确實是數據分析中最基本的幾個概念,且每個概念中也包含了相當多的内容,比如SQL語句,以後也會分享SQL的語法格式。當然未來也會分享更多的數據分析相關的概念,以及相關的專有名詞,希望上面提到的這些能幫到大家。

圖自網絡,侵删。

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
格蘭仕空調怎麼樣
格蘭仕空調怎麼樣
1、現今格蘭仕空調在廣東的順德和中山擁有兩個國際性的電器研究和制造中心。2、格蘭仕最早是以發展微波爐,在發展的第三個十年裡,才打造了空調。到現在為止,格蘭仕的空調産品已經成為全球家電行業的風向标,已經擁有了完善的核心技術和自我配套能力。3、格蘭仕自主研發的空調産品已經遍布全球的170多個國家,在行業...
2025-05-24
冬天蚯蚓釣魚方法
冬天蚯蚓釣魚方法
1、蚯蚓保鮮。紅蚯蚓是萬能餌,外出釣魚少不了要帶些紅蚯蚓作葷餌備用。但是要保持蚯蚓的鮮活,用濕衛生紙保養蚯蚓效果很好。2、蚯蚓窩料制作。制作蚯蚓窩料我們可以抓一些蚯蚓出來,剪碎放在泥地上,用這個來喂窩子。3、蚯蚓使用技巧。一般來說,面積較大的水域大魚多,适合用較粗的蚯蚓;面積較小适合較細的蚯蚓。水質...
2025-05-24
蘋果11怎麼樣
蘋果11怎麼樣
1、攝像頭方面。iPhone11采用一顆1200萬超廣角攝像頭+1200萬像素廣角攝像頭,超廣角鏡頭支持兩倍光學變焦,可視角度達到120度。支持4K@60幀視頻拍攝,支持慢動作、HDR視頻拍攝,另外還支持短視頻拍攝。前置攝像頭方面,蘋果采用1200萬像素的TrueDepth攝像頭,支持4K@60和慢...
2025-05-24
mysql使用教程
mysql使用教程
1、打開浏覽器搜索“sqlyog”并下載這個客戶端軟件。2、然後安裝之後打開客戶端軟件。3、然後點擊...
2025-05-24
現在學什麼行業和技術前景好 哪些技術學完吃香
現在學什麼行業和技術前景好 哪些技術學完吃香
現在學前景好吃香的技術有:軟件編寫技術、遊戲開發技術、室内裝潢技術、IT計算機技術、人工智能技術、汽修技術、視頻剪輯技術等。選擇時我們不要僅考慮當前的熱門。因為當你将這個技術學精之後,現在的熱門有可能已經不是熱門。所以當我們選擇具體的技術時有,除了看是否是熱門以外,我們要看的是這幾年它是否一直排在冷...
2025-05-24
Copyright 2023-2025 - www.tftnews.com All Rights Reserved