首页
/
每日頭條
/
科技
/
數據科學包括哪幾個方面
數據科學包括哪幾個方面
更新时间:2025-11-15 18:41:07

摘要 本文是關于數據科學的概述和讨論,包括數據挖掘,統計推斷,機器學習,數據工程等等。

數據科學包括哪幾個方面(數據科學究竟是什麼)1

數據科學是一門将數據變得有用的學科。它包含三個重要概念:

  1. 統計
  2. 機器學習
  3. 數據挖掘/分析

數據科學的定義

如果你回顧一下數據科學這個術語的[早期曆史](),會發現有兩個主題密切相連:

  1. 大數據意味着計算機的使用頻率增加。
  2. 統計學家很難将紙張上所寫算法用計算機實現。

由此,數據科學得以出現。早先,人們将數據科學家視作會編碼的統計學家。如今看來,這種說法并不準确,首先讓我們回到數據科學本身。

數據科學包括哪幾個方面(數據科學究竟是什麼)2

推特給出的定義circa 2014

2003年,《數據科學雜志》曾提出:“所謂的‘數據科學’,指的是那些任何與數據相關的内容”。對此,我表示贊同,現在一切都無法與數據分割。

之後,對數據科學的定義便層出不窮,例如Conway的維恩圖,以及Mason和Wiggins的經典觀點。

數據科學包括哪幾個方面(數據科學究竟是什麼)3

Drew Conway對數據科學的定義

維基百科上對數據科學的定義更接近于我給學生講授的内容:

數據科學僅是一種概念,它結合了統計學、數據分析、機器學習及其相關方法,旨在利用數據對實際現象進行“理解和分析”。

簡單來講:數據科學是一門将數據變得有用的學科

現在你也許不禁會問,“這會不會太簡單了,‘有用’怎麼就能包含所有的術語呢?”

先看下圖,該圖内容與維基百科給出的定義十分契合:

數據科學包括哪幾個方面(數據科學究竟是什麼)4

這些都是什麼,我們又如何知道處于圖中所描述的哪個階段呢?

統計學家和機器學習工程師的區别不在于前者使用R,而後者使用Python。由于衆多原因,按照SQL、R、Python進行分類是不合理的,其中最重要的原因是軟件會更新。目前,已經可以用SQL來處理機器學習問題。

新手依舊喜歡采用這種方式進行區分,甚至很多大學課程也是如此安排,但這不夠合理。并且,最好不要采用直方圖、t檢驗以及神經網絡進行分類。如果你足夠聰明,并且擁有自己的觀點,你可以使用相同的算法解決所有的數學科學問題。

我建議可按如下方式進行區分:

數據科學包括哪幾個方面(數據科學究竟是什麼)5

None-One-Many

這究竟指的是什麼呢?沒錯,就是決定!當所有你需要的事實對你可見時,你可以通過描述性分析做出盡可能多的決定。

我們的行動和決定會影響到我們周圍的世界。

接下來我們将繼續探讨如何讓數據變得有用。對我來說,有用的概念與影響世界的行動緊密相連。舉個形象的例子:如果我們相信聖誕老人的存在,那聖誕老人這個概念就不重要了,除非它可能會以某種方式影響我的行為。然後,取決于這種行為的潛在後果,它可能開始變得非常重要。

下圖是決策導向圖,您可以通過以下三步讓數據變得有用。

數據科學包括哪幾個方面(數據科學究竟是什麼)6

數據挖掘

如果你不知道你要作何決定,最好的辦法就是去尋找靈感。這就是所謂的數據挖掘、數據分析、描述性分析、探索性數據分析或知識發現。

分析的黃金準則:隻對你所見的下結論。

除非你知道如何制定你的決策,否則就從尋找靈感開始吧。做法很簡單,隻需要你将數據集想象為你在黑暗的房間中發現的一堆底片。數據挖掘就是讓設備盡可能快地公開所有的圖片,這樣你就能看到這些圖片上是否有什麼鼓舞人心的東西。和照片一樣,不要把你看到的東西想得太嚴肅。你沒有拍這些照片,所以你對屏幕之外的東西了解不多。數據挖掘的黃金法則是:隻對你能看到的做出結論,不對你看不到的做出結論,因為你需要統計數據和更多的專業知識。

除此之外,你還應盡力做到最好。數據挖掘的專業知識是通過檢查數據的速度來判斷的,不要迷戀那些看似有趣的東西。

暗房一開始很吓人,但其實也沒什麼大不了的。隻要學會操作設備就行。這是R語言的教程,這是Python語言的教程。當你開始玩得開心時,你可以稱自己為數據分析師,當你能夠以閃電般的速度曝光照片以及所有其他類型的數據集時,你就可以稱為專家分析師。

統計推斷

靈感很容易獲取,但嚴謹卻很難做到,如果你想掌握數據,則需要專業課程的學習。作為一名統計學專業的本科生和研究生,我認為統計學推論(簡稱統計學)是這三個領域中最難且最具哲學思想的。想要做好它需要花費不少的時間。

如果你打算做出高質量且風險可控的決策,由于決策不僅僅依賴你所得到的數據,此時你需要在你的分析團隊中加入統計技能。

在情況不确定的時候,或許統計學能夠改變你的想法。

機器學習

機器學習從本質上來講,是使用示例而非指令來實現操作的。我也曾寫過一些關于機器學習的文章,包括機器學習與人工智能有何不同、如何入門機器學習、企業運用機器學習的經驗教訓以及向孩子介紹監督學習等。

數據科學包括哪幾個方面(數據科學究竟是什麼)7

數據工程

數據工程指的是将數據傳遞給數據科學團隊的工作。它本身就是一個複雜的領域,通常而言,它更接近于軟件工程,而不是統計學。

數據工程與數據科學的差異是前後的區别。

獲取數據之前的大部分技術工作都可以被稱為“數據工程”,而獲取到數據後我們所做的一切都是“數據科學”。

決策智能

決策智能是關于決策的,包括基于數據的大規模決策,這使得它變成了一門工程學科。利用社會和管理學科的觀點,增強數據科學的應用。

決策隻能是社會和管理學科的組成部分。換句話說,它是這些數據科學的超集,而不涉及為通用用途創建基本方法之類的研究工作。

以上為譯文

阿裡雲雲栖社區組織翻譯。

文章原标題《What on earth is data science?》,作者:Cassie Kozyrkov,譯者:Elaine,審校:袁虎。

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
磐正台式主闆bios設置雙通道
磐正台式主闆bios設置雙通道
磐正台式主闆bios設置雙通道?BIOS設置圖解教程BIOSCOMS中英文對照表翻譯表,下面我們就來聊聊關于磐正台式主闆bios設置雙通道?接下來我們就一起去了解一下吧!磐正台式主闆bios設置雙通道BIOS設置圖解教程BIOSCOMS中英...
2025-11-15
手機版泰拉瑞亞怎麼去空島
手機版泰拉瑞亞怎麼去空島
泰拉瑞亞中空島是一個神秘的地方,它不是固定在某一處等着玩家去的,而是玩家們需要發現才能看到,然後再想辦法上去。但是并沒有那麼好找的,需要花一定的步驟和時間,不過上面的物品和東西肯定不會讓你失望的。最方便的辦法應該就是和喝重力藥水然後去找。用...
2025-11-15
怎麼看一個手機處理器的好壞
怎麼看一個手機處理器的好壞
智能手機最重要的元件就是它的處理器了。而處理器的好壞也直接決定了一款手機的性能強弱,那麼,對于很多普通用戶來說,如何才能辨别一款手機的處理器檔次呢?不同處理器的代表的性能強弱怎麼辨别呢?下面就讓小蟹來給大家科普科普。目前,主流的手機處理器主...
2025-11-15
智能摳圖拍證件照軟件
智能摳圖拍證件照軟件
體感換裝拍照軟件是一個包括立式觸摸屏一體機、體感攝像頭、換裝系統等軟硬件一體的交互系統。不論用戶想要變換哪種服裝或者風格款式,以及添加任意飾品貼紙,都可以直接通過已有的素材庫進行選擇,非常的有趣,并且實用性也很高,而且這種玩法的拍照清晰度都...
2025-11-15
3d插畫人物素材
3d插畫人物素材
部分預覽随機選取卡通角色插畫第10季(僅供會員下載)☞如何加入會員?三設計資源近期更新靈動書法字體筆觸!飄逸起來!C4D實戰提升案例(視頻教程)!平面不平APPUI界面素材包!毛玻璃風格!很不錯!電商詳情頁模闆!全面展示賣點!插畫設計實戰案...
2025-11-15
Copyright 2023-2025 - www.tftnews.com All Rights Reserved