首页
/
每日頭條
/
科技
/
如何使用pandas處理數據
如何使用pandas處理數據
更新时间:2025-07-09 19:29:33

可視化是數據科學中必不可少的部分。Python 流行的數據分析庫Pandas提供了 .plot() 方法進行數據可視化。即使新手階段也能很快就會創建基本圖,從而對數據産生有價值的見解。

整套學習自學教程中應用的數據都是《三國志》、《真·三國無雙》系列遊戲中的内容。

如何使用pandas處理數據(數據科學必備Pandas數據分析可視化常用舉例)1

數據準備

import pandas as pd df = pd.read_excel("Romance of the Three Kingdoms 13/人物詳情數據.xlsx") df.head()

如何使用pandas處理數據(數據科學必備Pandas數據分析可視化常用舉例)2

創建 Pandas 繪圖

.plot() 返回一個折線圖,其中包含 DataFrame 中每一行的數據。 x 軸值代表可視化的數據列。

import Matplotlib.pyplot as plt df.head(10).plot(x="名前", y=["生年","沒年","壽命"]) plt.show()

如何使用pandas處理數據(數據科學必備Pandas數據分析可視化常用舉例)3

.plot() 有幾個可選參數。kind參數接受 11 個不同的字符串值并确定将創建哪種繪圖:

  1. "area"用于面積圖。
  2. "bar"用于垂直條形圖。
  3. "barh"用于水平條形圖。
  4. "box"用于箱形圖。
  5. "hexbin"用于六邊形圖。
  6. "hist"用于直方圖。
  7. "kde"用于核密度估計圖。
  8. "density"是"kde"的别名。
  9. "line"用于折線圖。
  10. "pie"用于餅圖。
  11. "scatter"用于散點圖。
深入了解 Matplotlib

當調用一個 DataFrame 的 .plot()對象時,Matplotlib 會在後台創建繪圖。

import matplotlib.pyplot as plt plt.scatter(df.head(10)["生年"], df.head(10)["壽命"]) <matplotlib.collections.PathCollection at 0x2caac179438>

繪制生年和壽命的關系散點圖。

如何使用pandas處理數據(數據科學必備Pandas數據分析可視化常用舉例)4

數據的描述和檢查分布和直方圖

DataFrame 不是 pandas 中唯一具有 .plot() 方法的類,Series 對象提供了類似的功能。可以将 DataFrame 的每一列作為 Series 對象。

繪制一個武将性格的直方圖。

type(df["壽命"]) pandas.core.series.Series df["壽命"].plot(kind="hist") <matplotlib.axes._subplots.AxesSubplot at 0x2caac398240>

如何使用pandas處理數據(數據科學必備Pandas數據分析可視化常用舉例)5

直方圖顯示數據分為 5 個區間,從 0 美元到 100 歲不等,每個區間的寬度為 20 歲。直方圖的形狀與正态分布不同,正态分布呈對稱的鐘形,中間有一個峰值。

異常值檢測

異常值,指的是樣本中的一些數值明顯偏離其餘數值的樣本點,所以也稱為離群點。異常值分析就是要将這些離群點找出來,然後進行分析。

可以使用直方圖可以檢測這樣的異常值。

檢測年齡異常的人。

top_5 = df.sort_values(by="Median", ascending=False).head(10)

如何使用pandas處理數據(數據科學必備Pandas數據分析可視化常用舉例)6

看到遊戲設定中一些年齡異常的人,也可以使用箱線圖直接查看。

df["壽命"].head(10).plot(kind="box")

如何使用pandas處理數據(數據科學必備Pandas數據分析可視化常用舉例)7

檢查相關性

通常想查看數據集的兩列是否關聯。

用『生年』和 『壽命』創建散點圖。

df.plot(x="生年", y="壽命", kind="scatter")

如何使用pandas處理數據(數據科學必備Pandas數據分析可視化常用舉例)8

貌似看不出來啥規律。

雖然散點圖是獲得有關可能相關性的第一印象的極好工具,但它肯定不是聯系的明确證據。要了解不同列之間的相關性,可以使用.corr(). 如果懷疑兩個值之間存在相關性,那麼您可以使用多種工具來驗證您的預感并衡量相關性有多強。

但請記住,即使兩個值之間存在相關性,也不意味着其中一個值的變化會導緻另一個值的變化。換句話說,相關并不意味着因果關系。

分析分類數據

為了處理更大的信息塊,人類的大腦有意識地和無意識地對數據進行分類。這種技術通常很有用,但遠非完美無缺。有時我們将事物歸入一個類别,經過進一步檢查并不是那麼相似。因此需要了解一些用于檢查類别和驗證給定分類是否有意義的工具。

分組

類别的基本用法是分組和聚合,可以使用 .groupby()

cat_totals = df.groupby("性格")["性格"].count().sort_values() cat_totals 性格 ? 1 豬突 165 小心 178 豪膽 223 冷靜 290 Name: 性格, dtype: int64

繪制一個水平條形圖,顯示 cat_totals 中的所有類别總數。

cat_totals.plot(kind="barh", fontsize=4) <AxesSubplot:ylabel='Major_category'>

如何使用pandas處理數據(數據科學必備Pandas數據分析可視化常用舉例)9

比率

想查看類别之間的差異,垂直和水平條形圖通常是一個不錯的選擇。如果對比率感興趣,那麼餅圖是一個很好的工具。

『分類』 的類别然後創建一個餅圖。

df.groupby("分類")["分類"].count() 分類 文官 336 武官 520 ? 1 Name: 分類, dtype: int64 df.groupby("分類")["分類"].count().plot(kind="pie", label="")

如何使用pandas處理數據(數據科學必備Pandas數據分析可視化常用舉例)10

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
會計中級考試計算器怎麼使用
會計中級考試計算器怎麼使用
機考界面計算器在哪裡找?計算器長什麼樣?1、機考界面的計算器在哪裡找?首先,我們要登錄考試系統(下面第2部分内容會詳細介紹如何登陸等),進入到答題界面後,答題界面左下方會有計算器按鈕。如下圖所示:2、計算器界面長什麼樣?點擊上圖中的“計算器...
2025-07-09
電腦清理C盤
電腦清理C盤
電腦清理C盤?電腦C盤清理操作1、windowsR調出運行框輸入“MRT”清除惡意軟件,接下來我們就來聊聊關于電腦清理C盤?以下内容大家不妨參考一二希望能幫到您!電腦清理C盤電腦C盤清理操作1、windowsR調出運行框輸入“MRT”清除惡...
2025-07-09
如何利用電腦自帶截圖工具截圖
如何利用電腦自帶截圖工具截圖
如何利用電腦自帶截圖工具截圖?無論是在學習上還是在工作中,我們都經常會用到電腦,特别是在工作中,每天都是與電腦相伴,遇到重要的文字信息或者好看的圖片,都會想盡辦法截取下來,所以今天就教大家幾種電腦截圖的方法,下面我們就來聊聊關于如何利用電腦...
2025-07-09
良心播放器推薦
良心播放器推薦
良心播放器推薦?2017-12-2005:55:00作者:劉衡源[中關村在線音頻頻道原創]大多數關注音頻的朋友多少會對便攜播放器有一定的了解,從早期的mp3,随身聽設備開始,便攜播放器一直是聽歌的一個比較好的選擇之一随着現在移動設備的發展,...
2025-07-09
京東免費上門回收手機
京東免費上門回收手機
成為父親之前,楊帆最讨厭那句,“以後你有孩子就知道了,可憐天下父母心”。  他不懂媽媽明明對那條裙子愛不釋手,為何摳摳搜搜不願付款,但給自己報小提琴班時卻不假思索;他不明白爸爸毛衣都開線了,卻怎麼都不換新衣服,但給自己買輔導書時卻一擲千金…...
2025-07-09
Copyright 2023-2025 - www.tftnews.com All Rights Reserved