首页
/
每日頭條
/
生活
/
python爬蟲中文
python爬蟲中文
更新时间:2025-12-11 10:02:27

在使用爬蟲程序下爬數據時候,經常會遇到亂碼的問題,那遇到亂碼該怎麼辦呢?

一般大家看到亂碼,下意識的覺得會不會是爬蟲爬錯東西了?其實沒有,這個就是簡單的編碼的問題。

一般在爬蟲程序中,涉及到編碼格式的地方有兩處,一處是在發起請求後,對返回的内容進行解碼;另一處是在保存文件時,設置編碼格式。下面我們分開來說。

1. 發起請求,獲取網頁内容階段

一般的網站的編碼格式都是 UTF-8,所以當你系統的默認編碼也是 UTF-8 時,也就是說,你的默認編碼方式和目标網站的編碼方式一緻時,即使不明确設置編碼方式,也不會出問題。

但是如果不一緻,便會出現亂碼。這也是為什麼經常有 明明在我電腦上運行是好的,為什麼在你電腦上就亂碼了 這樣的問題。這種問題解決也很簡單,隻要在代碼中設置一下 encoding 即可。 這裡建議一種方法,r.encoding = r.apparent_encoding ,這個可以自動推測目标網站的編碼格式,省的你自己去一個個設置(當然極少數情況下它可能會推測錯誤出現亂碼,到時候你再手動去查看網頁編碼,手動設置吧)。

def fetchURL(url): headers = { 'accept':'text/html,application/xhtml xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36', } r = requests.get(url,headers=headers) # 這裡設置編碼格式 r.encoding = r.apparent_encoding return r.text

2. 保存文件時的編碼錯誤

這個是讀者朋友們反映較多的一個問題,就是爬取過程中沒問題,但是用 excel 打開保存好的 csv 文件時出現亂碼(用記事本打開沒問題),這個其實就是文件的編碼方式和 Excel 的解碼方式不一緻導緻的。

在 dataframe.to_csv 這句,參數裡添加一個 encoding='utf_8_sig',指定文件的編碼格式,應該就可以解決了。

import pandas as pd def writePage(urating): ''' Function : To write the content of html into a local file ''' dataframe = pd.DataFrame(urating) dataframe.to_csv('filename.csv',encoding='utf_8_sig', mode='a', index=False, sep=',', header=False )

之前亂碼的 csv 文件,可以用記事本打開,然後點另存為,然後選擇編碼格式,ANSI ,unicode,UTF-8 都可以,然後保存之後,再次用 excel 打開就是正常的了。

3. 常見亂碼類型

常見的亂碼情況有以下幾種,大家可以參考一下。

python爬蟲中文(爬蟲遇到亂碼怎麼辦)1

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
華為mate 60有5g嗎 華為mate60是不是也沒有5G
華為mate 60有5g嗎 華為mate60是不是也沒有5G
華為mate60作為時下大家最為期待的一款機子,大家對其的功能還是很有要求的,尤其是在配置上面,畢竟現在很多手機都是5g了,所以華為mate60有5g嗎成了很多人在問的,下面小編就和大家一起看看華為mate60是不是也沒有5G。華為mate60有5g嗎華為mate系列作為該品牌的高端産品,深受大衆的...
2025-12-11
桔皮和陳皮一樣嗎
桔皮和陳皮一樣嗎
從桔皮和陳皮的原材料來看,陳皮是桔皮品種之一。但陳皮是用桔子皮晾幹、炮制制成,具有很高的藥用價值。而新鮮桔皮一般隻用來提神和清潔,可以緩解暈車帶來不适的症狀和清潔污垢。桔皮和陳皮從原材料來看,陳皮屬于桔皮品種之一,它是芸香科桔子樹果實的果皮。但兩者的狀态是不一樣的,陳皮是用桔子皮晾幹、炮制制成,裡面...
2025-12-11
床單被罩什麼材質的好 床單被罩哪個牌子的好
床單被罩什麼材質的好 床單被罩哪個牌子的好
人的一生起碼有三分之的時間是在床上度過的,所以選擇一套品牌床單被罩非常重要。由于市場上床單被罩的材質衆多,很多用戶不知道床單被罩什麼材質的好,影響了睡眠質量。但是,床單被罩哪個牌子的好?在選擇床單被罩之前,一定先要了解清楚,然後根據自己的喜歡和生活習慣選擇購買合适的床單被罩,才能更好的保證睡眠質量。...
2025-12-11
雨傘可以托運嗎
雨傘可以托運嗎
雨傘可以托運,雨傘不屬于違禁物品,可以辦理托運,另外長度小于100厘米的遮陽傘還可以随身攜帶上飛機,若是長度大于100厘米,隻能辦理托運,除此之外過100毫升的液體化妝品也隻能辦理托運。雨傘可以托運,根據航空規定,不屬于違禁物的物品都可以辦理托運,長度小于100厘米的折疊雨傘可以随身攜帶上飛機,若是...
2025-12-11
2023年汽車行業分析 2023年汽車行業發展趨勢
2023年汽車行業分析 2023年汽車行業發展趨勢
最近一段時間,汽車行業發生了一些新的轉變,這引起了大衆對汽車行業的關注,大家都在讨論2023年汽車行業将會往什麼趨勢發展,下面大家就和小編一起了解一下2023年汽車行業分析,2023年汽車行業發展趨勢。2023年汽車行業分析付于武:進入2023年,對汽車市場來說,消費乏力仍然是主要矛盾。受之前疫情影...
2025-12-11
Copyright 2023-2025 - www.tftnews.com All Rights Reserved