首页
/
每日頭條
/
職場
/
ocr文檔識别和表格識别的難點
ocr文檔識别和表格識别的難點
更新时间:2025-06-27 17:04:12

大家好,今天兌觀科技小編又為大家分享檔案管理幹貨了,本篇分享主要内容為——紙質檔案數字複制件光學字符識别(OCR)工作規範篇三。

ocr文檔識别和表格識别的難點(紙質檔案數字複制件光學字符識别)1

7檔案OCR的實施

7.1 圖像導入

7.1.1 檔案OCR實施前,應當先評估紙質檔案數字複制件質量是否符合OCR的基本要求。評估内容一般應包括圖像分辨率、偏斜度、清晰度、失真度、亮度、對比度、灰度等。

7.1.2 紙質檔案數字複制件的圖像分辦率應不低于200dpi。特殊情況下,如文字偏小、密集、清晰度較差等,可以适當提高分辦率。文件命名應符合DA/T 13-1994、DA/T22-2015、DA/T31-2017的規定。

7.1.3 對質量不能達到檔案OCR工作基本要求的紙質檔案數字複制件,應按照DA/T31-2017的要求重新數字化後導入。

7.2 圖像預處理

7.2.1 二值化

7.2.1.1在識别處理前,應對彩色圖像進行灰度化和二值化處理;對灰度圖像進行二值化處理。應采取局部自适應二值化等算法,并支持自動或手動調節。

7.2.1.2應具備亮度和對比度值自動、手動調節功能。亮度和對比度值的設定以調整後的圖像中文文字的筆畫連貫清晰為準。

7.2.2 圖像降噪

7.2.2.1對圖像中印刷體字符進行識别處理前,需要根據噪聲的特征對待識别圖像進行降噪處理,提升識别處理的精确度。

7.2.2.2降噪處理應去除在掃描過程中産生的污點、污線、黑邊等影響圖像質量的雜質,去除檔案頁面原有的紙張褪變斑點、水漬、污點、裝訂孔等影響識别的地方。

7.2.3 傾斜校正

7.2.3.1對圖像進行識别前,應進行圖像方向檢測并進行自動水平或垂直傾斜校正。

7.2.3.2應支持由用戶指定圖像傾斜的角度,采用相應的圖像旋轉算法進行手工傾斜校正。

7.2.4 圖像監測

圖像質量控制程序應自動檢測圖像處理質量。對無法達到質量要求的圖像進行标注。

7.3 比對識别

7.3.1 版式分析

7.3.1.1對比識别前應對圖像中的字符塊結構進行版式分析,把圖像中相似的版塊信息劃分到一起。如橫排文本、豎排文本、表格、圖形等。

7.3.1.2版式分析可采取多種分析方法,自動檢測各版塊類型,對圖像内部區域進行邏輯歸類,記錄各版塊的位置,存儲版面信息。

7.3.2 檔案特征分析

7.3.2.1歸檔章分析。建立歸檔章式樣庫,自動識别圖像中的歸檔章,并根據歸檔章樣式,識别出字段位置,如全宗号、年度、機構、保管期限、件号、頁數等。

7.3.2.2公文要素分析。建立公文格式庫,可準确識别公文的版頭、主體、版記三部分,識别公章、簽章等區域,比照公文樣式,識别密級和保密期限、緊急程度、發文字号、簽發人、标題、主送機關、正文、附件說明、發文機關署名、成文日期、附注、附件、抄送機關等公文要素。公文要素OCR識别要求見附錄A。

7.3.2.3表格分析。建立單獨表格處理模塊,建立專用表格模闆定義工具,自定義文件處理單、發文稿紙、備考表等表格模闆,識别表格中的字段位置。

7.3.2.4印章分析。識别印章圖像位置,存儲印章圖像,建立印章名稱與印章圖像的關系庫,用于版式恢複。

7.3.3 識别和匹配

7.3.3.1識别時應抽取字體、字号、粗體、斜體、首行縮進等字符特征,通過相似度計算方法,與特征數據庫比對,識别為計算機文字内碼。

7.3.3.2特征數據庫應存儲多種印刷體字符、常用簽名和批注手寫體字符,具備可更新和可擴充性對使用頻率高的漢字、英文、數字以及常用的符号、常用簽名和批注手寫體字符應建立高頻庫。應将無法識别的手寫體篩選出來,通過人工識别,并将識别結果存入字符庫。

7.3.3.3應通過将比對後的識别文字根據上下文在可能的相似候選字群中找出最合乎邏輯的字詞對識别文字進行除錯或更正,以提高OCR識别準确率。

7.4 修改校正

7.4.1 應對識别的文本進行自動語義識别和校正,通過詞彙庫和語義庫,對識别後文本中的字符、詞彙、語句自動進行逐層分析更正。詞彙庫和語義庫應具備更新和自動學習功能。

7.4.2 應對候選字、拒認字和可能有問題的字詞、語句進行标記。

7.4.3 應支持以人工方式對OCR結果進行圖像與識别文字對照、修正等校正的功能,以滿足更高識别準确率的特殊要求。

7.5成果整理輸出

7.5.1 成果整理

7.5.1.1 支持按照紙質檔案數字複制件的版式對OCR結果的段落和表格進行版面理解與重建。重建後OCR結果的段落編排、表格樣式應與紙質檔案數字複制件圖像一緻。

7.5.1.2 應自動分析、提取黨政機關公文的各公文要素,包括密級和保密期限、緊急程度、發文字号、簽發人、标題、主送機關、正文、附件說明、發文機關署名、成文日期、附注、附件、抄送機關等。檔案OCR成果結果中各公文要素位置應與紙質檔案數字複制件圖像一緻。

7.5.1.3 應支持調用、編輯、備份、導出OCR結果,支持對文字、符号的搜索等功能。

7.5.2成果輸出

7.5.2.1 檔案OCR成果應同時保存為純文本形式和雙層PDF/OFD文件形式

7.5.2.2 應以紙質檔案的件或頁為單位輸出、保存純文本形式檔案OCR成果。純文本形式OCR成果保存規則參見表1

ocr文檔識别和表格識别的難點(紙質檔案數字複制件光學字符識别)2

7.5.2.3應以檔号為基礎對純文本形式檔案OCR成果命名,命名方式的選擇應确保檔案OCR成果命名唯一性。一件檔案保存為多個檔案OCR成果文件時,應按檔号結合OCR成果順序流水号為檔案OCR成果命名。

示例1:檔号為A001-001-0001的紙質檔案數字複制件,對應的OCR成果文件名為A00100100010001.txt。

示例2:檔号為A001-001-0001-0002的紙質檔案數字複制件包含收文處理單、文件正本兩個文件,對應的OCR成果文件名分别為A00100100010002_01.txt和A00100100010002_02.txt。

7.5.2.4 應根據紙質檔案數字複制件版式文件格式,自動形成支持全文檢索的雙層PDF或OFD文件,方便全文檢索後對文件的閱讀。

7.5.2.5 應支持按照檔案著錄規則和電子檔案元數據規範,自動保存檔案OCR成果中的黨政機關公文要素。相關公文要素應保存到數字檔案館(室)應用系統數據庫。

7.5.2.6 應支持檔案OCR成果中文簡繁體的自動轉換功能。

7.5.3成果驗收

7.5.3.1 應采用計算機自動檢驗與人工檢驗相結合的方式對紙質檔案OCR成果進行驗收檢驗。

7.5.3.2 驗收檢驗内容包括OCR成果、提取的黨政機關公文要素、數據挂接情況、OCR工作文件和存儲載體等。

7.5.3.3 能夠采用計算機自動檢驗的項目應采用計算機自動檢驗的方式進行100%檢驗,對于無法用計算機自動檢驗的項目,可根據情況以件或卷為單位采用抽檢的方式進行人工檢驗。抽檢比率不得低于5%。

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
dnf60版本各個副本前置(DNF60版本異界回憶啟示錄)
dnf60版本各個副本前置(DNF60版本異界回憶啟示錄)
  說起DNF是大家已經在熟悉不過的網絡遊戲了,是由韓國NEOPLE開發的,于2008年在國服正式登陸,是一款免費角色扮演的2D闖關遊戲,距離至今已十餘年之久,而我們也與DNF風雨同舟十餘年,現在回憶起已是慢慢的回憶,甚至有時候還熱淚盈眶,懷念當時一起組隊刷圖升級,懷念當年一起組隊刷深淵,還念一起去PK場PK的成年往事;說道回憶各位小夥伴們還記的之前最開始的...
2025-06-27
川大法學院教師回應(浙大光華法學院)
川大法學院教師回應(浙大光華法學院)
  因博士學位論文涉嫌侵權引發訴訟糾紛,浙江大學光華法學院教師王超已被學院暫停教學工作。   7月14日,浙江大學光華法學院官網發布情況說明稱,“近日,我院教師王某在香港城市大學的博士學位論文因涉嫌侵權引發訴訟糾紛受到輿論關注。對此,學院高度重視,已經啟動事件調查,暫停王某的教學工作。後續将根據相關事實,依法依規作出處理。感謝各界的關心和關注。”      ...
2025-06-27
樂視到底能不能翻身(沒有老闆和)
樂視到底能不能翻身(沒有老闆和)
     樂融大廈仍有超四百位員工在此辦公。 (南方周末記者 梅嶺/圖)   “樂視輝煌時、欠債時,我們天天在你們大廈底下排隊趴活,現在樂視還在嗎?”樂視網(400084.OC)員工馬賽打車上下班時,經常會遭到出租車司機調侃。   “我們就沒有倒下過,隻是現在還在爬。”馬賽對南方周末記者說,2010年她入職時,工号排在兩百多位,鼎盛時期兩萬多名員工跟随賈躍亭...
2025-06-27
最溫馴的貓貓(比老闆更像老闆)
最溫馴的貓貓(比老闆更像老闆)
  試想一下,你在午後走進一間普普通通的雜貨店,首先映入眼簾的是一隻慵懶、可愛的貓咪,心情是不是會變得很好?Twitter上有一個專門收集「雜貨店店貓」照片的帳号「@Bodega Cats」,萌萌的貓咪們有時坐在貨架上,有時趴在門口,吸引着貓奴來光顧~      ▼「請自行選購商品,本喵先休息一下。」      ▼吃多了水果也會發胖嗎?      ▼「歡迎光...
2025-06-27
dnf鬼劍士二覺技能欄推薦(鬼劍士全體削弱)
dnf鬼劍士二覺技能欄推薦(鬼劍士全體削弱)
  不知不覺,距離8月20日冬季發布會結束,已經有一小段時間了!這次發布會公告9月會加入的内容有很多,例如日常/周常副本減負、神話改版、罩子兵削弱,以及第3波職業平衡等等,其中要說玩家最關心的,莫過于第3波職業平衡了。這次平衡總共涉及22個職業,除了劍帝、刃影、外傳職業之外,未加強過的職業都有在其中。   策劃提前爆料氣功罩子削弱  而在這次平衡的22個職業...
2025-06-27
Copyright 2023-2025 - www.tftnews.com All Rights Reserved