首页
/
每日頭條
/
職場
/
數據标注難不難做
數據标注難不難做
更新时间:2025-07-22 01:30:17

密集的工位上擺放着一排排整齊的電腦,這裡的員工或浏覽圖片,或看視頻,或聽語音,他們一邊看,一邊标記着他們看到的東西。有的是在為無人駕駛公司标注汽車、紅綠燈,有的在為教育機構标注課程對話,有的在為醫院病曆單進行标注.......

數據标注難不難做(你可能不太了解)1

談及數據标注行業,人們的第一印象總是直接(把标注)定義成勞動密集型行業,依靠着視覺沖擊,對數據标注行業有了基礎的皮毛了解後,忍不住發表觀點:這不就是富士康嗎?亦或者我們看到的某些新聞對數據行業的報道凸顯的是“重複工作”“低學曆”“條件艱苦”,但是實際上,數據标注這個行業已經走過了小作坊的粗放式,開始走進“技術緻勝”的時代。

數據标注難不難做(你可能不太了解)2

數據如何标注?

如今,大多數數據都沒有标注。帶标簽的數據,意味着标注或注釋目标模型的數據,以便可以預測。通常,數據标注包括數據标注,注釋,審核,分類,轉錄和處理。

标注的數據突出顯示某些特征,并根據這些特征對其進行分類,可以通過模型分析其模式以預測新的目标。例如,對于自動駕駛汽車中的計算機視覺,AI專業人員或數據标注者可以使用視頻标注工具來指示路牌的位置,并通過行人和其他車輛的位置來訓練模型。

數據标注本身也需要AI來輔助

文章開始,我們就說過,數據标注正在走向“技術緻勝”的時代,因此數據标注産業也在利用AI提升工作效率。

目前,将技術引入到數據标注流程已經是業内通用的做法,讓訓練好的AI模型反哺人工标注,也是标注技術公司的優勢所在。

像LabelIme支持對象檢測、圖像語義分割數據标注;Photoshop可選擇标注界面和工具;point-cloud-annotation-tool支持3D BOX盒子生成,支持KITTI-bin格式數據.....

再比如AI輔助打點,以往标注師想要精細描摹一輛車的輪廓,需要手工打上30多個點。如果标注一輛車需要1分鐘,那麼标注圖片上所有物體則平均需要1小時。

“借助AI輔助功能,現在隻需在車的外輪廓上任意打4個點,系統就會自動把30個點全部打完,輪廓貼合的也很好。這樣人工打點就能減少到4個,隻需進行微調,減少了一半用時,效率也提升了。”

數據标注難不難做(你可能不太了解)3

AI輔助數據标注之智能語義分割(來源:倍賽數據)

不過,在一些全新的領域,機器尚不能輔助人類工作,數據标注仍需人力完成。即便有了AI自動化标注工具,依然要由人來做審核質檢的最後一步。

數據标注更像是一個裁縫

2017年《經濟學人》發表的封面文章提出一個疑問:數據更像是有還是陽光?

數據标注難不難做(你可能不太了解)4

不可否認,數據是“世界上最寶貴的資源”,數據是未來的石油;但相比石油、打字員、訓練師這樣的定義呢,我們将數據标注比拟為【心靈手巧的裁縫】更為恰當。标注師們根據行業的要求,按照用戶的非标準化需求量體裁衣。一個數據的完成也是需要經過選料(選擇合作商,下放标注任務)、量體(數據采集、數據标注)、試穿(數據提交、數據質檢)、改樣(數據修改、在提交,審核),每一步都錯不了,每一步也不可缺少。

高質量的數據标注需要高學曆、取得相關資質證件

通過報道我們看到的像百度山西基地,大多數人都是專科背景,經過培訓可掌握通用型的拉框、打點任務。但涉及到醫療、金融、語言、法律等專業領域,往往需要具備專業知識的數據标注師來标注。

例如:在2017年,Google AI公布了一項突破性研究成果:通過機器學習技術,AI能夠從病人的視網膜眼底照片中 自動診斷出潛在的病變情況,來提前發現糖尿病視網膜病變,進行及時的治療和預防,讓患者保住視力。

數據标注難不難做(你可能不太了解)5

(比如這種,你能告訴我哪個是有病變的嗎?)

而你如果想要接到類似上述Google的數據單子,是需要取得醫師資格證。同樣的涉及到像做法律文書标注或投融資事件分析,則更是需要相關專業的本科生來完成。所以你還認為數據标注是一項簡單的工作嗎?

人工智能取代了大量的工作,那麼數據标注呢?

據時代的曆史,大約公元前18000年人類用計數棒進行儲存和分析數據;伊尚戈人的骨頭于1960年在現在的烏幹達發現,這被認為是史前數據存儲的最早證據之一;在公元前2400年,算盤作為第一個專門用于計算的專用設備在巴比倫開始使用。第一座圖書館也是在這個時候出現的,這是人類首次嘗試大規模的數據存儲。

數據标注難不難做(你可能不太了解)6

從古至今,人類發展都離不開數據。随着近幾年“數據時代”、“人工智能”成為熱點詞,人工智能發展成熟到一定階段,當AI代替了大量人類工作的時候,不會僅僅是個别行業的零星問題,最終的發展方向隻會是更加專業的數據标注人才取代基礎工種。

就人才需求層面來講:

《新一代人工智能發展規劃》提出,到2020年人工智能總體技術和應用與世界先進水平同步,核心産業規模超過1500億元,到2025年人工智能核心産業規模超過4000億元,到2030年人工智能理論、技術與應用總體達到世界領先水平,核心産業規模超過1萬億元。随着政策的進一步推動以及技術的進步成熟,人工智能産業落地速度将明顯提速,中國AI數據服務行業也将迎來巨大的發展浪潮。

數據标注難不難做(你可能不太了解)7

數據标注難不難做(你可能不太了解)8

相關調查顯示,2019年,企業在數據标簽上的支出超過17億美元。到2024年,這一數字将達到41億美元,因此目前的數據标注人才仍舊處在一個極為緊缺的階段。

雖然在未來,AI很有可能發展到“自己教自己”這一步。但目前為止,大部分的數據标注工作都是由真人完成的。這個工作不像大家想象的那麼簡單,而是充滿了複雜的判定和繁瑣的重複。

而随着人們對數據的需求越來越高,也有越來越多的人開始靠标注數據為生。

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
印度火車上人擠得爆棚(印度上班族擠火車)
印度火車上人擠得爆棚(印度上班族擠火車)
  印度和中國一樣都是人口大國,然而在交通建設方面,印度與我們中國卻有着十萬八千裡的差距。當中國高鐵被外國人民贊不絕口時,印度火車卻還是大家眼裡的一個“奇觀”。近日,一名29歲工程師蒂瓦裡拍下印度民衆搭火車通勤的一段視頻就在網絡上引起轟動。      印度從1853年就開始有了火車,并且成為亞洲最早擁有火車的國家。因為印度火車的車次不多,加上人口數量過多,很...
2025-07-22
通過學習給老闆的一封信(給想有點作為的老闆五封信之一)
通過學習給老闆的一封信(給想有點作為的老闆五封信之一)
     你的戰略錯了!這樣才能賺錢…   ——給想有點作為的老闆五封信之一   尊敬的老闆朋友,   我今年54歲,做老闆顧問已經有24年了。在這24年裡我認識的老闆朋友不少于一萬人,看過我的書,聽過我的課的人更多,也許有40-50萬人。這些老闆都是想有些作為的人,要不然也不會來學習。閱讀過這麼多老闆朋友,我感覺老闆面子上最過不去的事情是企業長不大,但心裡...
2025-07-22
學校綜合素質評價工作介紹(牢記光榮使命奮勇逐夢前行)
學校綜合素質評價工作介紹(牢記光榮使命奮勇逐夢前行)
  11月6日,長春五十二中赫行實驗學校召開了“長春五十二中赫行實驗學校綜合素質評價啟動大會”,深入推進學生綜合素質評價工作。      江西校長進行總結   會上,江西校長強調了學生綜合素質評價工作的重要性。江西校長說,綜合素質評價的存在十分必要,就如同“值日班長”的存在十分重要,并進一步提出應該有“值日主任”、“值日校長”,用生動的真實事例說明“值日班長...
2025-07-22
全自動拉絲機技術要求(拉絲機的工作效率是如何得到的)
全自動拉絲機技術要求(拉絲機的工作效率是如何得到的)
  廣東思奧智能科技有限公司就拉絲機設備來講,其的工作任務主要包含三個層面,很顯而易見,這種差異的生産環節針對其的生産工作中都是會造成一定的危害。在其中有一個環節稱為出線是非常主要的,通常會直接影響到拉絲機設備的全部生産工作中的品質和速度。下面,大家來認識下有關的主要内容。      為有利于我們更快地了解這種內容,大家必須先來認識下有關該專用設備的操控管理...
2025-07-22
魔獸世界冰法新天賦怎麼點(8.0魔獸世界冰法職業)
魔獸世界冰法新天賦怎麼點(8.0魔獸世界冰法職業)
  本文是對8.0版本冰法的詳細分析和結論分享。   一、關于天賦的分析和選擇刺骨冰寒/孤寂寒冬/寒冰新星   所有帶減速效果的技能每擊中一個敵人都可以疊加一層效果,疊滿10層獲得5%的法傷,是非熱能體系的最優解。   單體戰鬥隻有寒冰箭,冰槍術,冰風暴總占比超過55%的場景才能穩定超過刺骨冰寒,多目标戰鬥也需要最少45%。   能額外提供一個最少持續1秒的...
2025-07-22
Copyright 2023-2025 - www.tftnews.com All Rights Reserved