資料內(nèi)容:
AI 的應(yīng)用領(lǐng)域非常非常廣,上圖只是大家相對熟悉的幾個,而且每一個領(lǐng)域用到的算法都
不一樣。有很多想轉(zhuǎn)型的產(chǎn)品,第一個考慮的點(diǎn)就是:不懂技術(shù)就做不了 AI,我是不是學(xué)
完算法才能入行?
其實(shí)不是。
大家可能知道:
不僅算法重要,很多時候數(shù)據(jù)可能更重要;有保質(zhì)保量的數(shù)據(jù),才可能有好的訓(xùn)練效果。
數(shù)據(jù)可分為兩種類型:“被標(biāo)記過”的數(shù)據(jù)和“未被標(biāo)記過”的數(shù)據(jù)。什么是標(biāo)記呢?意
同“貼標(biāo)簽”,當(dāng)你看到一個西瓜,你知道它是屬于水果。那么你就可以為它貼上一個水
果的標(biāo)簽。算法同事用“有標(biāo)簽的數(shù)據(jù)”去訓(xùn)練模型,這里就有了“監(jiān)督學(xué)習(xí)”。
重點(diǎn)就是這里:只要是跟“監(jiān)督學(xué)習(xí)”沾邊的產(chǎn)品/技術(shù),比如圖像識別、人臉識別、自
然語言理解等等,他們都有一個必走的流程——
不斷地用標(biāo)注后的數(shù)據(jù)去訓(xùn)練模型,不斷調(diào)整模型參數(shù),得到指標(biāo)數(shù)值更高的模型。
二、數(shù)據(jù)處理流程拆解
1、數(shù)據(jù)標(biāo)注
數(shù)據(jù)的質(zhì)量直接會影響到模型的質(zhì)量,因此數(shù)據(jù)標(biāo)注在整個流程中絕對是非要重要的一點(diǎn)。
1)一般來說,數(shù)據(jù)標(biāo)注部分可以有三個角色
標(biāo)注員:標(biāo)注員負(fù)責(zé)標(biāo)記數(shù)據(jù)。
審核員:審核員負(fù)責(zé)審核被標(biāo)記數(shù)據(jù)的質(zhì)量。
管理員:管理人員、發(fā)放任務(wù)、統(tǒng)計工資。
只有在數(shù)據(jù)被審核員審核通過后,這批數(shù)據(jù)才能夠被算法同事利用。
2)數(shù)據(jù)標(biāo)記流程
任務(wù)分配:假設(shè)標(biāo)注員每次標(biāo)記的數(shù)據(jù)為一次任務(wù),則每次任務(wù)可由管理員分批發(fā)放記錄,
也可將整個流程做成“搶單式”的,由后臺直接分發(fā)。
標(biāo)記程序設(shè)計:需要考慮到如何提升效率,比如快捷鍵的設(shè)置、邊標(biāo)記及邊存等等功能都
有利于提高標(biāo)記效率。
3)進(jìn)度跟蹤:程序?qū)?biāo)注員、審核員的工作分別進(jìn)行跟蹤,可利用“規(guī)定截止日期”的
方式淘汰怠惰的人。
4)質(zhì)量跟蹤:通過計算標(biāo)注人員的標(biāo)注正確率和被審核通過率,對人員標(biāo)注質(zhì)量進(jìn)行跟
蹤,可利用“末位淘汰”制提高標(biāo)注人員質(zhì)量。