新聞中心
當(dāng)前位置:網(wǎng)站首頁 > 新聞中心
數(shù)據(jù)質(zhì)量在機器學(xué)習(xí)中有多重要?
如今,機器學(xué)習(xí)正成為組織多個商業(yè)部門的一項重要功能。機器學(xué)習(xí)程序運行在數(shù)據(jù)上,需要大量的數(shù)據(jù)來訓(xùn)練機器,就像一臺潤滑良好的發(fā)動機。但是,與大量數(shù)據(jù)相比,良好的數(shù)據(jù)質(zhì)量對于獲得預(yù)期的最終結(jié)果至關(guān)重要。
數(shù)據(jù)管理處理的是數(shù)據(jù)質(zhì)量,這使得分析應(yīng)用程序給出的輸出可信。分析應(yīng)用程序讓企業(yè)了解自己在行業(yè)中的地位。目前在技術(shù)行業(yè)取得的分析進步是顯著的,但就數(shù)據(jù)質(zhì)量而言,它還沒有達到標(biāo)準(zhǔn),這對依賴機器學(xué)習(xí)程序的企業(yè)來說可能是有害的。
更多的干凈數(shù)據(jù)
機器學(xué)習(xí)系統(tǒng)需要更多的數(shù)據(jù),但是數(shù)據(jù)在哪里呢?如果我們以零售業(yè)為例,數(shù)據(jù)可以收集多年。一旦數(shù)據(jù)被提取和收集,就應(yīng)該確定其質(zhì)量。機器學(xué)習(xí)工程師的工作就是這樣做,從業(yè)務(wù)的角度把數(shù)據(jù)放在一個可理解的場景中。
機器學(xué)習(xí)工程師的職責(zé)
工程師的首要責(zé)任應(yīng)該是了解客戶和客戶群的需求。這意味著企業(yè)應(yīng)該首先與一位機器學(xué)習(xí)顧問合作,他將指導(dǎo)如何使用機器學(xué)習(xí)來適應(yīng)特定的商業(yè)模式。接下來,機器學(xué)習(xí)工程師將在領(lǐng)域?qū)<业膸椭麻_始處理來自系統(tǒng)的數(shù)據(jù),對數(shù)據(jù)進行標(biāo)記和分類。這就是問題所在。大多數(shù)機器學(xué)習(xí)項目都是在沒有領(lǐng)域?qū)<业那闆r下進行的。這會導(dǎo)致錯誤的數(shù)據(jù)分類、操作員錯誤或機器學(xué)習(xí)系統(tǒng)對輸出的錯誤假設(shè)。
機器學(xué)習(xí)工程師從一開始就把大部分時間花在對數(shù)據(jù)進行分類上,因此如果機器學(xué)習(xí)產(chǎn)品在一開始就給出了錯誤的數(shù)據(jù),那么從那以后,錯誤就會變得更加復(fù)雜。這導(dǎo)致了無監(jiān)督機器學(xué)習(xí)。
有監(jiān)督和無監(jiān)督機器學(xué)習(xí)
有監(jiān)督機器學(xué)習(xí)是指利用輸入/輸出對的例子將一個函數(shù)映射到其相應(yīng)項的過程。有了這樣的模型,就可以在保證零數(shù)據(jù)誤差的前提下,從一開始就可以測量性能。
無監(jiān)督機器學(xué)習(xí)與此相矛盾。它沒有數(shù)據(jù)標(biāo)簽,也沒有實際的方法來衡量算法的性能。使用這樣的程序,目標(biāo)是找出數(shù)據(jù)的底層結(jié)構(gòu),并將其分成不同的類別。但是無監(jiān)督機器學(xué)習(xí)有一個好處。這些算法能夠看到人類可能不熟悉的數(shù)據(jù)模式。因此,在選擇機器學(xué)習(xí)方法時,了解它在業(yè)務(wù)中的用途是很重要的。
數(shù)據(jù)質(zhì)量對機器學(xué)習(xí)很重要。當(dāng)所需的數(shù)據(jù)質(zhì)量無法達到業(yè)務(wù)要求時,無監(jiān)督機器學(xué)習(xí)是一種救星。它能夠通過評估基于人工智能的程序的數(shù)據(jù)來提供精確的業(yè)務(wù)見解。但對于一個企業(yè)來說,沒有一個適合所有人的解決方案。
|