在第六屆ImageNet圖像識別大賽中,微軟研究院在多個類別的評比中都取得了優(yōu)勝。微軟的技術(shù)勝過了谷歌、英特爾、高通和騰訊,以及多家創(chuàng)業(yè)公司和學(xué)術(shù)機構(gòu)的系統(tǒng)。 微軟多名研究員,包括何開明(Kaiming He,音)、張翔宇(Xiangyu Zhang,音)、任少慶(Shaoqing Ren,音),以及孫健(Jian Sun,音),開發(fā)了這一獲勝的系統(tǒng)。這一系統(tǒng)名為“面向圖像識別的深度駐留學(xué)習(xí)技術(shù)”。微軟在官方博客中表示,即將在一篇學(xué)術(shù)論文中公布系統(tǒng)的細(xì)節(jié)。 微軟這一系統(tǒng)具有很高的復(fù)雜度。該團隊表示:“我們的神經(jīng)網(wǎng)絡(luò)深達(dá)150層。我們提出了‘深度駐留學(xué)習(xí)’架構(gòu),使深度網(wǎng)絡(luò)的優(yōu)化和匯聚變得更簡單。我們的‘深度駐留網(wǎng)絡(luò)’比以往系統(tǒng)有著更多的層數(shù),從而提高了準(zhǔn)確率。許多普通網(wǎng)絡(luò)在增加層數(shù)時也能看到類似的準(zhǔn)確率提高?!?/p> 科技公司目前紛紛加強這一領(lǐng)域的研究。這些公司正在優(yōu)化內(nèi)部系統(tǒng),以及面向用戶的產(chǎn)品。作為高性能網(wǎng)絡(luò)的核心,深度學(xué)習(xí)技術(shù)會利用大量數(shù)據(jù),例如圖片,去訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),使神經(jīng)網(wǎng)絡(luò)在面對新數(shù)據(jù)時能做出正確的反應(yīng)。 微軟此前通過幾款有趣的產(chǎn)品演示了這一技術(shù),例如根據(jù)照片猜年齡的應(yīng)用。此外,通過微軟研究院的Project Oxford項目,微軟正在推動圖像識別技術(shù)的商用。 在ImageNet挑戰(zhàn)中,參賽系統(tǒng)需要準(zhǔn)確定位來自Flickr和搜索引擎10萬張照片中的對象,并將其分類為1000個類型。微軟系統(tǒng)在分類中的錯誤率為3.5%,而定位的錯誤率為9%。 在前幾年的挑戰(zhàn)中,在分類錯誤率方面,谷歌、創(chuàng)業(yè)公司Clarifai和NEC處于領(lǐng)先。 在今年的挑戰(zhàn)中,微軟的系統(tǒng)在對象探測方面也取得了領(lǐng)先。孫健表示:“我們自己也不相信,這一理念會如此重要?!?/p> 百度沒有出現(xiàn)在今年的排名中。百度的提交次數(shù)超過了允許的上限,該公司隨后對此表示道歉,并解雇了要求初級工程師這樣做的團隊負(fù)責(zé)人。 在這項挑戰(zhàn)中,IBM通過SoftLayer公有云服務(wù)提供了來自英偉達(dá)的GPU(圖形處理單元),供參賽團隊使用。(維金)
|