8月13日消息,由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦、雷鋒網(wǎng)承辦的全球人工智能與機(jī)器人峰會(huì)(GAIR)在深圳召開,在峰會(huì)現(xiàn)場,微軟研究院芮勇發(fā)表了名為《計(jì)算機(jī)視覺:從感知到認(rèn)知的長征》主題演講。
芮勇在演講中表示:計(jì)算機(jī)視覺是人工智能中非常重要的一個(gè)方向,在過去50多年間,計(jì)算機(jī)視覺經(jīng)過了對圖片的攝取、處理、識別和理解的過程。
首先是特征提取,對于圖像中的像素進(jìn)行重要性差別提取,然后再對重要的元素進(jìn)行標(biāo)注,通過標(biāo)記成為計(jì)算機(jī)能夠識別的符號,讓計(jì)算機(jī)能夠理解圖片的內(nèi)容,生成一句話對圖片進(jìn)行描述。這是目前微軟研究院能夠做到的,并且成功通過圖靈測試。
他介紹稱,深度學(xué)習(xí)徹底改變了圖像識別領(lǐng)域,未來計(jì)算機(jī)視覺還能實(shí)現(xiàn)圖片更高層次的識別,甚至達(dá)到視頻識別,對于輸出方面,不僅能夠輸出一句話,還能通過給AI發(fā)送圖片進(jìn)行聊天,計(jì)算機(jī)自動(dòng)識別圖片,并對圖片發(fā)送者進(jìn)行邏輯對話。
最后,芮勇稱讓計(jì)算機(jī)視覺識圖還有很長一段路要走,但隨著從感知到認(rèn)知的技術(shù)發(fā)展,給計(jì)算機(jī)一幅圖片,讓它給你一個(gè)故事是可以實(shí)現(xiàn)的。(Sherwood)
以下是芮勇的演講實(shí)錄:
非常高興下午有這個(gè)機(jī)會(huì)跟大家聊聊計(jì)算機(jī)視覺,我的題目叫《計(jì)算機(jī)視覺從感知到認(rèn)知的長征》。
我想回顧一下計(jì)算機(jī)視覺過去50年的發(fā)展。今年的2016年也是人工智能這個(gè)詞被創(chuàng)造出來的第60年,之前其實(shí)沒有這么一個(gè)詞,60年中國人叫一個(gè)輪回,輪回總是會(huì)有大的飛躍,我們看看2016年人工智能有什么大的飛躍?
人工智能從最開始有很多的領(lǐng)域,我本人花的時(shí)間最多的是計(jì)算機(jī)視覺,人有各種感官,但人70%的信息是靠人的眼睛來看到的,計(jì)算機(jī)視覺也是人工智能當(dāng)中一個(gè)非常重要的方向。
最早大家說能不能可以讓計(jì)算機(jī)可以看到,像人類的眼睛可以看到一樣。過去的50年的發(fā)展,我們可以看到,是從社群到處理到Recognition到理解,就像我們畫一幅畫一樣,從最早的線條,到一定的灰度,到最后的全彩色的,這50年都做了些什么事情?我們可以看一看,我想用這張圖片跟大家分享一下。
人看一張圖片覺得很簡單,我一看覺得這是一個(gè)人、這是一張桌子、椅子,人一下就理解了,計(jì)算機(jī)看到的很難,因?yàn)橛?jì)算機(jī)看到的就兩個(gè)東西,不是0就是1,讓計(jì)算機(jī)看到圖片里包含什么內(nèi)容非常困難。這50年走過了很多路,從最早的特征提取,比如說這么一幅圖,它的特征有線條、有轉(zhuǎn)角,有色彩,之后第二步比這個(gè)更前進(jìn),叫標(biāo)注。這幅圖比如說是一個(gè)戶外的場景,里面有人物,比這個(gè)更前進(jìn)一步,叫Annotation。比這個(gè)再往前走一步,我們對圖片的理解就是Captioning,我如果把這個(gè)圖片給計(jì)算機(jī)去看,它能不能生成一段我們?nèi)祟惪吹枚牭枚奈淖?,比如喬治和他的父親在迪士尼樂園在玩一個(gè)游戲,這么一句話,這就更難了。比這個(gè)再難一點(diǎn),我給計(jì)算機(jī)這個(gè)圖片,我問計(jì)算機(jī)幾個(gè)問題,比如說這個(gè)圖片里面坐在前面那個(gè)人穿什么顏色的衣服?計(jì)算機(jī)這時(shí)候要知道什么是人,衣服在哪里,它要回答是紅色的衣服,這就更難了。比這個(gè)再難一些的就是我們小時(shí)候都上過課,叫做看圖認(rèn)字,看圖說話,計(jì)算機(jī)看到一幅圖之后,能不能生成一個(gè)故事,這就是這50年我們大家孜孜不倦想做的事情。
我們來回顧一下這50年是怎么走的,第一步是特征提取,計(jì)算機(jī)看到的除了0就是1,當(dāng)然有些像素更加重要,哪些象素作為提取這很重要,比如這張圖,每一個(gè)像素的重要性是不一樣的,畫圈的地方是我們想把它作為特征的一些地方。再往下看,第二步我們想給一個(gè)圖片進(jìn)行標(biāo)注,進(jìn)行標(biāo)注的話,我們就想知道,比如說圖片里面有兩個(gè)人,他們是在戶外的活動(dòng),這件事情怎么做?我們來看一下是怎么做的。
這個(gè)就是很重要的一個(gè)部分,有三個(gè)部分,第一個(gè)部分是圖片的分類,這個(gè)時(shí)候我們回答的是什么問題呢?這張圖片里面是不是含有一只小狗。第二個(gè)就更難一點(diǎn),計(jì)算機(jī)還要告訴這個(gè)小狗在什么位置,把它框出來。第三個(gè)更難,每一個(gè)象素能不能告訴我這個(gè)像素是屬于這個(gè)小狗身上的像素還是電視機(jī)上的像素?一個(gè)比一個(gè)難。過去的這十年,還有很大很大的發(fā)展,我們來看。
第一步,圖象分類,圖象分類在計(jì)算機(jī)視覺里有一個(gè)全球性的比賽,叫ImageNet,里面有120萬個(gè)訓(xùn)練樣本,有10萬測試圖像,1000個(gè)類別,你讓計(jì)算機(jī)看沒有見過的圖片,幫你分出來這是1000類里的哪一類。
2012年之前,深度學(xué)習(xí)沒有引入計(jì)算機(jī)視覺之前,大家看看錯(cuò)誤率,靠右邊的是2010年的錯(cuò)誤率28.2%。2012年的時(shí)候,深度學(xué)習(xí)第一次被用在圖象識別,錯(cuò)誤率一下降到16.4%,每年的錯(cuò)誤率越來越低。2014年有個(gè)斯坦福的博士想挑戰(zhàn)一下。我如果告訴你一千類里有兩百來種狗的不同類型你就知道有多難了,我只認(rèn)識四五種狗,但要做到上百種狗都能對,非常困難。斯坦福博士關(guān)在屋子里訓(xùn)練了幾個(gè)月,他的錯(cuò)誤率是5.1%,去年降到了3.5%,第一次超過了人類的錯(cuò)誤率。
2012年深度學(xué)習(xí)第一次引入計(jì)算機(jī)視覺,當(dāng)時(shí)有八層,它的錯(cuò)誤率降低。再往下走,2014年到了19層,錯(cuò)誤率繼續(xù)降低,到2015年,我研究院的同事做出了152層的極深網(wǎng)絡(luò)。大家覺得往下做沒什么了不起,其實(shí)想做得深很難,在2015年以前,全球沒有幾個(gè)團(tuán)隊(duì)能做到超過20層,因?yàn)槭怯?xùn)練不下去的,所以這是一個(gè)非常好的工作。用神經(jīng)網(wǎng)絡(luò),不僅是每一層延到下一層,有的之間還可以轉(zhuǎn)跳。
這是圖片的分類,解決的問題是圖片里面是不是有只小狗。更難的是這只小狗在什么地方,物體的檢測。七八年以前,全球能做到最好的程度也就是這樣,今天通過深度學(xué)習(xí)的方式已經(jīng)可以做到這樣的水平。你看最左邊的女士她只是把胳膊肘露出一點(diǎn),腿露出一點(diǎn)。再往下看,這個(gè)大公共汽車后面的司機(jī)我們解釋說這是一個(gè)人,現(xiàn)在已經(jīng)達(dá)到這樣的水平,跟人類的視覺水平已經(jīng)不相上下。
比物體檢測更加難的是在圖片的每一個(gè)像素,像素是屬于小狗還是屬于屏幕?我們可以看一看今天用深度學(xué)習(xí)的方式,也已經(jīng)可以把像素級的圖像分割做到這樣的水平。
2025-04-28 14:41
2025-04-27 18:25
2025-04-24 13:29
2025-04-21 08:38
2025-04-20 07:42
2025-04-19 09:16
2025-04-18 09:06
2025-04-18 09:06
2025-04-16 13:34