4月22日,一年一度的中國綠公司年會在鄭州召開,馬云、馬蔚華等知名企業(yè)家在大會上做了演講,依圖科技創(chuàng)始人朱瓏也受邀前往,圍繞人工智能做了深度分享。
以下為朱瓏演講全文:
我們在新聞當(dāng)中看到都是推崇本科生創(chuàng)業(yè),甚至推崇沒畢業(yè)的本科生去創(chuàng)業(yè)。我比較極端一點,我是博士后,還好,中國人比較尊敬這個學(xué)歷。
但其實學(xué)術(shù)界的人來創(chuàng)業(yè),也是一個重新學(xué)習(xí)的過程。尤其商業(yè)領(lǐng)域上,如果不是特別有天賦,從履歷上來講天生是一個短板。
所以我是一個非典型的創(chuàng)業(yè),這種非典型的創(chuàng)業(yè)也給我有一個非常特殊的視角,對科學(xué)、對學(xué)術(shù)的理解,以及我創(chuàng)業(yè)幾年來,有些共同點和不同點,也有一些不同的思考。
我有三段學(xué)術(shù)歷史,前2段歷史,鄧總(注:北極光創(chuàng)投創(chuàng)始人鄧鋒)剛才介紹的比較多了,我拿天使輪融資的時候,見到真格基金徐小平老師,講到MIT我的第二段學(xué)術(shù)經(jīng)歷,徐老師就要投了。去年我碰見徐老師,我才和他說我是人工智能的行家,因為我第三段的學(xué)術(shù)背景。
深度學(xué)習(xí)是在2013、2014年開始在全世界火起來的,我第三個實驗室的老板(Yann Lecun ,現(xiàn)任Facebook人工智能實驗室的負(fù)責(zé)人)在深度學(xué)習(xí)領(lǐng)域從業(yè)了30年。在我創(chuàng)業(yè)的時候,也就是2012年,在全球深度學(xué)習(xí)相對而言都是一個非常冷門的專業(yè),非常好的博士生并不去到這樣的實驗室、這個學(xué)科中來。
直到2013年,到中國可能是2014年,一夜之間全球的博士開始跳到這個專業(yè)來學(xué)習(xí),那就凸現(xiàn)了過去在這個專業(yè)領(lǐng)域里人才儲備的不足。講這個過程是說,非常短的時間里有非常巨大的變化。
人工智能比較火,談的人比較多,對我來說是非常難談的。我先給兩個定義:
一個是,難辨的技術(shù),
真假非常難辨,泡沫非常難辨。
但是談的人又多,專家非常多,無論是投資人、高校的人,還有創(chuàng)業(yè)的從業(yè)者。我自己有一個理解,現(xiàn)在是一個沒有權(quán)威的時代。
我今年年初在硅谷呆了一個月,有一些體會跟大家分享一下。什么是難辨的技術(shù)?
人工智能屬于科學(xué)的范疇,科學(xué)是離大眾很遠的。不要說,我們最好的實驗室,去評價另外一個實驗室的工作,如果只看論文,看公開流通的文章,不是那么容易評論,評估成本是很高的,還要根據(jù)多年來兩個實驗室的交流,以及互相理解的基礎(chǔ),才能評價他們的工作。這對圈內(nèi)人已經(jīng)是比較難,更何況現(xiàn)在流動非常大。
我們對科學(xué)預(yù)設(shè)了一個立場,就是客觀事實。但很多在市面上評價的東西都是比較主觀的,很多科學(xué)家、教授、研究員并不在業(yè)界的一線,盡管他是全職教授,或者是名牌大學(xué)的教授,很多他聽到的進展,更多來自于新聞。比如說依圖科技的進展,他也是看新聞了解到。但新聞可能不是最核心、最領(lǐng)先的一些技術(shù),以這個不是那么嚴(yán)謹(jǐn)?shù)乃夭淖鲱A(yù)測和評論的時候,其實是和真相差距比較大的。
科學(xué)是一個很嚴(yán)肅的東西,是一個客觀存在的東西,但是談的時候這個誤差是比較大的,容易被談的這個人的身份有一個預(yù)設(shè)的牽引。
另外一個是,這是一個沒有權(quán)威的時代。
我在美國最好的實驗室呆過,他們要了解今天全球最先進的技術(shù)在發(fā)生什么,也不是了解的那么全面。為什么?因為現(xiàn)在人工智能發(fā)展的速度太快了,甚至在各地都有跳躍性的發(fā)展。
谷歌一個AI的總監(jiān)不見得理解透自己公司的另外一個部門的所有進展,對他們來講是比較困難的;全球最好的專家要理解全球最好的技術(shù),不見得是全面的。更不用說今天在美國頂級的學(xué)術(shù)界或者名牌學(xué)校里面的老教授,它已經(jīng)很難很難點評全球最好的技術(shù)在發(fā)生什么。
這和10年前的學(xué)術(shù)界是不一樣的,學(xué)術(shù)界3個全球最好的教授,實驗室?guī)熜值軒讉€人湊在一起,差不多把全球的進展,甚至未來3年的進展就都預(yù)測了。
這就是一個沒有權(quán)威的時代,任何一個今天新的技術(shù),有可能是有突破性的社會意義和學(xué)術(shù)價值。這是我的一個體會。
因為科學(xué)很難談,所以我先從不需要任何專業(yè)背景,不需要跨越文化的東西,就是知識的東西,來看看AI今天是一個什么狀態(tài)。
大家可以看一下這四對圖,你看哪一組是同一個人,哪一組不是同一個人。你們通過這個過程來感受一下你到底是怎么認(rèn)識人的,當(dāng)你辨別人的時候,到底是看眼睛像不像,還是嘴巴像不像。結(jié)論是右下角這組。
機器很容易找到一張圖來迷惑或者超過人的辨識邊界。這個話題很有意思,在非常早期的時候,大概3年前,出現(xiàn)了非常重要的邊界線。機器做的識別,跟普通的人作為一個識別的基礎(chǔ)比較的話,機器的識別能力已經(jīng)超過人類,這是一個很重要的界線。
很多最基礎(chǔ)的功能上機器超過人類,機器就可以替代人從事這部分工作,有太多場合可以替代,比如機器幾乎不會存在速度和體力的問題,一秒鐘看1個人,還是1秒鐘看1億人機器都可以,很多場合都可以被替代,這是很重要的分界線。
剛識別這四組人像的問題,有的人可能會問,在座的100多位都不認(rèn)識這幾個人,有可能識別不了,大家對陌生人的識別能力下降,可是對熟悉的、我的朋友的辨識,機器不太可能超越我。
我們做了一個實驗。我們有一個公安的客戶,他在一千萬數(shù)據(jù)庫當(dāng)中,把他女朋友的照片放進去搜索,然后拿出相似的前十名出來,打亂了出來,問他哪個是他女朋友,他辨別不出來的,有可能是一個是證件照一個是生活照的原因,有可能因為年齡的原因,也可能有化妝的原因。
所以你非常熟悉的人,比如你女朋友,你不見得比機器更認(rèn)識你的女朋友,因為光照角度、化妝,人是很容易受主觀性的影響。今天機器做到一個程度,對非常熟悉的人的辨識,機器也可以很穩(wěn)定的超越人類。
再拓展一點,到更專業(yè)的領(lǐng)域,醫(yī)學(xué)上,一個專家他可能訓(xùn)練了3年或者5年,機器還是可能超越人類。我們還做了一個統(tǒng)計,我們嘗試想回答一個問題,在中國大約13億人中有多少人和你長得一樣?
長得一樣的標(biāo)準(zhǔn),就是你媽辨別不清楚誰是誰,這個問題純粹是對世界的好奇。結(jié)論是每一億個人中有一個人和你一樣,全中國平均有12個人跟你長得一樣。你找得到12個“替身”,而且是你媽辨別不出來。
這是很重要的一個科學(xué)統(tǒng)計的結(jié)果,這是在其他任何地方都不知道的結(jié)論。
這是什么意思呢?我們做人工智能,除了產(chǎn)業(yè)化的意義意外,今天的人工智能,把機器的邊界不斷往前推進的時候,它能夠幫助人類看到我們的智慧、天生的能力邊界在哪里。從前這個課題沒法被討論沒法被回答,以前沒有這么大規(guī)模的科學(xué)手段,這非常有意義。
雖然人臉識別非常普羅大眾,大家討論智能,容易講AlphaGo,講棋手。我對智能有一個很重要的理解,人工智能應(yīng)該是先解決一件什么事情?其中應(yīng)該是人天生就具備的能力,它應(yīng)該是3歲、5歲小孩就應(yīng)該有的能力。
這是人成為人的一個最重要的基礎(chǔ),它的很多智能是由這些衍生出來的,不是人掌握的那些知識。這種智能就是體現(xiàn)差異的,不是棋手才有的智能,也不是英國人美國人特有的智能,也不是上了大學(xué)的人才有的智能,只要你是人就會有這個智能。談?wù)撨@個事情,是回答人最本質(zhì)的東西。
再往下,我們談一談社會上的意義。
有的人可能聽說過這個案子,我們布了全球最大的人臉?biāo)阉饕?,公安可以通過這個搜索引擎追逃逃犯。這個案子是十幾年前的殺人犯,逃到廟里做主持,通過一個系統(tǒng)交叉比對,把這個通緝犯和現(xiàn)有的十幾億人或者一個省的一億人,做大規(guī)模的幾萬億次的或者幾十萬億次的交叉比對。大部分逃犯可能都是改了證件、做了漂白,這可以說是大海撈針的方式。
另外一個是在派出所,老人帶著小孩走丟了,他說不清楚自己是誰,記不起身份證號碼。以前這個很難辦,公安也不知道該去收容所還是社保,很難處理這件事?,F(xiàn)在在派出所拍一下就知道這個人是誰,也比較簡單。
這個是講這個攝像頭用到了哪些位置,像是在公共的攝像頭,辦案過程已經(jīng)鎖定嫌疑人,公共攝像頭抓拍到了嫌疑人,比較遠而且是運動的、模糊的、低清像素的情況下,基本都能識別出來。
這是在網(wǎng)吧,以前的小案件很難報案,幾百塊或者幾千塊錢,比如手機被人偷,既沒法查也比較難抓,現(xiàn)在是這種角落里的攝像頭,即便有角度的差異,也基本上可以查出來。
還有比較典型的應(yīng)用是在ATM機上,以前比較難做。ATM機上的魚眼攝像頭拍到的人像,現(xiàn)在也可以用這些人像抓捕疑犯。
中國的人工智能局面,先進的技術(shù)結(jié)合垂直的場景,具有世界范圍內(nèi)領(lǐng)先意義。
今天的人臉識別技術(shù)在不同的區(qū)域、不同的場景下,能做到非常多事情。作為從業(yè)者,特別是從科學(xué)到創(chuàng)業(yè)圈,還是非常激動人心的。我和一線的民警聊,過去民警工作中希望用到的科技手段,這2年下來基本都能做到了,更重要的意義是,你們看過的美國科幻大片里面的場景,我可以回答,我們都能做,而且基本上只有中國能做到。
美國和其他國家,像這種視頻條件和人臉識別的技術(shù)都很難做到。美國的人臉識別技術(shù)很好,好在哪里?美國只是谷歌的技術(shù)好,最多再加一個Facebook的技術(shù)好,但它的創(chuàng)業(yè)氛圍和政府的圈子的意識不見得是最領(lǐng)先的。
今天的局面是,像我這樣的留學(xué)生回國的比較多,中國出現(xiàn)這種先進的技術(shù)和垂直領(lǐng)域相結(jié)合的產(chǎn)品是比較有代表性的,做出來不只是解決中國的問題,在世界范圍內(nèi)都是非常領(lǐng)先的。
我們剛介紹做人臉識別,其實我們還做其他方面。這是新的統(tǒng)計建模和人工智能在城市管理的應(yīng)用。
做一件什么事情呢?在杭州試點,把道路上的車和燈以及路,比如有多少個車道,道路上車輛通過的速度,這些參數(shù)拿進來進行建模,能夠給交通一些優(yōu)化的建議,比如說紅燈可以從50秒調(diào)到40秒,能使道路通行的速度提高5%或10%,類似的預(yù)測在宏觀上做交通管理。
如果有個大的事件或活動,要做個預(yù)測,過去都是憑著政府管理者的經(jīng)驗,都是經(jīng)驗型的,不是大數(shù)據(jù)驅(qū)動的決策機制?,F(xiàn)在可以靠真正的科學(xué)來輔助決策。
還有比較直接的應(yīng)用,是在醫(yī)學(xué)領(lǐng)域的肺的CT片,科學(xué)統(tǒng)計結(jié)果,今天機器可以做到和醫(yī)院副主任醫(yī)師看CT片子相當(dāng)?shù)乃健?/p>
這是屬于自然語言理解的范疇,大家看左上角,這是機器對小孩發(fā)燒狀況的描述,機器是可以通過技術(shù),把專業(yè)的醫(yī)學(xué)中的自由文本轉(zhuǎn)化成帶有語意結(jié)構(gòu)的,比如身體的部位,病灶程度、屬性等,全部能精確的摘要出來,形成智能的決策,給出相似的可能性的癥狀,以及相似的病例和一些診療方案。
以上就是一些不同的人工智能在今天在不同場所應(yīng)用,希望給大家一些人工智最前沿的傳達。
AI在今天發(fā)展速度是非??斓?,即使現(xiàn)在非常熱的情況下,以BAT、創(chuàng)業(yè)者或是投資人,大家還是低估AI最前沿的技術(shù)有可能有跳躍性的進步。