“2018中國綠公司年會”于4月22日-24日在天津舉行,主題為:智能商業(yè)時代 高質(zhì)量發(fā)展與價值創(chuàng)造。出門問問創(chuàng)始人兼CEO李志飛出席【全會-AI專場】并演講。
以下為李志飛演講全文:
李志飛:標(biāo)題是“AI語音怎樣如何打造企業(yè)競爭力”。出門問問干了兩件事情,自己開發(fā)語音交互技術(shù),從麥克風(fēng)的陣列到環(huán)形,到語音識別,到對接、TTS,一整套的端到端的語音交互技術(shù),在全世界或者中國創(chuàng)業(yè)公司比較特別一點的,因為一般的創(chuàng)業(yè)公司是開發(fā)一個單一技術(shù),而出門問問是開發(fā)端到端的語音交互技術(shù),在中國和全世界都是比較少見的,這是第一件事情。
第二件事情,出門問問把語音交互運用到智能硬件場景下,主要是自己直接面對消費者,跟全世界99%的AI創(chuàng)業(yè)公司不太一樣,主要業(yè)務(wù)是ToC,因為一般的AI公司是ToB。
過去大概五年多的時間我們做了很多探索,對AI到底怎么落地消費場景有一些想法。第一,軟硬結(jié)合是落地ToC的主要方式,今天聽起來比較容易理解,但在2013、2014年做智能硬件的時候,很多人覺得為什么算法公司一定要做硬件,不太理解。舉兩個例子,一個是谷歌,一個是我們自己。谷歌在過去硬件方面,比如智能手機、智能音箱、智能耳機,這是非常非常嚴(yán)肅的事情??赡芤郧按蠹依斫夤雀韪嗟氖欠?wù)、軟件公司,但它在硬件方面,尤其是過去兩年花了很大的血本做硬件。出門問問,智能音響、智能手表做了很多硬件嘗試。很多人問為什么谷歌和出門問問做AI落地,為什么自己做硬件,而不像以前安卓系統(tǒng),像谷歌開發(fā)安卓,很多合作伙伴做硬件,這是時代的變化,階段也不太一樣,今天最主要的原因我認(rèn)為是AI技術(shù)非常不成熟,不像一個查檢直接插到另外一個地方拼起來就可以直接用。在這種情況下,如果想把AI落地,想依賴于合作伙伴跟你有同樣的想法,對AI有同樣的態(tài)度,是比較難的,過去無數(shù)次證明,每次做一個證明都發(fā)現(xiàn)很難找到合適的合作伙伴,連谷歌都存在這樣的問題。軟硬件結(jié)合才能做出好的用戶體驗,這是最主要的核心問題。
當(dāng)然,另外一個觀點,可能是因為AI的商業(yè)化如果純粹靠軟件是比較難以商業(yè)化的,必須通過硬件作為一個載體進(jìn)行AI的商業(yè)化,如果AI是靈魂,各種硬件就是體,靈魂需要護(hù)體才能產(chǎn)生價值,至少未來一兩年,軟硬結(jié)合是AI落地最主要的方式。
語音交互大家都覺得很重要,但如果大家去做一個調(diào)查,在日常生活中,語音交互不是主流的交互方式,最主要的還是用鍵盤、觸摸屏,為什么?未來語音交互是不是一定沒有希望?接下來講一下我們的觀察,解釋這幾個問題。
首先看一下欲活躍,大家都用過各種設(shè)備,手表、音箱,出門問問做ToC,在所有設(shè)備商都做過語音交互運用。手機的欲活躍非常低,一百個手機用戶,可能四個用語音交互。我們曾經(jīng)做過谷歌語音搜索應(yīng)用,2014年,中國80%以上的谷歌硬件都裝在我們的語音搜索應(yīng)用,那個場景下,用戶打開谷歌,可能90%的用戶都會用到語音交互,因為那是唯一的交互方式。智能手表、音像的活躍率遠(yuǎn)遠(yuǎn)大于手機。為什么語音交互今天沒有成為主流的交互方式呢?非常量化的看這個問題,原因就是因為今天95%的智能設(shè)備都是智能手機,像智能手表、音箱、耳機、收集、智能車載,這是今天主要的交互設(shè)備是智能手機,但活躍度不是很高,導(dǎo)致語音交互沒有成為一個主流的交互方式。未來語音交互是不是沒有希望了?也不是,因為大家要看到一個大的趨勢,未來幾年,非手機類的智能設(shè)備增長幅度遠(yuǎn)遠(yuǎn)超過手機,這是以前的數(shù)據(jù)。上一個季度,中國智能手機不但沒有增長,可能是負(fù)增長,智能手機設(shè)備飽和率非常高,已經(jīng)很難再有大規(guī)模增長,但是其它類別,耳機、音箱的增長都是30%、50%、100%。做一個簡單的數(shù)學(xué),今天的絕對數(shù)量,再算一下未來的增長率,可以很快的做一個判斷,在將來三年、五年會看到非手機類的智能設(shè)備超過30%以上,美國會走的更快一點,其次是歐洲,然后才是中國。
為什么非手機類的設(shè)備占到30%以上如此重要?因為非手機類的智能設(shè)備語音交互方式是非常重要的方式,30%的設(shè)備都是非手機類的時候,首先這些設(shè)備都是小型化的,第二,是便攜的。美國計算機博物館,隨著年代的進(jìn)程,網(wǎng)絡(luò)、村存儲、計算的設(shè)備都是小型的、便攜化的,無論是耳機還是手表和其它車載設(shè)備都是小型化、便攜化,沒有屏幕了,沒有鍵盤了,而且是隨身攜帶的,在路上很不方便用鍵盤、觸摸屏,在車?yán)锖懿环奖阌糜|摸屏、鍵盤。30%的設(shè)備都是非手機類的,而且沒有屏幕、鍵盤,語音交互就是非常重要的,甚至在某種程度下是唯一的交互方式,這個時候語音交互才會成為一個主流的交互方式。
作為AI公司,怎么打造語音的競爭力,我從出門問問的角度,或者怎么幫助第三方的角度講一下。任何一個AI公司,要有比較大的競爭力,關(guān)鍵的一句話,找到可以掌控的規(guī)?;瘓鼍?。過去很多人一直討論到底AI是數(shù)據(jù)重要還是算法重要、技術(shù)重要還是場景重要?到了一定規(guī)模下,一定是場景更重要,特別重要的是場景是可以掌控的,比如谷歌為什么一定做AI,一定要做硬件,只有硬件才是他自己可以掌控的場景,而且是規(guī)模化的場景,這是今天很多AI公司做到所謂獨角獸階段要面臨的問題,怎么打造自己可掌控而且是規(guī)?;膱鼍?,數(shù)據(jù)、算法只是敲門磚,不能構(gòu)成絕對的壁壘。
出門問問具體到怎么打造規(guī)?;膱鼍?都是大白話,很多時候特別忙,是不是每天都能思考一下幾個點,是不是打造一個可控的、規(guī)模化的使用場景。出門問問有幾點,第一,持續(xù)的迭代提升語音交互核心技術(shù),雖然技術(shù)不能構(gòu)成絕對的壁壘,但必須持續(xù)性的保持領(lǐng)先,才有可能保持競爭力。第二,不停打造語音交互可以應(yīng)用的場景,無論是車載還是家居,還是智能的可穿戴。當(dāng)產(chǎn)品打造出來,特別重要的是真正規(guī)?;?,而不是做一下PR或者融一下資,搞一個發(fā)布會就結(jié)束了。今天很多AI公司確實都沒有找到,當(dāng)你做一個硬件達(dá)到一百萬臺,是特別重要的指標(biāo)。出門問問為了做銷量,無論做線下還是國際化,還是做線上,都花了很多精力,比如國際化,今天的智能手表在美國、歐洲、德國都是排前五名的,包括進(jìn)入美國最主流的best Buy的營銷渠道。
由于今天的營銷規(guī)模不夠大,必須把ToB也能滲透到ToC里去。2012年首先做技術(shù)、場景,第一次做軟硬結(jié)合的閉環(huán),最近持續(xù)把閉環(huán)更大規(guī)模上循環(huán)的疊加。過去做了很多產(chǎn)品,有智能手表、音箱、耳機、車載設(shè)備,在市場上有一些產(chǎn)品表現(xiàn)的不錯,放在第三方的合作伙伴的場景。ToB,更多是利用在ToC打造的端到端的產(chǎn)品體驗,幫助合作伙伴提升他們的體驗,像谷歌或者大眾汽車都是ToB的合作,有麥克風(fēng)的陣列,也有智能語音機器人,包括對智能、新零售,所有的都是語音交互方式,放到ToB的環(huán)境里,給客戶提供更好的體驗。
謝謝大家!
鄧鋒:
算法、數(shù)據(jù)、場景,從場景入手,找到可控制的規(guī)模化場景很好。但是大家都這么想,選擇場景有規(guī)模,但很多人都在做,包括亞馬遜、BAT、小米,作為一個小公司,靠什么建立競爭壁壘,跟這些大公司競爭?
李志飛:
這是特別難但是又必須回答的問題,比如出門問問做智能手表,已經(jīng)不算小公司,200名工程師專門做智能手表場景,大公司的項目特別多,怎樣建立競爭,沒有大家想象得那么可怕,但是確實在特別關(guān)鍵的場景,比如智能家居,這是現(xiàn)在面臨最大的競爭,在美國有谷歌,中國有百度、騰訊、阿里,都在做智能音箱,對我們來說唯一能夠生存的方式不是硬碰硬,唯一能做的就是垂直化,比如智能音箱,我們的產(chǎn)品是兒童ID,給兒童看的,整個語音交互,從喚醒到內(nèi)容,到語音識別都是為兒童場景優(yōu)化的,這就是垂直化的例子,因為谷歌、阿里很難在這一刻說專注兒童的場景,這是我們選擇的一個方式。
鄧鋒:
還有一個問題,語音交互可簡單,可復(fù)雜。從你的角度看,中國做語音交互的技術(shù),不光是語音識別,跟世界最先進(jìn)的水平到底有差別嗎?差多遠(yuǎn)?
李志飛:
鄧總講了特別核心的話題,一說到語音交互,就說是語音識別,其實最難的問題是加上對話,物理世界特別復(fù)雜,很多東西不可預(yù)測,這是確實必須承認(rèn)有難度。具體說中國到美國,在核心算法上可能有一點點差距,但是還是場景,做通用的對話系統(tǒng),我覺得很難,基本上現(xiàn)在不太可能。但是做車載的時候,就那么幾個事情,導(dǎo)航、聽音樂、打電話,不會硬要聊天,談情說愛,在這種情況下,中國公司反而會做得更好,因為我們落地更快,而且更接地氣。
鄧鋒:
家恩你們也做語音交互,也是這方面的專家,業(yè)務(wù)上不知道有多少重疊,你應(yīng)該理解很深。
梁家恩:
語音交互也是我們認(rèn)為未來物聯(lián)網(wǎng)落地非常關(guān)鍵的環(huán)節(jié)。語音交互,用戶想要的并不是交互,而是內(nèi)容跟服務(wù),做C端的產(chǎn)品應(yīng)用,后邊的內(nèi)容、服務(wù)如何跟百度這樣的巨頭競爭?
李志飛:
今天的內(nèi)容反而不是太大的問題,比如大眾點評、高德的API數(shù)據(jù)都是開放的,對他們來說要的是更多用戶使用。我們在2013年就跟他們產(chǎn)生了關(guān)系,開始做端到端的服務(wù),用戶不是為了交互,而是為了用后面的內(nèi)容。今天反而出門問問作為第三方的公司,內(nèi)容不是問題。為什么?百度內(nèi)容再多,也不可能把所有的內(nèi)容都做到,阿里也是,騰訊也是,至少目前來說我們不是瓶頸,他們愿意開放給我們?nèi)ビ谩?/p>
鄧鋒:
未來發(fā)展,如果內(nèi)容可以跟他們對接,你就做前端的產(chǎn)品。
李志飛:
我們就是給用戶提供新的交互方式。
余凱:
志飛的嘗試,在人工智能創(chuàng)業(yè)厲害是很獨特的,從技術(shù)走到產(chǎn)品,走到ToC,我一直在想蘋果除了做無疑倫比的軟硬件產(chǎn)品,還創(chuàng)造了APP Store非常強大的生態(tài),生態(tài)本身也成為一個壁壘,志飛有沒有想過在哪一個層面上打造生態(tài)?做音箱、耳機、車載、手表,有可能做著做著,是不是越來越像小米了?硬件的生態(tài),還是想在硬件的平臺之上,是軟件應(yīng)用的生態(tài),怎么思考未來路徑問題?
李志飛:
首先出門問問是一個小公司,談不上生態(tài),還是踏實一點,先做了智能手表是不是賣的好,做的智能音箱是不是賣得好,這是第一層思考。如果未來出門問問真能夠成為不錯的公司,或者一個大公司,一定是獨一無二的,也不是蘋果,也不是小米。
余凱:
要不要開線下體驗店?今年會開嗎?
李志飛:
一定會。做這到一步,再繼續(xù)往下做,中間沒有回頭路,這是非常堅決的。
鄧鋒:
所以聽起來,未來更像硬件公司。
李志飛:
我不承認(rèn),未來的商業(yè)不會存在像過去純硬件公司,我們還是以AI為核心的軟硬件公司。
鄧鋒:
家恩問的問題比較客氣,我稍微問的更尖銳一點,百度有內(nèi)容,有用戶,有搜索技術(shù),你剛才講的不是完全交互、全內(nèi)容的任何場景下的對話,百度的搜索技術(shù)也很強,提供這個平臺,跟硬件廠商合作,甚至類似于小米或者跟其它的硬件廠商合作,像百度的阿波羅一樣,開放平臺你去做,那個時候你們怎么做?
李志飛:
任何東西都有時間性的,比如未來一兩年,為什么谷歌在AI落地上不能像安卓那么成功,這就是原因,第一是技術(shù)不成熟,第二,硬件廠商認(rèn)識到了數(shù)據(jù)跟軟件、服務(wù)的價值,不會心甘情愿把這些東西交給你。我想知道百度今天,包括訊飛做了這么久,能夠控制小米、華為這樣的情況下的掌控力嗎?沒有,三年以后有可能有變化,但是那個時候我相信出門問問要么自己的硬件已經(jīng)非常成功了,要么這個公司不存在了,都有這種可能性。對我們來說,要的就是今天能夠把AI技術(shù)做好,把場景做好,把場景規(guī)模做好。