繼去年 5 月推出首款面向物聯(lián)網(wǎng)的 AI 芯片——雨燕(Swift)及其系統(tǒng)解決方案之后,1 月 2 日,人工智能企業(yè)云知聲在京召開新聞發(fā)布會,正式公布了其多模態(tài) AI 芯片戰(zhàn)略與規(guī)劃。會上同步曝光了其正在研發(fā)中的多款定位不同場景的 AI 芯片,包括第二代物聯(lián)網(wǎng)語音 AI 芯片雨燕 Lite、面向智慧城市的支持圖像與語音計算的多模態(tài) AI 芯片海豚(Dolphin),以及面向智慧出行的車規(guī)級多模態(tài) AI 芯片雪豹(Leopard)。
5G 推動 AIoT 落地,多模態(tài) AI 芯成必然
云知聲創(chuàng)始人/CEO 黃偉認為,當前我們正處于 5G 爆發(fā)的邊緣,5G 與人工智能的結(jié)合將真正促使萬物智聯(lián)(AIoT)的落地與實現(xiàn)。可以預見的是,未來巨量的多維數(shù)據(jù)(如語音、圖像、視頻等)集中處理與邊緣式分布計算的需求,勢必將進一步挑戰(zhàn) AI 底層支持硬件——芯片的計算能力。
與此同時,AIoT 場景下人工智能應用對于端云互動有著強需求。強大的云會讓端能力更強,而強大的端則可提升數(shù)據(jù)處理的實時性和有效性,進而增強云的能力。二者需要緊密結(jié)合,這要求對芯片設計和云端架構(gòu)進行統(tǒng)一考量。傳統(tǒng)的通用方案架構(gòu)由于在高實時性、高智能化場景中的算力有限,且無法平衡好成本、功耗、安全性等諸多現(xiàn)實需求,因此具備多維度 AI 數(shù)據(jù)集中處理能力的多模態(tài) AI 芯片將成必由之路。
黃偉同時指出,面向 5G 萬物智聯(lián)時代,人工智能服務需提供更加場景化的解決方案,云+芯一體化的服務模式將成為行業(yè)主流?;诖?,他進一步對傳統(tǒng) SOC(System onChip)概念提出全新定義,其中 S 代表不同的 AI 服務能力即 Skills,O 代表云端與邊緣側(cè)的互動 On/off Cloud,C 代表具備智能處理能力的 AI 芯片。
從 IVM 到雨燕,云知聲的造芯之路
云知聲 2014 年開始切入物聯(lián)網(wǎng) AI 硬件芯片方案(IVM),并于 2015 年開始形成量產(chǎn)出貨,其中家居領域客戶覆蓋格力、美的、海爾、長虹、海信、華帝等幾乎所有國內(nèi)一線家電廠商。在深入場景提供服務的過程中,為彌補通用芯片方案在給定成本和功耗條件下的能效比問題,以及在邊緣算力、多模態(tài)AI 數(shù)據(jù)處理方面的能力短板,2015 年云知聲正式啟動自研 AI 芯片計劃。
去年 5 月 16 日,云知聲正式發(fā)布了旗下花近三年自主研發(fā)打造的首款物聯(lián)網(wǎng) AI 芯片。該芯片采用云知聲自主 AI 指令集,擁有具備完整自主知識產(chǎn)權(quán)的 DeepNet1.0、uDSP(數(shù)字信號處理器),并支持 DNN/LSTM/CNN 等多種深度神經(jīng)網(wǎng)絡模型,性能較通用方案提升超 50 倍。
發(fā)布芯片后僅四個月,云知聲便選擇將基于雨燕的解決方案進行開源,于去年 9 月正式推出智能家居、智能音箱的兩套標桿解決方案。通過“云端芯”結(jié)合,提供給客戶與合作伙伴面向具體場景的軟硬件一體化 Turnkey 解決方案,可讓客戶站在更高的設計起點、以更低的成本,在更短的時間周期內(nèi)打造出更穩(wěn)定可靠的產(chǎn)品。同時,開源的方案也可確??蛻艋谝烟峁┑?AI 能力自行設計其它各種長尾產(chǎn)品形態(tài),構(gòu)建更為豐富的 AIoT 生態(tài)。
目前,基于雨燕芯片的全棧解決方案已導入的各類方案商及合作伙伴已超過 10 家,包括美的、奧克斯、海信、京東、360、中國平安、硬蛋科技等,相關產(chǎn)品最早將于 Q1 量產(chǎn)上市。
物聯(lián)網(wǎng) AI 芯片的多模態(tài)演進之路
在第一代 UniOne 芯片雨燕的發(fā)布會上,云知聲聯(lián)合創(chuàng)始人李霄寒曾指出, UniOne 并不是一顆芯片,而是一系列芯片,代表了云知聲對于物聯(lián)網(wǎng) AI 芯片發(fā)展戰(zhàn)略的整體構(gòu)想。在今日舉行的云知聲 2019 多模態(tài) AI 芯片戰(zhàn)略發(fā)布會上,李霄寒再次從三方面論證了物聯(lián)網(wǎng)多模態(tài) AI 芯片的必要性。他認為,當前物聯(lián)網(wǎng)產(chǎn)品線的 AI 芯片越來越明顯地體現(xiàn)出三個趨勢:
首先是場景化。芯片設計正在由原來的片面追求 PPA ,即性能(Power)、功耗(Performance)和面積(Area)逐漸演變成基于軟硬一體,甚至包括云端服務的方式來解決某個垂直領域的具體問題,芯片本身上升成為整個解決方案中的重要部分,而非唯一;
其次,端云互動。在物聯(lián)網(wǎng)的不同應用場景下,海量終端設備要實現(xiàn)功能智能化必須端云配合,即形成邊緣算力和云端算力的動態(tài)平衡。端云互動的命題需要AI 芯片的強有力支持,進一步也深刻影響到芯片的設計,以及最終的交付;
再者,數(shù)據(jù)多模態(tài)。在以 5G 驅(qū)動的萬物智聯(lián)場景下,芯片所接觸到的數(shù)據(jù)維度將由原來的單一化走向多元化,芯片所需處理的數(shù)據(jù)也由單模態(tài)變成多模態(tài),這對芯片尤其是物聯(lián)網(wǎng)人工智能芯片的設計提出了新的挑戰(zhàn)。
結(jié)合以上三點,李霄寒認為,物聯(lián)網(wǎng) AI 芯片的最終呈現(xiàn)形式將不再是一個單一的硬件,而必然是承載著邊緣能力與云端能力的多模態(tài)AI 軟硬一體解決方案。
云知聲多模態(tài) AI 芯片技術布局
為實現(xiàn)多模態(tài) AI 芯片的戰(zhàn)略落地,目前云知聲已在加速技術布局,并在機器視覺方面取得飛速進展。其中,面向機器視覺的輕量級圖像信號處理器已可實現(xiàn)在不依賴外部內(nèi)存的情況下,在 30fps 的速率下實時對傳感器的圖片進行預處理,以進一步提高后續(xù)機器視覺處理模塊的處理速度和效果。借助基于人臉信息分析的多模態(tài)技術,已可實現(xiàn)人臉/物體識別、表情分析、標簽化、唇動狀態(tài)跟蹤等功能,可為產(chǎn)品交互和用戶體驗提供更多的可玩性和靈活性。
尤為值得一提的是,云知聲多模態(tài)人工智能核心 IP——DeepNet2.0 的發(fā)布,標志著云知聲人工智能處理核心由 1.0 語音時代全面邁入 2.0 融合語音、圖像等處理能力的多模態(tài)時代。DeepNet2.0 可兼容 LSTM/CNN/RNN/TDNN 等多種推理網(wǎng)絡,支持可重構(gòu)計算與 Winograd 處理,最高可配置算力達 4T,達行業(yè)一流水平。目前云知聲DeepNet2.0 已在 FPGA 上得到驗證,將在 2019 年落地的全新多模態(tài) AI 芯片海豚(Dolphin)上落地。
除此之外,在圖像與芯片技術的產(chǎn)學研合作方面,云知聲還與杜克大學所領導的美國自然科學基金旗下唯一人工智能計算中心——ASIC 達成深度合作,致力于算法壓縮與量化技術與基于存內(nèi)計算等的新計算架構(gòu)研究,將進一步為云知聲多模態(tài) AI 芯片戰(zhàn)略的推進夯實基礎。
三款在研芯片曝光,2019 年啟動量產(chǎn)
在首款量產(chǎn)芯片雨燕已有大批客戶導入,占領市場先發(fā)優(yōu)勢的背景下,2019 年云知聲在芯片落地規(guī)劃方面仍將保持積極態(tài)度。
李霄寒透露,在持續(xù)迭代升級現(xiàn)有雨燕芯片的性能與服務之外,目前云知聲多款面向不同方向的芯片也已在研發(fā)中,包括適用性更廣的超輕量級物聯(lián)網(wǎng)語音 AI 芯片雨燕 Lite,集成云知聲最先進神經(jīng)網(wǎng)絡處理器 DeepNet2.0,可面向智慧城市場景提供對語音和圖像等多模態(tài)計算支持的多模態(tài)AI 芯片海豚(Dolphin),以及與吉利集團旗下生態(tài)鏈企業(yè)億咖通科技共同打造的面向智慧出行場景的多模態(tài)車規(guī)級AI 芯片雪豹(Leopard)。以上三款芯片計劃于 2019 年啟動量產(chǎn)。
目前,依托在家居、車載等真實場景下豐富的產(chǎn)品經(jīng)驗,以及具備先發(fā)優(yōu)勢的 AI 芯片能力,云知聲將業(yè)務覆蓋到包括智能家居、智能汽車、智能兒童機器人、智慧酒店、智慧交通等諸多場景。未來云知聲將持續(xù)發(fā)力多模態(tài) AI 芯片,不斷拓展技術與場景生態(tài),以實現(xiàn)面向未來 AIoT 時代的全面賦能。
以下是發(fā)布會速記,有刪減(速記有個別字疏漏諒解):
黃偉:尊敬的陳國良院士大家下午好,感謝今天所有當場的嘉賓和朋友,今天是2019一個工作日,非常感謝大家把2019第一個工作日下午留給云知聲,留給我30分鐘,來聽我單口相聲。在過去一年發(fā)生很多事,我們經(jīng)營很困難,但是我們收獲很多信任,2019我們相信也注定是不平凡的一年,不平凡在哪兒?不是說困難年的開始,我相信2019是人工智能真正規(guī)?;a(chǎn)業(yè)落地的第一年。所以我特別榮幸我們在一起來見證一下人工智能怎么樣在產(chǎn)業(yè)化里面規(guī)?;?。
今天應該講是云知聲走過第六個年頭,我也非常感慨,我自己CEO連續(xù)給我的員工發(fā)了六年年終獎這也是一個貢獻,過去六年存在很多挑戰(zhàn),2012年的時候我們定義非常清楚,云知聲我們是一家面向互聯(lián)網(wǎng)的企業(yè),我們只是從云技術切入,2012年可能很多人才第一次接觸智能手機,2012年我們很多人剛剛接觸移動APP,但是我們相信在未來我們連接的不只是人類,我們連接的是互聯(lián)網(wǎng),我們相信在不遠的將來一定會實現(xiàn)萬物互聯(lián)、萬物智聯(lián),所以我們希望能夠用人工智能技術為互聯(lián)網(wǎng)來進行布局。
談到物聯(lián)網(wǎng)其實和傳統(tǒng)的PC互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)不同,那就意味著我們有更多的設備更多的設備形態(tài),回想2010年之前我們的互聯(lián)網(wǎng)巨頭,他們的市值,他們的盈利是多少?但是我們今天看看face book,看看騰訊有多少收入,我們就可以從歷史向互聯(lián)網(wǎng)時代,隨著更多場景介入,對整個社會整個產(chǎn)業(yè)帶來了巨大的作用。所以我相信在互聯(lián)網(wǎng)時代,更多的設備,更多的品類必將會導致更大商業(yè)機會,更大商業(yè)機會一定會對我們的技術能力提出更高的要求。所以說作為一家創(chuàng)業(yè)公司,你如何用非常有限的資源,為市場為客戶提供出更好更多的能力,我相信這是每一個創(chuàng)業(yè)公司都要思考的問題,如果你沒有思考這個問題,你還是用著PC時代或者移動互聯(lián)網(wǎng)時代來應付我們即將到來的時代,我相信你的能力和市場區(qū)域之間一定會有差異,你很難保證團隊可以適應這個市場競爭。
所以這是基于很多對未來互聯(lián)網(wǎng)時代,它對于這個技術的要求,所以很早我們就開始一些架構(gòu)布局,我們從2012年,2013年,我們最開始到今天我們搭建了操作平臺,為了能夠給客戶提供更多AI能力,所以我們從一開始非常注重頂層機器學習平臺搭建,我們搭建了一個分布式技術平臺,這是基于算法的,所以云知聲能夠出來業(yè)界第一個云識別能力,自然語言理解能力,語義合成能力,機器翻譯能力等等。
那么有了能力還是不夠的,能力也要跟場景結(jié)合,好像說我是內(nèi)力非常深厚還要需要跟你的能力產(chǎn)品對接,我們2014年希望通過云端芯這種統(tǒng)一的產(chǎn)品體系能夠深入,為我們的客戶提供支持,提供服務。我們在云端提供AI Service,我們同事要在不同設備終端提供AI交互能力,我們要提供到移動端,能夠滿足用戶在移動端上對技術和能力要求。
在過去六年里云知聲從2012年到2014年,那個時候我們做的是團隊最擅長的事情,就是把算法平臺化,通過算法平臺化云知聲構(gòu)建了云端芯體系,從2018年開始我們把場景和算法結(jié)合定了云端芯體系,我們在不同場景去開拓。接下來我們做什么,我們要構(gòu)建產(chǎn)品?;仡櫫昀铮浦曃覀儽种鴪猿挚拼笮S?,談不上我們做了哪些特別大的,了不起的東西,但是我們云知聲六年做了三件事情。
2012年可能學術界很多人還沒有聽說過什么叫深度學習,什么叫(英),云知聲在2012年我們就開始把深度學習應用于語音識別技術,并且把深度學習確定整個公司的技術戰(zhàn)略方向。今天我們知道在2016年3月份,在阿法狗之后,我們幾乎所有人都知道AI。在2016年前我們正確的確定了未來的戰(zhàn)略方向。在2014年的時候我們就意識到,算力和算法必須完美融合在一起,在2014年我們就確定要把云端芯一體化,在2015年我們開始決定啟動了我們的芯片計劃,2015年我們對芯片認識就開始不一樣了,芯片是高端制造業(yè),我們甚至把芯片歸為夕陽產(chǎn)業(yè),我們還是定義為傳統(tǒng)產(chǎn)業(yè),但是沒有看到技術進步對計算能力的追求。
今天來看,也許我們在算法在產(chǎn)品戰(zhàn)略,在對技能云數(shù)據(jù)方面有了認識,有了很好的能力,那么云知聲選擇了兩個場景,分別是AI生活和AI服務,2014年初云知聲開始設計語音識別,那個時候我們沒有看到我在家里可以不通過搖控器可以控制的設備,回到家的時候我一邊脫鞋子一邊說,把燈打開,這是我下的定義。我們今天去國美會看到,幾乎所有的帶語音交互設備無論是海爾、美的的幾乎無一例外都在使用云知聲語音交互。
在2014年的時候我們相信未來的車一定是智能的,未來的車主一定通過網(wǎng)絡服務來導航,來聽歌曲,來查找附近的美食,所以2015年我們開始把車載分案提交給市場,到今天我們在后端市場已經(jīng)擁有差不多1800套設備,我們有接近40款前端的車型,2017年我們認為家庭會變成智能化,我們開始推出家庭智能方案,到今天為止有300個執(zhí)行方案。云知聲2015年AI能力跟產(chǎn)品需求結(jié)合在一起,到今天我們的醫(yī)院已經(jīng)超過五百多家布局,這里面80%以上都是非常頭部的,包含北京協(xié)和醫(yī)院,上海的礦山醫(yī)院等等,同樣的我們也把AI的能力給我們互聯(lián)網(wǎng)公司進行運作。在今年我們還陸續(xù)在金融,在客服等等方面布局。
其實2017年就有很多人說,我們都說創(chuàng)業(yè)公司不行,說是不是想法太多了,人家做AI你還做芯片,其實他們不知道云知聲從來沒有專門的教育,也沒有專門的家具,在云知聲我們只不過從場景落地,我們通過滿足場景需求,我們具備了在這個場景里為這個用戶提供某一種需求,某一種能力。正是云知聲在2014年確定了云端芯一體化戰(zhàn)略,才使得我們在有限情況下可以快速的在場景下布局。有了技術還有相對產(chǎn)品的規(guī)劃,后面需要經(jīng)過漫長的迭代。2018年很多朋友跟我講,今年業(yè)績又下滑了,確實如此。2018年很多行業(yè)都會遇到各種各樣的問題,但可能就是云知聲的產(chǎn)品與未來的市場變化,我們做了很多準備工作,所以在2018年也許是厚積薄發(fā)。
我們有的公司在分蛋糕,是說明市場需求已經(jīng)有了,大家只是說這個刀怎么切的問題,云知聲做了很多事情,我們現(xiàn)在做的,無論是在教育、醫(yī)療、智能家具,車等等,云知聲都是行業(yè)領域的先河者,我們都是在這個場景,我們有創(chuàng)新的技術和體系,我們第一個來做,而且做出規(guī)模。
另外云知聲的收入構(gòu)成,我們今年的收入都是來自于芯片,我們看似幾個億的營業(yè)額銷售額帶動的產(chǎn)值可能是幾十億甚至上百個億,我們沒有去做任何系統(tǒng)性的。我們投資公司的時候,特別是2B公司,人工產(chǎn)值如果把兩個組合在一起的話,相信今天在AI里面我們是一個頗具分量的,為什么能做?因為我們在過去,我們堅持一個正確的商業(yè)化的方式。所以今天我們不光在2018年,根據(jù)現(xiàn)有的產(chǎn)品開發(fā),我們甚至可以預測在2019年相比于2018年依然會有增長,甚至在純粹的市場環(huán)境中的能力,我相信我們接下來會遇到很多問題。
其實過去很多O2O、P2P等等,現(xiàn)在有朋友問我說,你羨慕嗎?其實我一點不羨慕,因為我做云知聲是一個事業(yè),我覺得是在平凡中更偉大,有的時候慢一點打好基礎。雖然說過去六年里面云知聲取得了一點點成績,這其實都是我們在這個時代里要做的。
什么是5G?這里面什么叫G?我們在看的過程中從2G、3G這種感覺,2G的時候我們干什么?最多在手機上看小說。3G時代云知聲誕生的時候剛好是3G時代,那個時候我們在手機上看圖片,4G來臨,今天快手、抖音等等,但是我們發(fā)現(xiàn)5G相比3G、4G可能會是一個質(zhì)變。今天我們對社會可視的對話,但是基本我們其是感覺比較生硬,現(xiàn)在全息各種各樣的,我們甚至可以說可以3D看到每個人的表情。所以5G對于未來改變的不只是網(wǎng)絡速度,甚至改變形態(tài),甚至還有行業(yè),所以5G對于4G是革命性的變化。
5G的三個典型特征,更寬的寬帶,更低的時延,廣闊的覆蓋。5G會給我們每個人的生活帶來改變,5G會使得我們今天從人和人之間的連接,到萬物的互聯(lián),每個人之間,每個設備之間,5G引用應用的大爆炸,車聯(lián)網(wǎng)、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)等等,而且我們今天可能會從手機的時代,手機的互聯(lián)擴展到各種行業(yè),連接爆炸和應用爆炸加快,比方說我開車的時候車聯(lián)網(wǎng),接收其他行業(yè)的信息,他會產(chǎn)生大量的數(shù)據(jù),而且數(shù)據(jù)會發(fā)給平臺。
舉個例子,終端未來越來越多的數(shù)據(jù),什么叫做智能,我非常贊同一句話,只有耳朵沒有眼睛是不全面的,所以我相信未來的智能終端,一定是多維的。算力之外,還需要有深入場景提供服務能力。場景里面我們需要什么?我們需要解決問題,計算能力基礎,計算能力之上。
所以我們今天有必要再定義SOC,什么叫SKill?在AI時代我們是打開一個鏈接進入一個網(wǎng)址,移動互聯(lián)網(wǎng)時代打開手機找出我們想實現(xiàn)的功能,幫助你訂機票訂酒店等等,所以未來通過SKill這個方式來做一些事情。那么是不是SKill只在云端,SKill既存在云端也存在其他地方,這個城市我們需要很多攝像頭、傳感器,如果我們所有數(shù)據(jù)都是網(wǎng)絡傳到云端,所有的數(shù)據(jù)會占據(jù)很多帶寬,會占據(jù)很多資源,如果每個攝像頭本身都具備能力,不見得所有的數(shù)據(jù)都需要,4G剛來的時候流量用不完,但是發(fā)現(xiàn)抖音來了以后不夠用。如果說我們完成一些工作,讓變的云端更加有用的,更強的終端,讓云變的更強,端跟云的互補能夠讓能力在場景里面配合。
正是因為云端互相的能力,(英)所以終端本身也必須具備一個能夠支持芯片算法的NPU,這個NPU支持語音任務,你還可以支持視頻。重新定義了SOC之后,云端會變成更加靈活,只有這樣我們才能在5G+IOT+AI時代來臨的時候,我們才有更好的能力,我們要通過這種方式來構(gòu)建我們的場景優(yōu)勢。其實我并不知道還會遇到多少困難,2012年當我們把云識別開放的時候,中國還沒有云計算,2014年我們開始做云的時候,2015年我們做芯片的時候,所以每一年都會有變化,為什么?因為創(chuàng)業(yè)過程中最難走的路才是捷徑,我們也希望進一步支持幫助我們,我們也堅信我們走的道路是順利的,謝謝大家!
主持人:有請云知聲聯(lián)合創(chuàng)始人李霄寒博士,為我們來正式揭曉云知聲多模態(tài) AI 芯片戰(zhàn)略與布局。
李霄寒:大家好!各位領導,各位老師,各位朋友,各位合作伙伴們,陳老師、吳主任大家下午好,今天是2019的1月2日是第一個工作日,非常感謝大家把一個下午時間交給云知聲,今天下午由我?guī)ьI大家回顧一下云知聲過去的歷程!當前人工智能物聯(lián)網(wǎng)面臨什么挑戰(zhàn),我們對它的思路,以及2018云知聲做的一些積累取得的一些成功,以及2019云知聲將有一個非常宏大的芯片技術。
首先我們來看一下我們這個時代,我們現(xiàn)在處在一個互聯(lián)網(wǎng)時代,我們所有人都經(jīng)歷過個人電腦和移動終端時代,在這兩個時代有什么差別?他們在核心方面有什么不一樣?我們認為有幾點,首先是社會數(shù)量的增長,個人電腦時代是以家庭為單位,移動互聯(lián)網(wǎng)設備以人為單位,所以有了提升。在物聯(lián)網(wǎng)時代,我們每一個人未來都可能有一個兩個三個多個N個互聯(lián)網(wǎng)設備,所以設備的數(shù)量會呈現(xiàn)大規(guī)模爆發(fā)狀態(tài),對于這個產(chǎn)業(yè)鏈所有玩家來講都是一個巨大規(guī)模。
第二點就是連接成本更低一點,在既有的藍牙、WIFI一些比較成熟的,我們可以看到5G方興未艾,這些連接手段發(fā)展,為物聯(lián)網(wǎng)設備的連接成本會使得他降到非常的低廉,這種低廉一方面是金錢一方面是帶寬成本!同樣條件下可以傳輸更多的數(shù)據(jù)。
第三數(shù)據(jù)維度變的復雜多樣,PC時代我們所收集的數(shù)據(jù)無非是鍵盤的點擊,移動互聯(lián)網(wǎng)手機的數(shù)據(jù)包括GPS包括用戶很多其他數(shù)據(jù)化,在物聯(lián)網(wǎng)時代更傾向于人體交互,所以會產(chǎn)生對物聯(lián)網(wǎng)設備提出新要求,最后是應用場景。我們再也不可能像移動時代那樣生產(chǎn)一款芯片手機上面可以有很多應用,在物聯(lián)網(wǎng)時代風扇的物聯(lián)網(wǎng)平臺和空調(diào)的物聯(lián)網(wǎng)平臺肯定是不一樣,可能只有幾個應用,所以這些不同和對物聯(lián)網(wǎng)和以前的時代創(chuàng)造出一些新的變化,這些變化給我們帶來了挑戰(zhàn),也給我們所有人創(chuàng)造新的機會。
物聯(lián)網(wǎng)時代非常重要的命題,把能力下沉到設備端,和移動時代不一樣,移動時代和PC時代都可以用手機,在物聯(lián)網(wǎng)時代風扇和空調(diào)不會共用一個平臺,這就意味著最終端的硬件上面會產(chǎn)生跟以前不一樣的變化,所以物聯(lián)網(wǎng)必須解決最終端的硬件問題,云知聲是怎么解決的呢?
在2014年云知聲提出了云端芯的產(chǎn)品技術架構(gòu),我們認為物聯(lián)網(wǎng)時代下任何一個產(chǎn)品都會具有這三個部分,都會用云端芯這三個部分組成,僅僅強調(diào)其中一個都是不行的,是解決不了當下人們的需要,所以我們開發(fā)了IDM的產(chǎn)品,在2015正式量產(chǎn),經(jīng)過這幾年的發(fā)展有了非常多客戶,出貨量也呈規(guī)模性增長。一直到今天我們在這個領域仍然是獨一無二的老大。
在我們2015取得階段性成果,當時就面新一個問題,來自業(yè)務端的問題,我把它叫做來自戰(zhàn)術的挑戰(zhàn)。第一個挑戰(zhàn)我們要處理的數(shù)據(jù)當時是語音, 大家用紅外搖控器和觸屏完全不一樣,需要基于深度進行互聯(lián),對于算力提出更高要求,我們的方法就是用更好的算法提供更好的需求,很明顯帶來一個負作用成本增加,硬件對于成本是非常敏感的。比如家電,我的成本沒增加一塊錢,在硬件成本采購商一塊錢,意味著我的用戶承擔五倍價值增加,也就你的產(chǎn)品采購云知聲的產(chǎn)品一百塊錢,就意味著你最終的成品售價要增加五百塊錢左右,但是如果你原來的產(chǎn)品是一個風扇只賣一兩百怎么去涵蓋吸收五百塊錢的價值增長,所以這個問題對于印象,對于五千塊錢以下的成本都是成立的。
另外一個功耗的問題,更多的算力意味著更多的功耗,對于插電的產(chǎn)品可能成立,但是對于電視工業(yè)的成本肯定不行,所以這是我們面臨非常迫于眉睫的問題,這是2015年的問題。但是僅僅業(yè)務端的挑戰(zhàn)還是淺薄了一些,我們在那個時間點看到了一些不太一樣的,也就是所謂的戰(zhàn)略端的考量。
首先我們看到在我們做的產(chǎn)品之外,在我們面向整體的市場,它其實是一個物聯(lián)網(wǎng)市場。他在接觸用戶,跟用戶打交道注定是有新數(shù)據(jù)導入,比如語音、頭像、手勢等等這些數(shù)據(jù)需要處理,要進行更好效能要進行基于深度神經(jīng)網(wǎng)絡的法,這就意味著我需要在終端提供更加充分的算力,這是一個事實。
另外一個有約束就是成本的約束,在規(guī)定成本和條件下怎么提供不同的算法,基于通用性是不是最優(yōu)的,不太適合做大規(guī)模矩陣的神經(jīng)性網(wǎng)絡的計算,它是低效的,所以左邊和右邊這兩個是一個根本性矛盾,是我們做物聯(lián)網(wǎng)、人工智能設計的時候不可回避的矛盾,只要物聯(lián)網(wǎng)往前發(fā)展成本仍然是一個不可忽略的點,那這個矛盾就永遠存在,我們的使命就是要去解決這個矛盾,那怎么解決?我們的看法就是基于深度學習的新硬件勢在必行,簡單來講就是做邊緣側(cè)人工智能芯片,所以我們2015下決心做這個事情,我們看到了一個趨勢。這個趨勢我們可以抓住,在今年這個時間點我們就可以比別人好,所以我們勇敢革自己的命,所以這是我們2015年整體項目的思路。
我們2016在做團隊的模式,2017年項目到了實際階段。2018年1月份做了一個MPW,2018年5月份做了一個盛大的發(fā)布,6月份我們正式啟動量產(chǎn),9月份我們做了另外一個事情,9月12日發(fā)布了基于雨燕的方案。9月份之后我們的芯片設計團隊轉(zhuǎn)入了圖像IP設計。
這一頁是(英)第一代產(chǎn)品,也就是我們發(fā)布雨燕整體的介紹,它的架構(gòu)是一個非常典型的芯片,我們做了兩件事情一件是(英)專門做音頻數(shù)據(jù)處理,第二個做了人工智能數(shù)據(jù)處理器,面向音頻的人工智能神經(jīng)處理器。當把這個人工處理器集成進去以后效果是顯而易見的,相對于通用芯片AI(英)提升了50倍。在硬件設備方面,因為這個芯片是高度集成的,所以外圍的線路使得很大的成本降低三分之一。
9月12日我們發(fā)布了開源方案,我們在這個芯片上做了很多工作,我們?nèi)斯ぶ悄芤娣派先ミM行調(diào)優(yōu),我們?yōu)檫@個硬件應用還設計了APP,客戶拿過去如果正好符合他的要求,那他直接跟產(chǎn)品做連接就可以突破,不用再拿芯片找人工智能的服務商,人的服務商,手機的開發(fā)商,我們給他是一個完整的方案。在這個時間點上多家客戶做產(chǎn)品導入,在測試、開發(fā)、生產(chǎn),所以我們會有雨燕產(chǎn)品在市場上出現(xiàn)。
2019年第一個工作日這個時間點,我們之前做了很多事情,有必要去回顧一下,展望一下未來物聯(lián)網(wǎng)人工智能芯片到底該怎么做,他到底在他的發(fā)展路線需要考慮什么核心因素,這是我們必須要思考的。首先連接、安全和PPA,無論是藍牙還是5G還是WIFI,你總要考慮連接方式,這是一個核心點。
第二個安全,芯片物聯(lián)網(wǎng)意味著別人也可以到達你的芯片,我們不希望生產(chǎn)一個攝像頭被人家黑掉,轉(zhuǎn)到黑客服務器,這樣你的產(chǎn)品就再也賣不出去了,所以安全以及云端的安全是物聯(lián)網(wǎng)必須要擴率的。
第三個PPA,是(英)性能、功耗和面積這三個是做物聯(lián)網(wǎng)芯片要考慮得,如果我們做AI物聯(lián)網(wǎng)芯片僅僅考慮這三個是不夠的。
第一個場景化,我們看到我們在面向客戶提供方案的時候,我們需要針對某個場景做不同事情,不光做軟件,很有可能你的芯片為這個產(chǎn)品而生。就像剛才講的,如果面向風扇或者開關去做物聯(lián)網(wǎng)芯片,跟我們做汽車和電視這樣的物聯(lián)網(wǎng)芯片,從云到芯片本身會有質(zhì)的變化,產(chǎn)品功能功耗會有非常大差異,所以場景化我認為是物聯(lián)網(wǎng)人工智能芯片考慮得第一個因素。
第二個因素多模態(tài),這個場景我們出現(xiàn)很多了,我們認為物聯(lián)網(wǎng)既然要以各種方式接觸到人,物聯(lián)網(wǎng)人工智能芯片必須具備多模態(tài)數(shù)據(jù)的能力,這是第二個。
第三個端云互動,什么意思?物聯(lián)網(wǎng)芯片是聯(lián)網(wǎng)的,芯片只是一個排頭兵,他通過到達終端服務用,所以這個是非常重要的。僅僅設計一款芯片是解決不能能力到達端的問題。這三點是我認為互聯(lián)網(wǎng)AI芯片在這個時間點需要重點考量的三個要素。
所以用一句話把我剛才的觀點概括,就是需要面向基于端云互動提供多模態(tài),在性能、功耗面積上達到優(yōu)異的平衡,并兼顧連接和安全的需求。
需求的場景化,我把它概括成一句話,這個也是大家業(yè)界的共識,基本是從PPA到APP,PPA三個要素(英),我現(xiàn)在設計目標就是在盡可能小的功能上,提高最好的性能,這是PPA的核心。但是在人工智能上,僅僅關注PPA不久,我們需要關注APP,我們最后向客戶提供的是一個包含APP的,需要整體角度考量。從PPA到APP發(fā)生了一些變化,從通用的芯片變成了面向網(wǎng)絡垂直來提供芯片,第二從單純的提供芯片,變成了提供方案,芯片上的軟件,有能力,有云端服務。第三就是從提供硬件變成能力,這是一個具體的場景化。
第二個端云互動,邊緣的計算可以看成云計算的補充和優(yōu)化,而且云計算始終都是一體的,我舉個例子,這個圖上面部分是一個功能,叫做語音喚醒,下面是芯片,邊緣算力來承擔語音方面的功能,比如印象或者電視你問你好了嗎,他會回復你,接下來你進行一段有趣的對話。音響半夜里會忽然大笑把人嚇一跳,背后的原理很簡單,就是某些自然界的噪音發(fā)出,就把這個設備喚醒,設備以為就是人在喊它,然后它就聽到的話就是給我笑一下,不知道原來的話是什么,但是被機器解讀成了給我笑一下,所以在人沒有聽到任何聲音的時候,機器出來一個怪笑,所以這就是喚醒和不喚醒之間的一個矛盾。
我們科學家要做的盡可能提高喚醒率的上面提升邊緣算力,但是不是唯一一個方式,我保持邊緣算力,當我識別發(fā)到云端之后,在云端用更加的模型進一步分析,他到底有沒有真的在喊我。當他確認的時候,又發(fā)現(xiàn)用戶繼續(xù)提交新的語言過來之后,他繼續(xù)笑一下或者做別的反應,理論上它可以用最精簡的模型,所以可以把一些東西規(guī)避掉了,所以這是一個非常典型的例子。如果一個廠商說我在云端上做的是最好的,這樣可能不夠,你需要有更加完美的解決方案來提供給你的客戶。
多模態(tài),我這里舉個例子,美的空調(diào),有一個攝像頭是通過一個矩陣去觀測屋里的狀態(tài),如果小朋友在風就避開他,往別的方向去吹。還有如果小朋友晚上登被子上皮膚會感覺溫度比較低,它會自動提升溫度,是非常好的一個功能,這是多模態(tài)一個非常典型的例子。機器人就不用說了,無論是陪伴機器人還是教育機器人,除了跟人自由對話,還期待認識我們,教小朋友讀書,認識單詞等等,所以要求機器人必須具備多模態(tài)功能。車載能夠用語音導航,能夠看到路面的狀態(tài),告訴我狀況,還有你困了,要停下休息。還有一個IP攝像頭,它的核心功能錄像,如果它聽到聲音的時候就把感興趣的東西拍下來,傳說去,所以這就是多模態(tài)在各個領域的剛性需求的一些例子。
基于以上的我們可以得出一個結(jié)論,重新定義SOC,在今天這個時間點僅僅做(英)可能不太就,我們需要做的是(英),這個可能來自于本地的算力,本地的引擎,也可能來自于云端的能力,我們需要在這個上面集成更多更優(yōu)秀的(英),所以端云互動,場景化,多模態(tài)這幾個因素會非常深刻的影響到芯片的設計,影響到芯片的定位,影響到你的成本、功耗還有你對芯片的需求,所以芯片需要面向綜合考慮得一個事,這是我們對這個事情的理解。
基于這個理解云知聲做了什么工作呢?第一個我們發(fā)布了垂直化(英)方案,我們把所有軟件硬件場景都做好了,客戶拿來就用,不需要再去找更多供應商,這也是我們未來芯片銷售,芯片服務提供的一個核心產(chǎn)品模式。
第二點我們叫做ADPC,專門面向端云互動,(英)在2012年公司成立之后,9月份我們就推出語音識別功能,經(jīng)過六年多發(fā)展已經(jīng)發(fā)展成面向物聯(lián)網(wǎng)每天用量達到5億次的巨大云平臺,我們對這個平臺開發(fā)了ADPC模式。
第三個我們在芯片設備方面有兩個輸出,一個叫做(英)是非常輕量的圖片處理單元。DeepNet2.0是我們面向多模態(tài)開發(fā)的深度神經(jīng)網(wǎng)絡處理器,這款處理器有非常多很好的涉及,目前在業(yè)界也出了非常多不錯的,至少在我看來是非常好的一個產(chǎn)品,后面我還會講到。
ADPC是我們的AI深度處理核心,這個方框是我們云平臺的架構(gòu),暗的地方跟云平臺可能沒有太大差別,但是我們有一個AI的數(shù)據(jù)處理核心,用它跟云端連接,當我們端處理完數(shù)據(jù),會把一部分的數(shù)據(jù)提交給云端,由云端做深度的分析,就像我剛才舉的例子,如果只有右面的例子我們可能只會提供一個95分的產(chǎn)品,如果有了云端的時候我們會提供一個98的產(chǎn)品,所以有了云端互動可能你的產(chǎn)品是最優(yōu)秀的。
這是我們(英)的介紹,這是面向機器視覺輕量級的圖像服務器,一個是面向機器視覺,第二個是輕量級,讓人看這個圖片看起來會更加的舒服,更加精細,但是它不一定更加適合機器視覺,所以(英)是專門面向機器視覺得,所以他支持任何圖像縮小,(英)給一個圖片,通過這個模塊可以實時縮小,后面的神經(jīng)網(wǎng)絡比較舒服的處理,這是他一個重要功能。
第二個做動態(tài)自動的曝光控制,這個圖人眼已經(jīng)很難看出寫的什么,但是就機器識別力,會出現(xiàn)在他里面,他很有可能會識別不到,但是通過(英)識別把暗處提高,使得可清晰度有了大幅度提升,所以使得后面的圖像處理更加的容易。
第三點我們其他還支持8、10、12bit圖像輸入,他不需要外部的內(nèi)存是一個非常小的模塊,把這個圖片輸入給后面的神經(jīng)網(wǎng)絡得到更好的視覺過,這是我們的(英)。僅僅這樣可能還不夠,我們在2019計劃會跟BlinkAI合作,它是來自于哈佛的團隊,基于深度學習的算法圖象處理。左邊這個圖片比較小,是三星的處理之后是在光照的情況下,右邊也是處理過,所以看到效果非常,整個亮度增加,對比度增加,所以我們也會在2019跟BlinkAI探討這方面合作,在充沛算力支持情況下進一步提升效果。
再一個DeepNet1.0,是面向語音的,但是在2.0里面我們添加了很多是面向多模態(tài)的,既可以處理圖像,又可以處理語音。為什么我們會做這個DeepNet2.0,IP就是知識產(chǎn)權(quán),實際在芯片設計里面IP是已經(jīng)驗證過軟件的模塊,IP決定人工智能的合理性,這是里面最核心的部分。
它有幾個特點,首先支持多種的兼容網(wǎng)絡,我們在1.0里面主要支持LSTM和CNN這兩個主要面向語音識別,在2.0里面我們支持更多,比如RNN,TDN,所以在兼容里做到非常高水平。
第二個可重構(gòu)計算,我們都知道一些算法是有規(guī)定的,可能會有一些高頻率的出現(xiàn),如果這個高頻率用硬件實現(xiàn)可以由一個非常高的飛躍。在DeepNet2.0支持可重構(gòu)計算,他的計算單元可以去拼接應對計算模式,你換一個模式也可以通過快速組合,用一條指令來計算公式。
第三個支持Winograd,芯片做乘法的時候耗時是遠遠高于加法的,我們想用于多加法就可以實現(xiàn)這是可行的,這是核心思想。我們支持Winograd使乘法降低到原來的一半進一步提升效率。
它還有其他的一些,比如支持多NPU組網(wǎng),我在設計芯片B的時候需要更高算力,拿兩個NPU組網(wǎng)進行多算法組合,這是他非常好的靈活的特性。在2018年最后一周我們把DeepNet2.0正式成功一直到了STPA的板上,大家可以看到這是效果。所以人像識別的算法,基于DeepNet2.0,已經(jīng)運行在STPA上了。
這里是一些橫向的指標對比,也相對比較專業(yè),我盡量用比較淺顯的語言解釋一下。對于NPO來講一個核心的指標是算力,還有一個核心指標功耗,如果算力除以功耗就是一個非常有趣的,我們預計在28納米這樣一個工藝條件下,我們是有優(yōu)勢的。
有了那么好的DeepNet2.0,那么好的一個算力提供者,在上面好的應用算法有什么進展?首先是我們超聽限的同向降噪技術,什么是超聽限,就是超越聽力的極限,讓機器可以聽到人聽不到的東西。聲音的東西很難向各位去描述,右下角是我們的芯片,裝備了四個麥克風,這個音響是用來放噪音的,他播的聲音是人的對話,然后我們后面站著這位演示者,他是一個命令發(fā)布者,會向這個藍色的板去發(fā)指令,大家如果視頻里面聽到你有什么分咐,意味著這個成功了,會漏出一個藍色的。這個藍色是一個能量儀,目前這個聲音是93.2,人的聲音聽到一般是在60-70,所以在這個場景下他在負3左右,已經(jīng)超越人力的聽力極限了,人已經(jīng)聽不到了。我接下來會播放這個聲音,我會揭曉里面最精彩的部分。這個聲音準確被我們的芯片捕捉并且做出反映,同相降噪,人和噪音源還有麥克風三點呈一線,機器是很難分別,所以這對于技術提出更高挑戰(zhàn)。
接下來我們在圖像上的,云知聲是一家做語音的公司,或者以語音為公眾所知的公司,但是實際我們在2018年已經(jīng)投入了很多資源做圖像的事情,也有很多進展,我們之所以從語音潛入到圖像,因為我們有很好的硬件平臺,分布式的機器學習,所以我們的數(shù)據(jù)可以在這個上面很快的處理,迭代。
這個表格里面列了兩個比賽,這也是業(yè)界兩個非常有名的人臉測試儀,可以看到云知聲的識別率99.8。除了人連識別我們還有物體識別、表情分析、顏值分析,標簽化,我們做這些事情不是為了樂趣,而是為了在物聯(lián)網(wǎng)場景,在芯片設計過程中需要用的。
這是我們的人臉識別和表情分析以及標簽化的案例??梢钥吹轿覀儨蚀_的抓住了他的性格,表情,還有一點我們可以捕捉他的表情,他有沒有微笑。在機器場景下用戶有沒有微笑是非常重要的,在車載里面用戶有沒有疲勞駕駛這也是非常重要的。在一個場景會有多個目標,我們需要對每一個目標進行相應的反應。
還有一個有趣的,是我們的唇動狀態(tài),在同一個場景誰有說話誰沒有說話通過食品捕捉到,它有一個非常有趣的功能是在人機對話里,在嘈雜的環(huán)境里,通過單一模態(tài)他不知道是在向誰說話,但是有了視覺可以有捕捉到信息,通過對人唇動的追蹤,可以獲取到唇語相關詳細,所以這在多模態(tài)的人機交互里是很重要的,很榮幸我們也做到了。
前面講我們做到一些事情,我們不僅腳踏實地做產(chǎn)品、技術和算法,同時我們也奧適度仰望星空,我們正式成為新型可持續(xù)智能計算中心的創(chuàng)始會員,在整個2019我們會跟杜克大學共同去研究AI芯片壓縮量化技術,以及非馮新型AI芯片計算架構(gòu),我們是為了證明云知聲在智能方面是認真的,我們還要做研究,我們要始終把我們的水平保持在業(yè)界一流,希望我們在未來芯片領域能夠有所開拓。
我們在2018年形成一個非常重要的合作,我們跟億咖通科技合作面向智能出行共同打造車規(guī)級AI智能芯片。整個2018年的成績已經(jīng)給大家匯報完了。
后面跟大家宣布一下2019年我們準備做的幾個重要的事情。第一個我們會開發(fā)一款新的產(chǎn)品雨燕-Lite,它會更加的輕,仍然是面向語音的場景,但是它會非常的輕薄,所以我們計劃2019會去投產(chǎn)這款芯片。第二個面向智慧城市,我們這塊一直沒有涉及過,今天宣布通過芯片切入到智慧城市建設之中,我們會在2019投產(chǎn)一款多模態(tài)的芯片,這個芯片會繼承我們的DeepNet2.0和(英),所以它不僅僅支持雨燕功能,他還會支持攝像頭、ISP、OD、人臉識別這是我們在2019年非常大的投入。第三個雪豹,我們會跟億咖通科技合作推行車載人工智能芯片,他的功能和前面的芯片有一個不一樣,會針對車載場景,可能會斷網(wǎng)沒有網(wǎng)絡連接,可能會有一些奇奇怪怪情況,會更加著重本地算力,我們會提供本地的語音搜索,在沒有網(wǎng)絡狀況下通過語音導航選址,所以做本地的語言路徑,可以做一些相應的圖像處理等等,這款產(chǎn)品會在2019年投產(chǎn)。
在2015年的這個時間點,我們真心沒有想過2018年我們會推出云知聲自己的芯片,我們不光做出來了而且還賣出去了,性能還在業(yè)界領先水平,在2018年這個時間點我沒有想到,我們除了雨燕之外,我們在人工智能芯片上會走的更遠,會扎的更深,我們會出現(xiàn)多模態(tài)等等方面,包括核心的NPO、IT方面有這么多收獲,我們相信我們明年這個時間點在各位的鼎力支持下我們做的一定會比我們說的更好更快更強,謝謝大家!
主持人:感謝李博士的精彩發(fā)言,給我們帶來非常多的干貨滿滿。接下來,我們要有請的是360集團副總裁、360智慧城市事業(yè)部總裁 穆鴻為我們帶來演講,讓我們一起來聽聽360與云知聲之間都有哪些精彩碰撞!
穆鴻:各位來賓大家下午好!非常榮幸有這個機會能夠過來跟大家一起分享一下360在人工智能以及跟云知聲合作當中的一些收獲。我今天講的這個題目叫安全大腦用心守護大安全,因為360應該是現(xiàn)在國際最大的網(wǎng)絡安全公司,我們其實在整個發(fā)展過程當中,人工智能對整個360整個集團發(fā)展非常關鍵。我們從2018年提出來未來整個安全的態(tài)勢非常的嚴峻,必須使用新方法來解決安全問題,這就是我們?nèi)ツ晏岢龅陌踩竽X。
過去大家比較熟悉的就是360免費殺毒,我們在2010年的時候提出了一些基于AI的殺毒功能引擎,我們現(xiàn)在已經(jīng)成為最大的搜索引擎工作,我們2013年也推動了一些智能硬件,我們智能硬件在市場上都處于第三的位置,我們家用攝像頭也處在前三的位置,我們360還有智能機器人,智能門鈴,等一系列的智能硬件。2015年360開始進入,因為我們有大量互聯(lián)網(wǎng)能量,我們進入了直播、金融相關領域,剛剛我們金融也在美國上市。
從2017年開始我來領導公司往AI這方面做轉(zhuǎn)型,整個360的業(yè)務線都會適用AI來做業(yè)務線,更重要的我們?nèi)ツ晖瞥龅陌踩竽X,通過大量的安全數(shù)據(jù)的分析來解決這個安全問題。360從2018年回顧到A股,我們的業(yè)務逐步往安全做轉(zhuǎn)型,具體的公司業(yè)務我們有三個大的,第一個國家的安全級涉及到國家大的安全網(wǎng)絡,后面的兩個跟今天主題有很大關系,第一個城市安全大腦,主要是利用各種傳感器捕捉的集中數(shù)據(jù)解決城市的安全問題,從我們過去的網(wǎng)絡安全到現(xiàn)在物理安全問題,包括行車安全、社區(qū)安全,這也是我領導現(xiàn)在業(yè)務方向。
另外一個,加了一個安全大腦業(yè)務,我們認為未來守護整個家庭的安全僅僅靠一些硬件是不行的,必須有大量的AI參與,我們的核心能力就是家庭安全大腦,通過各種傳感器的收集,通過邊緣的AI計算能力能夠處理家庭的一些威脅。前面幾個大腦的核心是構(gòu)建一個人機協(xié)同的人工智能。
第一方面通過數(shù)據(jù)算力發(fā)揮機器價值,未來希望價值做的事情機器去做,但是人有不同于機器很多點,包括人的知識、經(jīng)驗創(chuàng)造力,這些是機器沒有辦法取代的,所以通過人機協(xié)同最近解決我們所面臨的一些問題。這里主要指是安全按照。
在實行過程中最重要的是選擇芯片,當然云知聲也是我們一個重要合作伙伴,我基本上把市場上幾十家公司的芯片都做了很多測試對比研究,其實在我們這個芯片選擇過程當中,大概從我們這個角度而言,我們基本首先考慮我們的場景,這個人工智能一定要跟場景結(jié)合起來,單純考慮芯片是沒有意義的。在場景情況下,我需要一個簡單的算力,在算力情況下考慮能耗,因為不同的地方對能耗的需求是不一樣的。
對我而言,對一個商業(yè)公司而言價值也是非常關鍵的因素,當我把前面相應的考慮完了之后,就會考慮價值,每一個公司都會考慮價值。大家其實很容易忘到一點,工具鏈,我們講一個產(chǎn)品用到工具連非常重要,整個產(chǎn)品的架構(gòu),以及整個成熟度對我們選擇非常關鍵。我們原來做的一些模型一些積累能不能在新的芯片上使用,這在我選擇新的過程當中是非常重要的。現(xiàn)在市場上有幾種,一種是云端訓練的,典型的GPO或者谷歌突出的TPO,還有云端推出的一些,現(xiàn)在百花齊放更多是在設備端的推理上,這里面也列出了國內(nèi)外一些公司,當然云知聲的雨燕也在上面可以看到,這是我選芯的一個基礎。
其實從我的角度更多我要考慮的場景,第一個是我這個算法的性能,這個大家可以看到不同的架構(gòu)的處理。第二個考慮整個人工智能的成本,這個當然可以看到專用的芯片幾個方面,成本比較低,在我們很多智能家居,因為產(chǎn)品是比較固定的。我們360重點要實現(xiàn)幾個大腦,第一個是家庭安全大腦,它新的需求響應速度,如果你所有都推到云端去做,在網(wǎng)絡差的情況下,怎么提供更好的體驗的時候,在本地響應會很快。
第二個安全跟隱私的問題,這個在智能家居里也非常重要,我們?yōu)槭裁醋鲞吘売嬎?,我們?yōu)槭裁粗攸c強調(diào)芯片問題,就考慮安全跟隱私占非常重要一個方面。第三面可靠性問題,網(wǎng)絡連接一旦發(fā)生問題,如果所有處理在云端的話,可靠性是得不到保證的。第四個整個成本開銷,早期如果芯片價值比較貴,我把所有都放在云端上,這對云端的壓力比較大,這實際是一個平衡問題。整個智能邊緣要做一個協(xié)同,再一個特別是我們安全的時候?qū)λ惴ǖ慕Y(jié)果要求非常高,比如安全檢測漏報率,我們不可以出現(xiàn)漏報率,當然這個出現(xiàn)也比較低,再一個其實我們也意識到對于一個家庭安全而言,不僅僅要能看能聽能說,還有其他的接入你的數(shù)據(jù),這就驗證了我們場景對多模態(tài)的需求,我們要使得場景率大幅度提升。
第三個成本問題,這是講2C這塊。我們講家庭安全大腦,當然這個大腦可能是一個虛的概念,它將來硬件可能在智能音響里或者其他設備里面呈現(xiàn)。再一個我們面臨2B或者2C的城市安全上,這里提到整個智慧城市建設正在經(jīng)歷一個轉(zhuǎn)型期,什么叫新型的智慧城市建設,這里要強調(diào)怎么樣改變業(yè)務發(fā)展或者城市管理的的動力,從被動發(fā)展轉(zhuǎn)變?yōu)橹鲃影l(fā)展。
第二個從一些新的技術手段,使得原來被動管理變成主動管理。第三個我們希望通過人工智能引入,提高辦事效率,當然在整個方案里,2B跟2C成本沒有那么大,但是在幾個方案里還是非常重要的要素。比如說我們的攝像頭數(shù)據(jù),我們可能一個設備要處理幾百個攝像頭的數(shù)據(jù),第三依然多模態(tài)的學習,更多的大數(shù)據(jù)需要進行多模態(tài)的處理,第四個成長開銷,這是我們大概360對未來的一個簡單的需求,以及一些方案的著眼點。
我們在選擇芯片合作伙伴的時候我們有一些選擇,第一個場景理解,我們認為一個技術合作伙伴如果不理解場景,很難提供一個好的解決方案。在我們選擇過程當中遇到多家公司,他們基本沒有辦法對場景進行理解。第二個我覺得他要提供一個技術掌控力,跟先進的技術掌控力是非常明顯的。第三個很多AI公司為了掌控形成所謂的解決方案綁定的關系,他把方案做的非常死,你沒有辦法定義方案的算法,這個時候我們強調(diào)方案的靈活性也是非常關鍵。第四個方案的殺傷力,這里面玻璃特別看到一個公司的內(nèi)部,因為特別是人工智能芯片他更多還有一些運營,所以這個關系到硬件、軟件和運營,對大量的大數(shù)據(jù)的收集處理,這個其實是非常重要的。所以數(shù)據(jù)運營能力也是我們非??粗械狞c。
我在360負責整個公司的技術體系,我們是實際測試的一些結(jié)果,這個基本涵蓋了業(yè)界最定級提供語音的解決方案,這是我們真實測試出來的結(jié)果,為了方便,我把這些對應的公司都隱掉了,只有云知聲,云知聲基本在所有的指標里面都是第一個,這是我們實際測試出來的結(jié)果。因為我原來對云知聲不是很熟悉,但是真正測試下來覺得云知聲的內(nèi)容非常強,我覺得他們的優(yōu)點主要是幾個方面。
第一個對語音語義的場景理解,可以感覺在這個行業(yè)是深耕的,第二個實測表現(xiàn)能力非常強,你測試好我就用你。第三個跟我們360深度合作的融合性相繼,因為這個云知聲提供了各種各樣的解決方案,你定制了自己的一些模塊算法包括布局的形態(tài)都做的非常好,這個靈活性也足夠。第四個通過今天發(fā)布會,我也看到云知聲一直以來技術的前瞻性和戰(zhàn)略設計方面有特點,這四點都是符合我對前面的芯片定位。有一塊就是價格這塊,其他的我都是非常滿意的。
我們也在做語音芯片的一些集成的測試,作為合作伙伴來,我其是第一個恭喜云知聲,云知聲特別的努力,確實做出了很好的成績。第二我也向各位來推薦云知聲,今天簡單就說這么多,謝謝大家!
主持人:感謝穆總的分享。接下來讓我們有請云知聲戰(zhàn)略伙伴,來自京東IoT創(chuàng)新硬件的王雅卓總經(jīng)理,有請王總!
王雅卓:首先非常高興也非常榮幸,能夠見證2019云知聲多模態(tài)AI芯片戰(zhàn)略發(fā)布會,接下來我們介紹一下IOT在科技創(chuàng)造美好這個場景下現(xiàn)在正在做的和未來將要做的事。剛才也提到過去三十年經(jīng)過了幾個時代,互聯(lián)網(wǎng)時代,移動互聯(lián)網(wǎng)時代以及現(xiàn)在的IOT時代。
移動互聯(lián)網(wǎng)時代我們當時智能手機,功能手機的多個呈現(xiàn),當時我們提比如一款手機有可能是智能機,可能是功能機,現(xiàn)在大家的手機都變成了智能機。IOT時代,現(xiàn)在是智能設備和非智能設備,我相信將來所有的設備都是智能設備。物聯(lián)網(wǎng)現(xiàn)在發(fā)展非常迅速,各行各業(yè)這個投入也非常大,目前有三個環(huán)境,大量數(shù)據(jù)沒有連接形成了數(shù)據(jù)孤島,這是連接層面沒有做高。第二海量數(shù)據(jù)只是數(shù)字,并沒有基于數(shù)字創(chuàng)造價值,公司對于數(shù)據(jù)的處理能力欠缺。第三數(shù)據(jù)不智能,這也是我們需要加強的。
AI和物聯(lián)網(wǎng)的相互結(jié)合可以促進多個產(chǎn)業(yè)往前發(fā)展,比如智能家具、配送機器人這些行業(yè)都在無時無刻深入發(fā)展,對我們的產(chǎn)業(yè)進行推動。大家更多以為京東是一個零售公司,但實際上京東更是數(shù)字經(jīng)濟與實體深度融合的企業(yè),過去京東人臉識別、無人車方面都取得非常大成就,同時京東的技術從原來的支撐業(yè)務現(xiàn)在變成了主導業(yè)務。
物聯(lián)網(wǎng),物指的是實體經(jīng)濟,網(wǎng)指的是互聯(lián)網(wǎng)經(jīng)濟,在PC、手機、AR、VR我們現(xiàn)在實現(xiàn)了邊聽邊買,邊讀邊買,我們現(xiàn)在實現(xiàn)了移動收獲、人臉識別支付,遠程投敵,在這些實現(xiàn)了線上線下融合。在過去京東很多技術上實現(xiàn)了多個第一,2015年第一臺多功能音響,2016年第一架鄉(xiāng)村送貨無人機,2017年第一個全流程的無人倉,2018年首個機器人配送站在長沙試點進行,解決了最后一公里的難題。
我們隨著平臺不斷擴大,技能不斷提升,我們在2018年12月份全面升級了平臺,就是現(xiàn)在的小京魚平臺,覆蓋了物聯(lián)網(wǎng)平臺、大數(shù)據(jù)平臺、智能服務平臺??匆幌滦【~平臺的語言技術、云計算技術、圖像識別技術以及(英)協(xié)議,(英)協(xié)議我們已經(jīng)為千萬級用戶提供了服務,已經(jīng)工作了四年。應用服務層我們和頭部的兒童的內(nèi)容,包括電臺還有有聲讀物都形成了非常好合作,目的就是為了給用戶更好的體驗。平臺生態(tài)層,我們和解決方案商、技術廠商都形成了非常好的合作,能夠把硬件產(chǎn)品快速落地。
京東追求全品類、更多品牌,我們目前京東的品類有200多個,品牌超過500個,產(chǎn)品超過2000個,服務家庭超過1000萬,京東同時擁有AIT最大價值的數(shù)據(jù)鏈,比如京東高凈值用戶達到3億多,這部分我們可以拿到精準用戶畫像,同時對用戶需求一個精準把控,對產(chǎn)品進行定義。同時設備控制次數(shù)達到5.7億次,這些數(shù)據(jù)可以優(yōu)化傳統(tǒng)功能,我們在線時長超過1千億個小時,這些運行的數(shù)據(jù)提供了服務和質(zhì)量。
看一下小京魚的硬實體,包括語音識別達到90%,自然語言理解能力達到96%,語音合成達到90%以上,圖象識別達到97%,ARVR模型還原度達到99%。同時我們還有全國最多的技能,滿足用戶的衣食住行各種需求,同時我們在12月份發(fā)布了三款產(chǎn)品,包括兩款耳機還有自己的音響。我們做小京魚這個產(chǎn)品主要是目標是打造有品質(zhì)、有能量、有溫度的產(chǎn)品。有品質(zhì)是指在京東上購物的用戶一樣,希望高品質(zhì)的生活。有能量說明我們的性能非常強大,能夠給用戶帶來更多需求。有溫度產(chǎn)品非常智能,能夠讓設備更加懂你。
小京魚智能也是一個全面開放的平臺,助力行業(yè)重塑提升,為了IOT行業(yè)整體的提升盡自己的努力。我們有最廣泛技術的布局,包括互聯(lián)互通,邊緣計算,語音視覺交互。還有軟硬件一體化平臺,包括物聯(lián)網(wǎng)平臺,大數(shù)據(jù)平臺,智能服務平臺,還有C端的音響、冰箱、耳機等等,這些產(chǎn)品同時也會給行業(yè)的其他用戶賦能,包括用戶更快的完成自己的產(chǎn)品。同時我們京東在渠道方面,通過線上線下的支持也會把產(chǎn)品打造的更好。因為產(chǎn)品一方面要做的好,還得需要賣的出去才能觸達到用戶。
京東IOT和云知聲是多年的合作伙伴,基于云知聲在AI芯片以及系統(tǒng)解決方案的能力和優(yōu)勢,我們將和云知聲一道共同構(gòu)建面向零售、家居、車載等多個場景的AI技術生態(tài)。我們的愿景是用科技創(chuàng)造美好生活,我們希望讓自己成為讓用戶受益的自由創(chuàng)新者,讓行業(yè)興奮的技術合作伙伴,同時助力中國從制造向智造轉(zhuǎn)變,謝謝大家!
來源:汽車俱樂部Plus
本文地址:http://autopag.com/news/renwu/85347
以上內(nèi)容轉(zhuǎn)載自汽車俱樂部Plus,目的在于傳播更多信息,如有侵僅請聯(lián)系admin#d1ev.com(#替換成@)刪除,轉(zhuǎn)載內(nèi)容并不代表第一電動網(wǎng)(autopag.com)立場。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。