“拍照優(yōu)化、語(yǔ)音助手以外,手機(jī)AI還有什么?”
今年全新一代驍龍8移動(dòng)平臺(tái)發(fā)布時(shí),高通再次翻譯翻譯了,什么叫腦洞大開——
讓手機(jī)學(xué)會(huì)“聽診”,通過識(shí)別出用戶可能存在的疾病,比如抑郁癥、哮喘;
讓手機(jī)實(shí)現(xiàn)“防偷窺”,通過識(shí)別陌生用戶的視線,實(shí)現(xiàn)自動(dòng)鎖屏;
讓手機(jī)游戲搞定超分辨率,將以往PC端才有能力運(yùn)行的畫質(zhì),搬到手機(jī)上體驗(yàn)……
更重要的是,這些AI功能,驍龍8有能力**同時(shí)運(yùn)行**!
高通聲稱,驍龍8搭載的第7代AI引擎,性能相比上一代最高提升了**4倍**。
這意味著我們玩手機(jī)的時(shí)候,同時(shí)“多開”幾個(gè)AI應(yīng)用也沒問題。更重要的是,它不僅僅是簡(jiǎn)單的AI性能提升,更能給用戶帶來流暢的應(yīng)用體驗(yàn)感。
在硬件制程升級(jí)如此艱難的今天,高通是如何在第7代AI引擎的性能和應(yīng)用上“翻”出這么多新花樣的?
我們翻了翻高通發(fā)表的一些研究論文和技術(shù)文檔,從中找到了一些“蛛絲馬跡”:
在高通發(fā)布的AIMET開源工具文檔里,就有提到關(guān)于“如何壓縮AI超分辨率模型”的信息;
在與“防偷窺”相關(guān)的一篇技術(shù)博客中,介紹了如何在隱私保護(hù)的前提下使用目標(biāo)檢測(cè)技術(shù)……
而這些文檔、技術(shù)博客背后的頂會(huì)論文,全都來自一家機(jī)構(gòu)——高通AI研究院。
可以說,高通把不少研究院發(fā)表的AI論文,“藏”在了第7代AI引擎里。
頂會(huì)論文“藏身”手機(jī)AI
先來看看第7代AI引擎在**拍照算法**上的提升。
針對(duì)智能識(shí)別這個(gè)點(diǎn),高通今年將面部特征識(shí)別點(diǎn)增加到了300個(gè),能夠捕捉到更為細(xì)微的表情變化。
但同時(shí),高通又將人臉檢測(cè)的速度提升了**300%**。這是怎么做到的?
在一篇高通發(fā)表在CVPR上的研究中,我們發(fā)現(xiàn)了答案。
在這篇文章中,高通提出了名為Skip-Convolutions(跳躍卷積)的新型卷積層,它能將前后兩幀圖像相減,并只對(duì)變化部分進(jìn)行卷積。
沒錯(cuò),就像人的眼睛一樣,更容易注意到“動(dòng)起來的部分”。
這使得驍龍8在做目標(biāo)檢測(cè)、圖像識(shí)別等實(shí)時(shí)檢測(cè)視頻流的算法時(shí),能更專注于目標(biāo)物體本身,同時(shí)將多余的算力用于提升精度。
可能你會(huì)問,這樣細(xì)節(jié)的人臉識(shí)別對(duì)于拍照有什么用?
更進(jìn)一步來說,這次高通與徠卡一起推出了Leica Leitz濾鏡,用的是基于AI的智能引擎,其中就包括了人臉檢測(cè)等算法,使得用戶能更不經(jīng)思考智能地拍出更具藝術(shù)風(fēng)格的照片。
不止人臉檢測(cè),高通在智能拍攝上所具備的功能,還包括超分辨率、多幀降噪、局部運(yùn)動(dòng)補(bǔ)償……
然而,在高分辨率拍攝中的視頻流通常是實(shí)時(shí)的,AI引擎究竟如何智能處理這么大體量的數(shù)據(jù)?
同樣是一篇CVPR論文,高通提出了一個(gè)由多個(gè)級(jí)聯(lián)分類器組成的神經(jīng)網(wǎng)絡(luò),可以隨著視頻幀的復(fù)雜度,來改變模型所用的神經(jīng)元數(shù)量,自行控制計(jì)算量。
面對(duì)智能視頻處理這種“量大復(fù)雜”的流程,AI現(xiàn)在也能hold住了。
智能拍照以外,高通的語(yǔ)音技術(shù)這次也是一個(gè)亮點(diǎn)。
像開頭提到的,第7代AI引擎支持用手機(jī)加速分析用戶聲音模式,以確定哮喘、抑郁癥等健康狀況的風(fēng)險(xiǎn)。
那么,它究竟是如何準(zhǔn)確分辨出用戶聲音,而且又不涉及收錄數(shù)據(jù)的?
具體來說,高通提出了一種手機(jī)端的聯(lián)邦學(xué)習(xí)方法,既能使用手機(jī)用戶語(yǔ)音訓(xùn)練模型,同時(shí)保證語(yǔ)音數(shù)據(jù)隱私不被泄露。
像這樣的AI功能,有不少還能在高通AI研究院發(fā)表的論文中找到。
同樣也能尋到蛛絲馬跡的,是開頭提及的AI提升手機(jī)性能的理論支撐。這就不得不提到一個(gè)問題:
**同時(shí)運(yùn)行這么多AI模型,高通究竟是怎么提升硬件的處理性能的?**
這里就不得不提到高通近幾年的一個(gè)重點(diǎn)研究方向**“量化”**了。
從高通最新公布的技術(shù)路線圖來看,模型量化一直是AI研究院這幾年鉆研的核心技術(shù)之一,目的就是給AI模型做個(gè)“瘦身”。
由于電量、算力、內(nèi)存和散熱能力受限,手機(jī)使用的AI模型和PC上的AI模型有很大不同。
在PC上,GPU動(dòng)輒上百瓦功率,AI模型的計(jì)算可以使用16或32位浮點(diǎn)數(shù)(FP16、FP32)。而手機(jī)SoC只有幾瓦功率,也難存儲(chǔ)大體積AI模型。
這時(shí)候就需要將FP32模型縮小成8位整數(shù)(INT8)乃至4位整數(shù)(INT4),同時(shí)確保模型精度不能有太大損失。
以AI摳圖模型為例,我們以電腦處理器的算力,通常能實(shí)現(xiàn)十分精準(zhǔn)的AI摳圖,但相比之下,如果要用手機(jī)實(shí)現(xiàn)“差不多效果”的AI摳圖,就得用到模型量化的方法。
為了讓更多AI模型搭載到手機(jī)上,高通做了不少量化研究,發(fā)表在頂會(huì)上的論文就包括**免數(shù)據(jù)量化**DFQ、**四舍五入機(jī)制**AdaRound**,以及聯(lián)合量化和修剪技術(shù)**貝葉斯位**Bayesian Bits等。
其中,DFQ是一種無數(shù)據(jù)量化技術(shù),可以減少訓(xùn)練AI任務(wù)的時(shí)間,提高量化精度性能,在手機(jī)上最常見的視覺AI模型MobileNet上,DFQ達(dá)到了超越其他所有方法的最佳性能:
AdaRound則可以將復(fù)雜的Resnet18和Resnet50網(wǎng)絡(luò)的權(quán)重量化為4位,大大減少了模型的存儲(chǔ)空間,同時(shí)只損失不到1%的準(zhǔn)確度:
貝葉斯位作為一種新的量化操作,不僅可以將位寬度翻倍,還能在每個(gè)新位寬度上量化全精度值和之前四舍五入值之間的殘余誤差,做到在準(zhǔn)確性和效率之間提供更好的權(quán)衡。
這些技術(shù)不僅讓更多AI模型能以**更低的功耗**在手機(jī)上運(yùn)行,像原本只能在電腦上運(yùn)行的游戲AI超分辨率*(類似DLSS)*,現(xiàn)在實(shí)現(xiàn)能在驍龍8上運(yùn)行的效果;
甚至其中一些AI模型,還能“同時(shí)運(yùn)行”,例如其中的姿態(tài)檢測(cè)和人臉識(shí)別:
事實(shí)上,論文還只是其中的第一步。
要想快速將AI能力落地到更多應(yīng)用上,同樣還需要對(duì)應(yīng)的更多平臺(tái)和開源工具。
將更多AI能力釋放到應(yīng)用上
對(duì)此,高通保持一個(gè)開放的心態(tài)。
這些論文中高效搭建AI應(yīng)用的方法和模型,高通AI研究院通過合作、開源等方法,將它們分享給了更多開發(fā)者社區(qū)和合作伙伴,我們也因此能在驍龍8上體驗(yàn)到更多有意思的功能和應(yīng)用。
**一方面,高通與谷歌合作,將快速開發(fā)更多AI應(yīng)用的能力分享給了開發(fā)者。**
高通在驍龍8上搭載了谷歌的Vertex AI NAS服務(wù),還是每月更新的那種,意味著開發(fā)者在第7代AI引擎上開發(fā)的AI應(yīng)用,其模型性能也能快速更新。
采用NAS,開發(fā)者就能自動(dòng)用AI生成合適的模型,包括高通發(fā)表在頂會(huì)上的智能拍照算法、語(yǔ)音翻譯、超分辨率……都能包含在AI的“篩選范圍”中,自動(dòng)為開發(fā)者匹配最好的模型。
這里用上了高通的運(yùn)動(dòng)補(bǔ)償和插幀等算法。而類似于這些的AI技術(shù),開發(fā)者們也都能通過NAS實(shí)現(xiàn),還能讓它更好地適配驍龍8,不會(huì)出現(xiàn)“調(diào)教不力”的問題。
想象一下,你將來用搭載驍龍8的手機(jī)打游戲時(shí),會(huì)感覺畫面更流暢了,但是并不會(huì)因此掉更多的電(指增加功耗):
同時(shí),關(guān)于AI模型的維護(hù)也變得更簡(jiǎn)單。據(jù)谷歌表示,與其他平臺(tái)相比,Vertex AI NAS訓(xùn)練模型所需的代碼行數(shù)能減少近80%。
**另一方面,高通也已經(jīng)將自己這些年研究量化積累的工具進(jìn)行了開源。**
去年,高通就開源了一個(gè)名為AIMET*(AI Model Efficiency Toolkit)*的模型“提效”工具。
其中包含如神經(jīng)網(wǎng)絡(luò)剪枝、奇異值分解(SVD)等大量壓縮和量化算法,有不少都是高通AI研究院發(fā)表的頂會(huì)論文成果。開發(fā)者用上AIMET工具后,就能直接用這些算法來提效自己的AI模型,讓它更流暢地在手機(jī)上運(yùn)行。
高通的量化能力也不止開源給普通開發(fā)者,同樣能讓頭部AI企業(yè)的更多AI應(yīng)用在驍龍8上實(shí)現(xiàn)。
在新驍龍8上,他們與NLP領(lǐng)域知名公司Hugging Face進(jìn)行合作,讓手機(jī)上的智能助手可以幫用戶分析通知并推薦哪些可優(yōu)先處理,讓用戶對(duì)最重要的通知一目了然。
在高通AI引擎上運(yùn)行它們的情緒分析模型時(shí),能做到比普通CPU速度快30倍。
正是技術(shù)研究的沉淀和技術(shù)上保持的開放態(tài)度,才有了高通不斷刷新手機(jī)業(yè)界的各種AI“新腦洞”:
從之前的視頻智能“消除”、智能會(huì)議靜音,到今年的防窺屏、手機(jī)超分辨率……
還有更多的論文、平臺(tái)和開源工具實(shí)現(xiàn)的AI應(yīng)用,也都被搭載在這次的AI引擎中。
而一直隱藏在這些研究背后的高通AI研究院,也隨著第7代AI引擎的亮相而再次浮出水面。
高通AI的“軟硬兼?zhèn)洹?/strong>
大多數(shù)時(shí)候,我們對(duì)于高通AI的印象,似乎還停留在AI引擎的“硬件性能”上。
畢竟從2007年啟動(dòng)首個(gè)AI項(xiàng)目以來,高通一直在硬件性能上針對(duì)AI模型提升處理能力。
然而,高通在AI算法上的研究,同樣也“早有籌謀”。
2018年,高通成立AI研究院,負(fù)責(zé)人是在AI領(lǐng)域久負(fù)盛名的理論學(xué)者M(jìn)ax Welling,而他正是深度學(xué)習(xí)之父Hinton的學(xué)生。
據(jù)不完全統(tǒng)計(jì),高通自成立AI研究院以來,已有數(shù)十篇論文發(fā)表在NeurIPS、ICLR、CVPR等AI頂級(jí)學(xué)術(shù)會(huì)議上。
其中,至少有4篇模型壓縮論文已在手機(jī)AI端落地實(shí)現(xiàn),還有許多計(jì)算機(jī)視覺、語(yǔ)音識(shí)別、隱私計(jì)算相關(guān)論文。
上述的第7代AI引擎,可以說只是高通近幾年在AI算法研究成果上的一個(gè)縮影。
通過高通AI的研究成果,高通還成功將AI模型拓展到了諸多最前沿技術(shù)應(yīng)用的場(chǎng)景上。
在自動(dòng)駕駛上,高通推出了驍龍汽車數(shù)字平臺(tái),“包攬”了從芯片到AI算法的一條龍解決方案,目前已同25家以上的車企達(dá)成合作,使用他們方案的網(wǎng)聯(lián)汽車數(shù)量已經(jīng)達(dá)到2億輛。
其中,寶馬的下一代輔助駕駛系統(tǒng)和自動(dòng)駕駛系統(tǒng),就將采用高通的自動(dòng)駕駛方案。
在XR上,高通發(fā)布Snapdragon Spaces XR了開發(fā)平臺(tái),用于開發(fā)頭戴式AR眼鏡等設(shè)備和應(yīng)用。
通過和Wanna Kicks合作,驍龍8還將第7代AI引擎的能力帶到了AR試穿APP上。
在無人機(jī)上,高通今年發(fā)布了Flight RB5 5G平臺(tái),其中有不少如360°避障、無人機(jī)攝影防抖等功能,都能通過平臺(tái)搭載的AI模型實(shí)現(xiàn)。其中首架抵達(dá)火星的無人機(jī)“機(jī)智號(hào)”,搭載的就是高通提供的處理器和相關(guān)技術(shù)。
回過頭看,不難發(fā)現(xiàn)這次高通在AI性能上不再?gòu)?qiáng)調(diào)硬件算力(TOPS)的提升,而是將軟硬件作為一體,得出AI性能4倍提升的數(shù)據(jù),并進(jìn)一步強(qiáng)化AI應(yīng)用體驗(yàn)的全方位落地。
這不僅表明高通更加注重用戶實(shí)際體驗(yàn)的感受,也表明了高通對(duì)自身軟件實(shí)力的信心,因?yàn)橛布呀?jīng)不完全是高通AI能力的體現(xiàn)。
可以說驍龍8第7代AI引擎的升級(jí),標(biāo)志著高通AI軟硬一體的開端。
最近,高通針對(duì)編解碼器又提出了幾篇最新的研究,分別登上了ICCV 2021和ICLR 2021。
這些論文中,高通同樣用AI算法,展現(xiàn)了針對(duì)編解碼器優(yōu)化的新思路。
在一篇采用GAN原理的研究中,高通最新的編解碼器算法讓圖像畫面不僅更清晰、每幀也更小了,只需要14.5KB就能搞定:
相比之下,原本的編解碼算法每幀壓縮到16.4KB后,樹林就會(huì)變得無比模糊:
而在另一篇用插幀的思路結(jié)合神經(jīng)編解碼器的論文中,高通選擇將基于神經(jīng)網(wǎng)絡(luò)的P幀壓縮和插幀補(bǔ)償結(jié)合起來,利用AI預(yù)測(cè)插幀后需要進(jìn)行的運(yùn)動(dòng)補(bǔ)償。
經(jīng)過測(cè)試,這種算法比谷歌之前在CVPR 2020上保持的SOTA紀(jì)錄更好,也要好于當(dāng)前基于H.265標(biāo)準(zhǔn)實(shí)現(xiàn)開源編解碼器的壓縮性能。
將AI模型應(yīng)用于更多領(lǐng)域中,高通已經(jīng)不是第一次嘗試,像視頻編解碼器的應(yīng)用,就又是一個(gè)新的方向。
如果這些模型能成功被落地到平臺(tái)甚至應(yīng)用上,我們?cè)谠O(shè)備上看視頻的時(shí)候,也能真正做到不卡。
隨著“軟硬一體”的方案被繼續(xù)進(jìn)行下去,未來我們說不定真能看見這些最新的AI成果被應(yīng)用到智能手機(jī)上。
結(jié)合高通在PC、汽車、XR等領(lǐng)域的“秀肌肉”……
可以預(yù)見的是,你熟悉的高通、你熟悉的驍龍,肯定不會(huì)止于手機(jī),其AI能力,也將不止于手機(jī)。
(本文內(nèi)容轉(zhuǎn)載自量子位)
官方微博:@全影網(wǎng) https://weibo.com/7192com
官方微信:想在手機(jī)上獲取最新鮮資訊嗎?添加全影網(wǎng)官方微信:www7192com
本站部分內(nèi)容、觀點(diǎn)、圖片、文字、視頻來自網(wǎng)絡(luò),僅供大家學(xué)習(xí)和交流,真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾。如果本站有涉及侵犯您的版權(quán)、著作權(quán)、肖像權(quán)的內(nèi)容,請(qǐng)聯(lián)系我們(0536-8337192),我們會(huì)立即審核并處理。
近日,2024至2025賽季國(guó)際雪聯(lián)單板及自由式滑雪大跳臺(tái)世界杯、
在影視制作、表演現(xiàn)場(chǎng)、綜藝錄制等高度協(xié)作的專業(yè)領(lǐng)域,無線通信
近日,億歐智庫(kù)發(fā)布“2024新國(guó)貨CoolTop100品牌榜”報(bào)告及榜單,
掃描訪問手機(jī)版