當(dāng)前位置:首頁  媒體華園

南方財經(jīng):廣東科技向“新”力丨華南理工大學(xué)徐向民、賈奎:顛覆水下作業(yè),讓機(jī)器人在渾濁水下也看得清

時間:2024-10-22供稿單位:黨委宣傳部瀏覽量:11

分享到

南方財經(jīng)10月19日訊(記者 吳佳楠)如今,我們正步入大模型賦能千行百業(yè)的智能化時代,這也意味著對海量數(shù)據(jù)抓取、計算的使用需求增加。比如在視覺計算方面,需要解決高質(zhì)量圖像增強(qiáng)、海量數(shù)據(jù)快速計算、復(fù)雜場景視覺分析等問題。

但由于復(fù)雜大模型的參數(shù)空間大、大數(shù)據(jù)帶來大計算量、精準(zhǔn)感知能力不如人腦,視覺數(shù)據(jù)的高效率處理挑戰(zhàn)巨大,加上海量數(shù)據(jù)計算也帶來巨大的開銷,這些進(jìn)而成為大模型全面覆蓋的瓶頸。

近日,2023年度廣東省科學(xué)技術(shù)獎揭曉,華南理工大學(xué)的視覺智能計算項(xiàng)目——基于認(rèn)知機(jī)理與物理規(guī)律的視覺計算理論與方法,獲得廣東省自然科學(xué)獎一等獎。 

據(jù)了解,為解決上述視覺計算難題,該項(xiàng)目在視覺計算模型中加入物理規(guī)律和認(rèn)知機(jī)理的知識,限定模型優(yōu)化邊界,減少復(fù)雜度同時提升性能,為人工智能模型的發(fā)展提供借鑒,從而推動大模型的落地應(yīng)用,目前,項(xiàng)目成果已進(jìn)入示范應(yīng)用與產(chǎn)業(yè)化推廣階段。在獲獎之際,項(xiàng)目第一完成人、華南理工大學(xué)徐向民教授以及第二完成人賈奎教授接受了包括南方財經(jīng)全媒體記者在內(nèi)的媒體采訪。

他們表示,視覺計算有眾多應(yīng)用前景,未來將在工業(yè)具身智能、遠(yuǎn)程醫(yī)療與健康服務(wù)、教育與數(shù)字文娛等領(lǐng)域發(fā)揮更大的作用。對人工智能的發(fā)展,建議接下來要加強(qiáng)基礎(chǔ)研究,加大對AI基礎(chǔ)理論和算法的研究投入,鼓勵原創(chuàng)性研究,以推動AI技術(shù)的長期發(fā)展;同時,加強(qiáng)區(qū)域間的產(chǎn)學(xué)研合作,利用粵港澳大灣區(qū)的產(chǎn)業(yè)化和商業(yè)化,加速技術(shù)成果的轉(zhuǎn)化。 

項(xiàng)目已應(yīng)用在實(shí)際產(chǎn)業(yè)中

南方財經(jīng):開展這個項(xiàng)目的初衷是什么?該項(xiàng)目有何技術(shù)創(chuàng)新點(diǎn)?

徐向民:我們團(tuán)隊多年來一直專注于視覺計算,早期的視覺計算方法遠(yuǎn)不如人腦的視覺感知。因此,我們的思路就是借鑒人腦的認(rèn)知機(jī)理來設(shè)計視覺計算方法,以期取得性能的突破。在研究過程中,也意識到借鑒認(rèn)知機(jī)理的視覺計算本質(zhì)上是融入認(rèn)知相關(guān)的機(jī)理,而視覺數(shù)據(jù)在計算機(jī)中的呈現(xiàn)是受客觀的物理規(guī)律限制的,因此,我們也把物理規(guī)律加進(jìn)來。

該項(xiàng)目有三個主要的技術(shù)創(chuàng)新點(diǎn)。一是針對霧霾等多變環(huán)境導(dǎo)致成像質(zhì)量退化,我們?nèi)谌氤上裎锢硪?guī)律進(jìn)行建模,讓圖像從“看不清”變成“看得清”。二是針對中層特征。中層特征是視覺計算中中間層次的信息,是進(jìn)一步獲取高層語義的中間步驟。海量的視覺數(shù)據(jù)分布差異巨大且噪聲復(fù)雜,使得模型對不同環(huán)境條件的數(shù)據(jù)難以保持穩(wěn)定性能。我們基于低復(fù)雜度的認(rèn)知機(jī)理,添加低復(fù)雜度約束,使海量數(shù)據(jù)的中層特征從“難算”變得“易算”。三是針對圖像、視頻數(shù)據(jù)內(nèi)容復(fù)雜,高層語義感知困難的問題,模擬人腦的多通路認(rèn)知過程,建立高層語義感知模型,使得視覺語義從“難知”變成“可知”。

南方財經(jīng):在你看來,當(dāng)前視覺數(shù)據(jù)處理面臨的最大挑戰(zhàn)是什么?團(tuán)隊是如何克服挑戰(zhàn)的?

徐向民:當(dāng)前,隨著數(shù)據(jù)量的增加和模型表達(dá)能力的增強(qiáng),各類視覺處理算法的性能持續(xù)在提升,我認(rèn)為視覺數(shù)據(jù)處理面臨的最大挑戰(zhàn)是可靠性問題。很多時候,模型在已構(gòu)建的數(shù)據(jù)集有很好的效果,但是在一些新的未知數(shù)據(jù)可能出現(xiàn)意想不到的錯誤。這是由于數(shù)據(jù)驅(qū)動的方法是靠挖掘數(shù)據(jù)的統(tǒng)計規(guī)律,而數(shù)據(jù)覆蓋不全面就有可能導(dǎo)致挖掘出來的統(tǒng)計規(guī)律只是局部正確。而人在應(yīng)對不同情況時有很好的泛化性,這是由于人可以基于知識去進(jìn)行遷移和泛化。因此,我們研究的特點(diǎn)是融入知識,也就是數(shù)據(jù)驅(qū)動和知識引導(dǎo)。項(xiàng)目所采用的物理規(guī)律和認(rèn)知機(jī)理,都是某種形式的知識,提出成像物理規(guī)律認(rèn)知約束下的底層圖像恢復(fù)方法,是項(xiàng)目的一大亮點(diǎn)。該方法基于深度學(xué)習(xí)模型刻畫物理規(guī)律的思想,深刻地影響了像素級圖像增強(qiáng)領(lǐng)域的發(fā)展,啟發(fā)了一系列基于深度學(xué)習(xí)的圖像增強(qiáng)研究,如圖像去霧、去雨、去模糊、去噪、超分、低光增強(qiáng)等,目前在部分行業(yè)龍頭公司進(jìn)行示范應(yīng)用。

視覺計算擁有眾多應(yīng)用場景

南方財經(jīng):這項(xiàng)技術(shù)如何改變行業(yè)發(fā)展?

徐向民:以水下作業(yè)機(jī)器人為例,水下成像存在模糊問題,影響水下機(jī)器人作業(yè)效果。本項(xiàng)目技術(shù)可用于解決水下機(jī)器人作業(yè)時看得清的問題。我們在水下環(huán)境光估計部分,通過深度模型估算透射率為零點(diǎn)的RGB三通道亮度值,作為環(huán)境光成分,同時實(shí)現(xiàn)水下成像的去模糊和白平衡。目前,該成果使得水下成像看得清,大大提升了水下機(jī)器人的可靠性,也在行業(yè)龍頭公司的水下作業(yè)機(jī)器人示范應(yīng)用。

另外,服務(wù)機(jī)器人要與人互動,同樣要解決看得清的問題。在光照條件不好的地方,成像質(zhì)量下降,會影響機(jī)器人的決策判斷。低光增強(qiáng)與大氣成像具有相似的物理模型,其主要差別在于空氣中霧的大氣光使得畫面變白,低光成像中環(huán)境光照低導(dǎo)致畫面變黑。所以我們在項(xiàng)目中運(yùn)用環(huán)境光估計方法,可通過深度模型估算的環(huán)境光照,從而實(shí)現(xiàn)低光增強(qiáng),使得服務(wù)機(jī)器人在光照條件不好的地方也能看得清。

南方財經(jīng):目前該技術(shù)的應(yīng)用情況如何?視覺計算在日常生活中已有哪些應(yīng)用?

賈奎:我們將本項(xiàng)目視覺感知技術(shù)與具身智能技術(shù)相結(jié)合,創(chuàng)立了跨維智能,實(shí)現(xiàn)通用機(jī)器人操作,已為工業(yè)、物流和醫(yī)療等行業(yè)提供了成熟、高性能、便于集成的標(biāo)準(zhǔn)化產(chǎn)品??缇S智能已完成戰(zhàn)略輪融資。

徐向民:目前,此項(xiàng)目基于深度模型刻畫物理規(guī)律的思想,解決了水下和低光環(huán)境的成像質(zhì)量差的問題,有效提升成像效度,在相關(guān)行業(yè)龍頭公司的水下作業(yè)機(jī)器人、服務(wù)機(jī)器人以及安防產(chǎn)品中示范應(yīng)用。成果吸引了相關(guān)行業(yè)龍頭公司開展產(chǎn)學(xué)研合作,實(shí)現(xiàn)了高效的跨模態(tài)人體特征提取方法。目前,視覺計算技術(shù)在日常生活中的應(yīng)用已經(jīng)非常廣泛。視覺增強(qiáng)可以提升拍照效果和惡劣天氣下的監(jiān)控成像效果。視頻智能安全監(jiān)控可以實(shí)時監(jiān)測和預(yù)警安全事件的發(fā)生。無人駕駛技術(shù)使用視覺計算來識別道路標(biāo)志、紅綠燈、行人和其他車輛,以確保安全駕駛。以圖搜圖的檢索,讓我們可以通過對一個物體拍照來找到購物網(wǎng)站上類似的商品。在醫(yī)療領(lǐng)域,視覺計算技術(shù)可以輔助醫(yī)生進(jìn)行圖像診斷,如分析X光、CT和MRI圖像,提高診斷的準(zhǔn)確性。

南方財經(jīng):展望未來,你希望這項(xiàng)技術(shù)還能在哪些領(lǐng)域發(fā)揮更大作用?對于大灣區(qū)乃至全國的人工智能產(chǎn)業(yè)發(fā)展有哪些建議?

徐向民:視覺計算有眾多應(yīng)用前景,未來將在遠(yuǎn)程醫(yī)療、教育娛樂中發(fā)揮更大的作用,如通過對表情、動作的識別分析人的心理健康狀態(tài),運(yùn)動姿態(tài)輔助分析,虛擬現(xiàn)實(shí)交互中人體動作分析與內(nèi)容生成等。推動粵港澳大灣區(qū)人工智能產(chǎn)業(yè)發(fā)展,一是要加強(qiáng)基礎(chǔ)研究,加大對AI基礎(chǔ)理論和算法的研究投入,鼓勵原創(chuàng)性研究,以推動AI技術(shù)的長期發(fā)展。二是要進(jìn)行跨學(xué)科合作,促進(jìn)AI與其他學(xué)科如醫(yī)學(xué)、材料、心理學(xué)等領(lǐng)域交叉融合,以解決更復(fù)雜的問題。第三,要建立完善的人才培養(yǎng)體系,從基礎(chǔ)教育到高等教育,要培養(yǎng)不同層次的AI人才,適應(yīng)各崗位對AI人才的需求。最后,要加強(qiáng)區(qū)域間的產(chǎn)學(xué)研合作,利用粵港澳大灣區(qū)的產(chǎn)業(yè)化和商業(yè)化,加速技術(shù)成果的轉(zhuǎn)化。

返回原圖
/