當前位置:首頁  媒體華園

羊城晚報:厲害!此技術讓機器人在渾濁水下也看得清 |關注全省科技大會

時間:2024-10-22供稿單位:黨委宣傳部瀏覽量:11

分享到

羊城晚報10月17日訊(記者 黎秋玲 陳曉楠)10月17日,2023年度廣東省科學技術獎公布。華南理工大學徐向民教授團隊的《基于認知機理與物理規(guī)律的視覺計算理論與方法》獲廣東省自然科學獎一等獎。

項目有何技術創(chuàng)新點和實際應用價值?徐向民向羊城晚報記者進行了介紹。

項目可推動大模型的落地應用

“本項目可以給人工智能模型的發(fā)展提供借鑒,推動大模型的落地應用。有諸多創(chuàng)新點?!毙煜蛎駥τ浾弑硎荆斯ぶ悄軙r代,大模型主要依賴數(shù)據(jù)驅動,但沒有刻畫視覺物理規(guī)律,本項目在視覺計算模型中加入物理規(guī)律和認知機理的知識,限定模型優(yōu)化邊界,減少復雜度,同時提升了性能。

例如,針對霧霾等多變環(huán)境導致成像質量褪化的現(xiàn)象,項目融入成像物理規(guī)律進行建模,讓圖像從“看不清”變成“看得清”。

另外,海量的視覺數(shù)據(jù)分布差異巨大且噪聲復雜,使得模型對不同環(huán)境條件的數(shù)據(jù)難保持穩(wěn)定性能。項目基于低復雜度的認知機理,添加低復雜度約束,使海量數(shù)據(jù)的中層特征從“難算”變得“易算”。

同時,針對圖像、視頻數(shù)據(jù)內容復雜,高層語義感知困難的問題,模擬人腦的多通路認知過程,建立高層語義感知模型,使得視覺語義從“難知”變成“可知”。

水下機器人在渾濁水下也看得清的奧秘

視覺計算技術在日常生活中的應用已經(jīng)非常廣泛。

不少市民也對這些應用耳熟能詳,例如,視覺增強可以提升拍照效果和惡劣天氣下的監(jiān)控成像效果;無人駕駛技術使用視覺計算來識別道路標志、紅綠燈、行人和其他車輛,以確保安全駕駛;以圖搜圖的檢索,讓我們可以通過對一個物體拍照來找到購物網(wǎng)站上類似的商品;在醫(yī)療領域,視覺計算技術可以輔助醫(yī)生進行圖像診斷,如分析X光、CT和MRI圖像,提高診斷的準確性。其中,視覺增強技術除了給人提供好的可視化效果,也能夠給其他視覺計算任務提供高質量輸入圖像以獲得更好性能。

項目的視覺增強算法啟發(fā)了一系列基于深度學習的跟進研究,如圖像去霧、去雨、去模糊、去噪、超分、低光增強等,且在相關企業(yè)中應用。

談到具體的應用,徐向民還舉例說,水下成像存在模糊問題,影響水下機器人作業(yè)。如何解決水下機器人作業(yè)時看得清?

“水下成像與大氣成像具有相同的傳輸模型,其主要差別在于空氣中霧的大氣光為白色,水下成像中環(huán)境光為藍色或藍綠色。本項目使用的方法是,在環(huán)境光估計部分,通過深度模型估算透射率為零點的RGB三通道亮度值,作為環(huán)境光成分,同時實現(xiàn)水下成像的去模糊和白平衡?!毙煜蛎癖硎荆摮晒沟盟鲁上窨吹们?,大大提升了水下機器人的可靠性。

視覺計算與人工智能技術未來展望

徐向民介紹,視覺計算有眾多應用前景,未來將在人的健康、生活娛樂中發(fā)揮更大的作用,如基于表情和動作心理健康狀態(tài)分析,運動姿態(tài)準確性的輔助分析,虛擬現(xiàn)實交互中人體動作分析與內容生成等。

徐向民也是廣東省數(shù)字孿生人重點實驗室的主任。他表示,數(shù)字孿生是本項目研究的拓展延伸,在數(shù)字孿生的建模過程中,和團隊深刻感受到跨領域的合作模式,不僅豐富了研究視角,也為解決復雜科學問題提供了新的思路和方法,體現(xiàn)了學科交叉融合創(chuàng)新的巨大價值。

項目第二完成人賈奎教授將本項目視覺感知技術與具身智能技術相結合,創(chuàng)立了跨維智能,實現(xiàn)通用機器人操作,已為工業(yè)、物流和醫(yī)療等行業(yè)提供了成熟、高性能、便于集成的標準化產(chǎn)品。目前,跨維智能已完成戰(zhàn)略輪融資。

展望未來,徐向民就粵港澳大灣區(qū)乃至全國人工智能發(fā)展提出了個人看法,他建議加強基礎研究,加大對人工智能基礎理論和算法的研究投入,鼓勵原創(chuàng)性研究,以推動人工智能技術的長期發(fā)展。其次,要進行跨學科合作,促進人工智能與其他學科如醫(yī)學、材料、心理學等領域交叉融合,以解決更復雜的問題。第三,建議建立完善的人才培養(yǎng)體系,從基礎教育到高等教育,要培養(yǎng)不同層次的人工智能人才,適應各崗位對人工智能人才的需求。建議加強區(qū)域間的產(chǎn)學研合作,利用粵港澳大灣區(qū)的產(chǎn)業(yè)化和商業(yè)化優(yōu)勢,加速技術成果的轉化。

【項目簡介】:為滿足高質量發(fā)展與現(xiàn)代化生活的視覺數(shù)據(jù)高效使用需求,視覺處理需解決高質量圖像增強、海量數(shù)據(jù)快速計算、復雜場景視覺分析等問題。但由于復雜模型的參數(shù)空間大、大數(shù)據(jù)帶來大計算量、精準感知能力不如人腦,視覺數(shù)據(jù)的高效率處理挑戰(zhàn)巨大。

考慮到物理規(guī)律約束可減少優(yōu)化求解空間,以及人腦的高效率處理數(shù)據(jù)方式,該項目基于認知機理與物理規(guī)律,聚焦視覺計算表征理論、建模方法及核心應用。成果在部分行業(yè)龍頭公司進行示范應用,助力智能化進程的有效推進。


返回原圖
/