科技日?qǐng)?bào)記者 崔爽
來(lái)自Google的Gemini 3模型掀起新一輪的多模態(tài)技術(shù)浪潮,“讀圖”與“長(zhǎng)文本理解”成為衡量AI智商的重要標(biāo)準(zhǔn)。然而,作為連接圖像與文本的“橋梁”,傳統(tǒng)的CLIP(對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練)模型在面對(duì)復(fù)雜、多細(xì)節(jié)的長(zhǎng)文本描述時(shí)卻常出現(xiàn)一個(gè)問(wèn)題:描述越豐富,圖文匹配反而越差。
近日,中國(guó)聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院在這一領(lǐng)域取得重要進(jìn)展,提出全新視覺語(yǔ)言對(duì)齊框架HiMo-CLIP,通過(guò)創(chuàng)新性建模語(yǔ)義層級(jí)與單調(diào)性,在不修改編碼器架構(gòu)的前提下,實(shí)現(xiàn)了長(zhǎng)文本、短文本場(chǎng)景的全維度性能突破。相關(guān)論文已入選國(guó)際權(quán)威人工智能會(huì)議AAAI 2026 Oral。
據(jù)介紹,傳統(tǒng)CLIP模型在處理文本時(shí),往往把句子當(dāng)作“一鍋粥”,不能在復(fù)雜的上下文中捕捉到最具區(qū)分度的特征。這將導(dǎo)致兩個(gè)典型問(wèn)題:語(yǔ)義層級(jí)和語(yǔ)義單調(diào)性的缺失。
為了讓AI“越來(lái)越懂”,HiMo-CLIP提出兩個(gè)核心組件,即層次化解構(gòu)(HiDe)、單調(diào)性感知對(duì)比損失(MoLo),讓模型具備了“分層理解”和“越詳細(xì)越匹配”的能力。
HiMo-CLIP的提出標(biāo)志著多模態(tài)學(xué)習(xí)從“扁平化”向“結(jié)構(gòu)化”的重要轉(zhuǎn)變。正如論文中所說(shuō):“對(duì)齊跨模態(tài)表示的多個(gè)語(yǔ)義抽象層次,對(duì)符合認(rèn)知的視覺-語(yǔ)言理解至關(guān)重要。”這一突破不僅提升了長(zhǎng)文本檢索性能,更為AI系統(tǒng)理解人類語(yǔ)言的豐富層次結(jié)構(gòu)鋪平了道路,讓機(jī)器真正“看懂”我們描述的世界。
據(jù)了解,中國(guó)聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院將持續(xù)深化多模態(tài)對(duì)齊技術(shù)的創(chuàng)新與應(yīng)用,攻克多模態(tài)理解中復(fù)雜語(yǔ)義結(jié)構(gòu)建模的關(guān)鍵環(huán)節(jié),讓具備認(rèn)知一致性的AI模型在智能客服、醫(yī)療影像分析等更多場(chǎng)景中發(fā)揮核心價(jià)值,推動(dòng)多模態(tài)智能技術(shù)向更智能、更可靠、更貼近人類認(rèn)知的方向發(fā)展。