復(fù)旦大學(xué)開發(fā)的“復(fù)旦·眸思”(MouSi)是一款多模態(tài)大模型,旨在通過視覺和語言的深度融合,提升視障人士的生活便利性。該模型由復(fù)旦大學(xué)自然語言處理實驗室(FudanNLP)研發(fā),結(jié)合了圖文匹配、光學(xué)字符識別(OCR)和圖像分割等多種視覺任務(wù)專家的能力,顯著提高了多模態(tài)對話任務(wù)的表現(xiàn)效果。
復(fù)旦眸思大模型官網(wǎng)入口網(wǎng)址:http://mousi.org/

“眸思”模型的核心在于其多模態(tài)特性,能夠理解并識別圖片內(nèi)容,并將其轉(zhuǎn)化為語言描述,從而幫助視障人士更好地感知周圍環(huán)境。例如,“聽見世界”APP基于“眸思”模型,為視障人士提供了街道行走模式、自由問答模式和尋物模式,幫助他們在日常生活中更安全、便捷地導(dǎo)航和尋找物品。
為了使“眸思”模型更加貼合視障人士的需求,研發(fā)團隊進行了大量特殊樣本訓(xùn)練,并邀請視障人士參與模擬真實情境的測試,以確保模型能夠適應(yīng)更多場景。此外,“眸思”還計劃結(jié)合AR技術(shù)提升定位精度,并在未來升級為基于視頻判斷的模式,進一步增強其功能。
“復(fù)旦·眸思”不僅在科研領(lǐng)域表現(xiàn)出色,還在公益項目中發(fā)揮了重要作用。例如,在“聽見世界”的公益短片中,“眸思”通過將畫面轉(zhuǎn)化為語言描述,幫助視障人士了解和應(yīng)對潛在風(fēng)險。此外,該模型還計劃與NGO組織、智障中心和硬件廠商合作,讓視障人士免費使用相關(guān)產(chǎn)品和服務(wù)。
“復(fù)旦·眸思”大模型通過多模態(tài)融合技術(shù),為視障人士提供了一種全新的生活輔助工具,不僅提升了他們的生活質(zhì)量,也為AI技術(shù)在社會公益領(lǐng)域的應(yīng)用開辟了新的可能性。