復旦大學開發的“復旦·眸思”(MouSi)是一款多模態大模型,旨在通過視覺和語言的深度融合,提升視障人士的生活便利性。該模型由復旦大學自然語言處理實驗室(FudanNLP)研發,結合了圖文匹配、光學字符識別(OCR)和圖像分割等多種視覺任務專家的能力,顯著提高了多模態對話任務的表現效果。
復旦眸思大模型官網入口網址:http://mousi.org/

“眸思”模型的核心在于其多模態特性,能夠理解并識別圖片內容,并將其轉化為語言描述,從而幫助視障人士更好地感知周圍環境。例如,“聽見世界”APP基于“眸思”模型,為視障人士提供了街道行走模式、自由問答模式和尋物模式,幫助他們在日常生活中更安全、便捷地導航和尋找物品。
為了使“眸思”模型更加貼合視障人士的需求,研發團隊進行了大量特殊樣本訓練,并邀請視障人士參與模擬真實情境的測試,以確保模型能夠適應更多場景。此外,“眸思”還計劃結合AR技術提升定位精度,并在未來升級為基于視頻判斷的模式,進一步增強其功能。
“復旦·眸思”不僅在科研領域表現出色,還在公益項目中發揮了重要作用。例如,在“聽見世界”的公益短片中,“眸思”通過將畫面轉化為語言描述,幫助視障人士了解和應對潛在風險。此外,該模型還計劃與NGO組織、智障中心和硬件廠商合作,讓視障人士免費使用相關產品和服務。
“復旦·眸思”大模型通過多模態融合技術,為視障人士提供了一種全新的生活輔助工具,不僅提升了他們的生活質量,也為AI技術在社會公益領域的應用開辟了新的可能性。
相關導航
暫無評論...