多模態(Multimodal)是一種技術和過程,涉及使用兩種或多種不同的感官模式(如視覺、聽覺、觸覺等)來傳達信息或進行交流。
在人工智慧(AI)領域,多模態技術通過融合來自不同感官的數據和信息,提升了AI系統對複雜信息的理解和處理能力,從而提高了性能和套用範圍。多模態技術不僅限於AI,還廣泛套用於生物識別、機器學習等領域,例如,在生物識別中,多模態技術整合或融合兩種及兩種以上的生物識別技術,如指紋、指靜脈、人臉、虹膜圖像等,結合數據融合技術,使認證和識別過程更加精準、安全。從研究的角度來看,多模態問題涉及到研究包含多種模態信息的數據集,如視覺信息、聽覺信息、文本信息、嗅覺信息等,這對於推動人工智慧更好地理解和認知周圍世界至關重要。