向量建模方法是一種基於分散式表達的機器學習方法,主要用於信息檢索和問答系統。其核心思想是將問題和答案映射到一個低維空間,得到它們的分散式表達,通過訓練數據對該分散式表達進行訓練,使得問題向量和它對應的正確答案向量在低維空間的關聯得分儘量高。當模型訓練完成後,可以根據候選答案的向量表達和問題表達的得分進行篩選,找出得分最高的作為最終答案。
對於問題的分散式表達,首先我們把自然語言問題進行向量化,將輸入空間的維度N設定為字典的大小+知識庫實體數目+知識庫實體關係數目。對於輸入向量每一維的值設定為該維所代表的單詞(也可能代表的是某個實體數目或實體關係)在問題中出現的次數(一般為0或1次),這是一種multi-hot的稀疏表達,是一種簡化版的詞袋模型。
然而,這種方法需要大量數據去訓練這個低維空間的分散式表達。例如,在知識庫問答(KB-QA)中,如果只有5800多個問題答案對的數據集(如WebQuestion),這樣的數據是難以訓練好這種表達的。