GLM模型(Generative Language Model)是一種預訓練語言模型,它通過自回歸的方式對文本進行建模。GLM模型的工作原理可以概括如下:
輸入文本處理:首先,GLM模型接收一段文本作為輸入,將文本表示為序列[x1, x2, ..., xn]。
掩碼生成:然後,模型從輸入文本中採樣多個片段,例如s1, s2, ..., sn,其中每個片段si包含文本中的一部分詞彙。接著,模型使用一個特殊的[mask] token替換每個片段中的詞彙,生成一個被掩碼的文本xcorrupt。
自回歸預測:GLM模型採用自回歸的方式,從xcorrupt中預測被mask的片段si的詞彙。這意味著在預測過程中,模型可以參考之前片段的信息。例如,如果原始文本的順序是s1, s2, s3,在掩碼之後,被掩碼的片段順序可能是s3, s1, s2。這樣,模型能夠捕捉不同片段之間的相互依賴關係。
性能提升:通過改變掩碼的數量和長度,GLM模型可以適應不同類型的任務進行預訓練。實驗表明,在相同的參數量和計算成本下,GLM在SuperGLUE基準測試中明顯優於BERT。在使用相似規模的語料(158GB)進行預訓練時,GLM能夠超過RoBERTa和BART。此外,在自然語言理解和生成任務方面,GLM也明顯勝過T5,而且使用的參數和數據更少。