T5模型,全稱為Text to Text Transfer Transformer,是由谷歌提出的預訓練語言模型領域的通用模型。該模型將所有自然語言問題都轉化成文本到文本的形式,並用一個統一的模型解決。
T5模型的設計理念是使用前綴任務聲明及文本答案生成,統一所有自然語言處理任務的輸入和輸出。在下游任務微調過程中,T5不需要添加非線性層,只需要提供微調數據和任務聲明前綴。其輸入格式和輸出格式類似於GPT-3在Few-shot Learning設定下的格式,與GPT-3不同的是,T5適用於所有自然語言處理任務。
T5模型在結構選型時考慮了三種模型結構,包括Encoder-Decoder結構(傳統的Transformer結構)、Decoder結構(GPT的結構)和Prefix LM結構(UniLM的結構)。經過測試,T5發現Transformer Encoder-Decoder結構效果最佳,因此採用了這種傳統的Transformer結構。
T5模型的訓練數據來自Common Crawl數據集,該數據集是從網際網路上爬取的文本數據。T5選取了2019年4月的數據,經過清洗,得到750GB的滿足訓練要求的數據,並將其作為訓練數據。
T5模型的主要優勢在於其具有可擴展性,可以處理多種NLP任務,並且可以通過微調來適應不同的套用場景。此外,T5模型的參數數量相對較少,訓練速度更快,且可以在相對較小的數據集上進行訓練。然而,由於T5模型使用了大量的Transformer結構,在訓練時需要大量的計算資源和時間。