語料,也稱爲語料庫(Corpus,複數形式爲corpora),通常指的是一定數量和規模的文本資源集合。
語料庫可以包含從幾百個句子到數億個句子不等的語言材料,這些材料通常是自然發生的語言,包括日常對話、文學作品、報刊雜誌和學術文章中的語句和段落。語料的規模可以根據研究的需求而有所不同,可以是非常龐大的,如互聯網本身就被視爲一箇巨大的語料庫,也可以是相對較小的集合。
語料庫中的語言材料可以是書面語,也可以是由口語轉寫而來的文本,但它們都必須是自然發生的語言,而不是通過問卷或訪談得來的語言,更不是基於語言學家的主觀判斷。此外,語料可以根據不同的標準進行分類,例如可以是單語語料(只包含一種語言的材料),也可以是多語種語料(包含多種語言的材料)。
在語言學研究中,語料庫的建立和使用對於語言學的多箇領域都有着重要的意義,包括語法研究、詞彙研究、語言文化研究等。它爲這些領域提供了採集、存儲、檢索和分析語言數據的方法,從而促進了更深入和精確的研究。