信息抽取(Information Extraction,簡稱IE)是自然語言處理(NLP)的一個重要分支,是一種文本處理技術。
信息抽取的主要任務是從自然語言文本中抽取特定類型的實體、關係、事件等事實信息,並形成結構化數據輸出的文本處理技術。這些信息通常包括實體(entity)、關係(relation)、事件(event)。信息抽取的子任務包括關係抽取、命名實體識別、事件抽取等。信息抽取技術廣泛套用於自動化文本處理、搜尋引擎最佳化、社交媒體分析、知識圖譜構建等領域。通過信息抽取,信息將以統一的形式展現,不僅可以直接向用戶顯示,還可以實現計算機識別,因此可為進一步的信息處理如數據查詢、數據挖掘等打下基礎。