事件抽取通常包括以下幾個步驟:
事件檢測與追蹤:這是將文本新聞流按照其報導的事件進行組織的過程,為傳統媒體多種來源的新聞監控提供核心技術。具體而言,事件發現與跟蹤包括三個主要任務:分割、發現和跟蹤。分割是將新聞文本分解為事件,發現新的(不可預見的)事件,並跟蹤以前報導事件的發展。
事件發現:事件發現任務又可細分為歷史事件發現和線上事件發現兩種形式。前者目標是從按時間排序的新聞文檔中發現以前沒有識別的事件,後者則是從實時新聞流中實時發現新的事件。
事件描述:描述事件的詞組/句子/句群,包含一個trigger以及任意數量的arguments。事件觸發(Event Trigger)是事件描述中最能代表事件發生的詞彙,決定事件類別的重要特徵,一般是動詞或者名詞。事件要素(Event Argument, 又稱事件元素)是事件的重要信息,主要由實體、屬性值等表達完整語義的細粒度單位組成。
事件類型:事件是發生在某個特定的時間點或時間段、某個特定的地域範圍內,由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態改變。事件由事件觸發詞( Trigger) 和描述事件結構的元素 (Argument, 又名要素)構成。
事件定義:事件抽取的目標是從描述事件信息的文本中識別並抽取出事件信息並以結構化的形式呈現出來,包括髮生的時間、地點、參與角色以及與之相關的動作或者狀態的改變。
以上步驟涵蓋了事件抽取的主要流程,從文本中提取出事件的基本信息,包括事件觸發詞、事件要素、事件角色以及事件類型等,以便於進一步分析和處理。