勵志

勵志人生知識庫

形符比

形符比,也稱為類符/形符比(Type-Token Ratio,簡稱TTR),是文本分析中的一個重要指標。它是指文本中不同單詞數(類符,Type)與單詞的總數(形符,Token)之比。這個比值可以用來衡量文本中詞彙的變化性和豐富度,也可以表明文本中詞的重複率。具體來說,當文本使用的不同詞語的數量越少,詞的重複使用率越高,即形符類符比越大,此時文本的相關性也越大。

形符(Token)是指語料庫中所有詞彙的總數,類符(Type)是指不重複計算的形符數。形符比(Ratio)與文本用詞的變化性和豐富度呈正比關係,即通過分析該比值,比值越高則文本使用的詞彙變化越大、越豐富。

例如,對於「我愛我家」這個句子,其中「我」出現了兩次,是兩個「形符」,但是它們是一個相同的語言單位,是一個「類符」。因此形符為「我」、「愛」、「我」、「家」,共4個;類符為「我」、「愛」、「家」,共3個,形符比為3/4。