自注意力(Self-attention)的公式可以表示為:
Attention(Q, K, V) = softmax(QK^T / \sqrt{d_k})V
其中:
Q 是查詢向量(Query)
K 是鍵向量(Key)
V 是值向量(Value)
\( d_k \) 是向量 K 的維度,用於縮放 QK^T 的結果,以避免梯度過小或過大。
這個公式描述了自注意力的計算過程,它通過計算查詢向量與鍵向量的點積,並套用 softmax 函式來得到每個鍵的權重,然後加權求和值向量得到最終的注意力值。
自注意力(Self-attention)的公式可以表示為:
Attention(Q, K, V) = softmax(QK^T / \sqrt{d_k})V
其中:
Q 是查詢向量(Query)
K 是鍵向量(Key)
V 是值向量(Value)
\( d_k \) 是向量 K 的維度,用於縮放 QK^T 的結果,以避免梯度過小或過大。
這個公式描述了自注意力的計算過程,它通過計算查詢向量與鍵向量的點積,並套用 softmax 函式來得到每個鍵的權重,然後加權求和值向量得到最終的注意力值。