大規模言語モデル (LLMs) は、現代の言語とのインタラクションを形成しています。正確なコミュニケーションへの高まる欲求は、彼らの生成物から生じる可能性のある言語の有害性についての疑問を呼び起こします。これらのモデルは洗練されていますが、彼らの応答の文化的および倫理的な整合性を維持するための内部規制が必要です。*自己規律付き自己回帰サンプリング*(SASA)と呼ばれる革新的な手法は、*否定的バイアスを中和する*ための有望な解決策として浮上しています。SASAは語彙のサブスペースをナビゲートすることによって、これらのモデルを倫理的遵守に導きつつ、言語の流動性を維持しようとします。
言語モデルの自己解毒化
大規模言語モデル(LLM)に関する研究は加速しており、その出力の有害性を削減するための革新的な手法が明らかにされています。MIT-IBM Watson AIラボは、LLMが自身の言語を適度に保ちながら流動性を維持できるようにする自己規律付き自己回帰サンプリング(SASA)という戦略を導入しました。この進展は、倫理的および社会文化的な価値を尊重するテキスト生成器を作成するという高まる必要に応えています。
LLMsにおけるデータとバイアス
ほとんどのLLMはパブリックデータから訓練されており、一般的に不適切なコンテンツ、たとえば侮辱やヘイトスピーチに過度にさらされています。これらのバイアスは、一見無害な文脈でも現れる可能性があり、デジタル時代における言語技術の責任に対する懸念を引き起こします。そのようなコンテンツの蓄積は、人間の交流の整合性を損ないます。
SASAのメカニズム
SASAは、LLMの内部表現内における有害なサブスペースと非有害なサブスペースを区別するデコーディングアルゴリズムを導入します。このシステムは既存のモデルのパラメータを変更せず、再訓練や外部報酬モデルの必要を回避します。推論段階では、SASAは、受け入れられた各単語と潜在的な新しい単語を考慮して、部分的に生成された文の有害性の値を評価します。
出力の評価
各単語は、その分類境界との近接性に基づいて選択され、有害性の少ない言語出力を維持することができます。この方法は新しい潜在的な単語のサンプリング確率を再調整することで機能し、非有害ゾーンに位置するものを優先します。したがって、各生成物は処理中に採用された人間の価値を反映するはずです。
検証実験の結果
研究者たちは、GPT2-LargeやLlama2-7bを含む複数のLLMに対してSASAをテストし、25回の繰り返しで完成させるための文を提示しました。PerspectiveAPIのような採点システムを使用して生成された文の有害性率を評価しました。その結果、有害な文が有意に減少し、同時に流動性の許容可能なレベルが維持されることが明らかになりました。
言語的公平性への影響
SASAは、相応に女性に関連付けられたプロンプトに対する有害な応答が観察可能に減少することで、ジェンダーバイアスの軽減において有望な結果を示しました。この現象は、本物の対話に必要なニュアンスを保持しながら言語の生成をバランスさせる能力を示しています。テストには、BOLDのようなユニークなデータセットも含まれ、手法の一般的な適用可能性が評価されています。
多様な人間の価値へ向けて
研究者たちは、真実や有用性など他の人間の価値にSASAを適用することを検討しています。SASAの軽さは、さまざまな属性への適応を簡素化し、生成物の位置を複数のサブスペースに対して確認することを可能にします。このアプローチは、LLMが倫理基準を取り入れる方法を変え、社会的期待により合致するようにする可能性があります。
LLMが自身の言語を解毒化する訓練に関するよくある質問
大規模言語モデル(LLM)とは何ですか?
大規模言語モデル(LLM)は、大量の訓練データに基づいてテキストを生成することができる人工知能の一種で、通常は公開されたソースから抽出されたものであり、さまざまな自然言語生成アプリケーションに使用されます。
LLMはどのようにして応答において有害になる可能性がありますか?
LLMは、訓練されたデータセットに存在するバイアスにより、有害な言語を生成することがあります。これには卑猥な言葉、ステレオタイプ、差別的な発言が含まれ、無害な要求に応答する際でさえもそうです。
LLMの出力を解毒化するためのSASAの方法は何ですか?
SASA、または自己規律付き自己回帰サンプリングは、生成されるテキストの流動性を維持しながら、有害性の少ない単語を選択することを可能にする手法であり、文中の文脈に基づいて単語の有害性を評価します。
SASAを用いた単語選択プロセスはどのように機能しますか?
SASAのプロセスは、生成された各単語を有害な言語空間と非有害な言語空間の間の定義された境界に対する近接性に基づいて評価し、問題の少ない選択肢を優先するためにサンプリングの確率を調整します。
SASAメソッドを使用することの言語の流動性への影響は何ですか?
SASAが有害な言語の生成を減少させることに成功している一方で、観察された傾向があり、特にモデルが有害または不適切と見なされる単語を避ける必要がある場合、言語の流動性が損なわれる可能性があります。
SASAメソッドは、従来のLLMの解毒化アプローチとどのように異なりますか?
従来の手法がしばしば追加訓練または外部報酬モデルの使用を必要とするのに対し、SASAはモデルのパラメータを変更せずに推論中の単語選択プロセスを再調整することで機能し、より効率的かつコストが少なくなります。
LLMによって生成された応答の有害性を評価するためにどのようなデータを使用できますか?
0(非有害)から1(有害)までの有害性ラベルが付けられたフレーズのサンプルを含むアノテーションされたデータセットを使用して、LLMによって生成された言語を評価するための分類器を訓練することができます。
SASAは、有害性を超えて他の人間の価値に適用することができますか?
はい、SASAは、正確さ、有用性、整合性など、他の人間の価値に適応される可能性があり、これらの価値に関連する複数のサブスペースに対する生成テキストの位置を確認します。
LLMの解毒化にSASAを使用する利点は何ですか?
SASAは、原始的なサンプリング分布に近いままで、生成された言語の効果的な解毒化を実現し、応答の文脈的な関連性を向上させつつ、有害性のリスクを最小限に抑えます。
SASAメソッドがLLMの有害性に対してどのように効果的であるかを評価するには?
SASAの効果は、手法適用前後のLLMによって生成された有害性スコアを比較することで評価でき、最大有害性スコアや有害なフレーズ生成率などのメトリックの分析を使用します。