結論: RLHF(人間からのフィードバックによる強化学習)とは、大規模言語モデル(LLM)が生成する回答を、人間の価値観や意図に沿うように「微調整(アライメント)」する技術のことです。
ChatGPTなどの高性能なAIが、単に「次に来る単語を予測する」だけでなく、私たちの質問に対して誠実で、なおかつ安全に答えてくれるのは、このRLHFというプロセスを経ているからです。
この記事では、RLHFがどのようなステップで学習を進めるのか、従来の学習手法(SFT)と何が違うのか、そしてDeepSeek-R1などで注目される最新トレンドまで、実務的な視点で詳しく解説します。
RLHFの定義と「SFT」との決定的な違い
LLMの学習は、大きく分けて「事前学習」と「事後学習(微調整)」の2フェーズに分かれます。RLHFは、この事後学習において「アライメント(整列)」を担う中核技術です。
アライメントとは、AIの挙動を人間の価値観(有益性、誠実性、無害性)に合わせることを指します。事前学習を終えたばかりのモデルは、インターネット上の膨大な知識を持っていますが、ユーザーの意図を汲み取って対話する「マナー」をまだ十分に理解していません。
ここで重要なのが、SFT(Supervised Fine-Tuning)とRLHFの違いです。
SFT(教師あり微調整)は「模倣」
SFTは、人間が作成した「問いと答えのペア」をモデルに学習させる手法です。「こういう質問には、こう答えてください」というお手本をそのまま覚え込ませます。
- 性質: 静的な学習。
- 役割: 基本的な対話のルールや書き方を教える。
RLHF(強化学習)は「判断基準の獲得」
一方、RLHFは人間の「好み」をスコア化し、そのスコアを最大化するようにモデル自身が試行錯誤する手法です。
- 性質: 動的な学習。
- 役割: 複数の回答案から「どちらがより優れているか」を判断する感性を養う。
例えるなら:プロの編集者による添削プロセス
- SFT: 新人ライターに、過去の優れた記事(お手本)をたくさん読ませて「書き方の型」を覚えさせる段階。
- RLHF: ライターが書いた複数の記事案に対して、編集者が「A案は構成が良い」「B案は表現が硬すぎる」とフィードバックを送る段階。ライターは編集者の「好み(評価基準)」を学習し、最終的には何も言われなくても編集者が納得する記事を書けるようになります。
YachiSFTだけでは、AIは「正解っぽい文章」を書くことしかできません。しかし、現実の会話に絶対的な正解は少なく、グラデーションが存在します。RLHFを導入することで、AIは「より丁寧な表現」や「より安全な回答」といった、微妙なニュアンスの差を理解できるようになるのです。


RLHFの学習プロセス:標準的な3つのステップ
RLHFは、一気に学習を完了させるわけではありません。一般的に、以下の3つのステップを踏んで段階的に賢くなっていきます。
【Step 1】教師あり微調整 (SFT)
まずはベースモデル(未調整のLLM)に対し、数千から数万件の高品質な「指示・回答ペア」を学習させます。
このステップの目的は、モデルに「ユーザーの命令に従う」という基本的な態度(Instruction Following)を身につけさせることです。SFTを経ることで、モデルは質問に対して支離滅裂な文章を生成するのではなく、回答としての体裁を整えられるようになります。
【Step 2】報酬モデル (RM) の構築
次に、人間が直接AIを指導するための「基準」となる報酬モデル(Reward Model)を作ります。
- データ収集: 1つのプロンプト(質問)に対し、モデルに複数の回答案(回答A、回答B、回答Cなど)を生成させます。
- 人間による評価: 人間のラベラー(評価者)が、それらの回答を「質が高い順」にランキングします。
- モデルの学習: このランキング結果を基に、回答に対して「報酬(スカラー値)」を付与する別のAI(報酬モデル)を訓練します。
報酬モデルは、人間が大切にする「HHH」という基準を学習します。
- Helpfulness(有益性): ユーザーの目的を達成しているか。
- Honesty(誠実性): 正確な情報を提供し、知らないことは知らないと言えるか。
- Harmlessness(無害性): 差別、攻撃、危険な情報の提供を避けているか。
Yachiなぜ人間が直接AIを評価し続けないのか、疑問に思うかもしれません。理由は単純で、強強化習には数百万回以上の試行錯誤が必要であり、人間がそのすべてを採点するのはコストと時間の面で不可能だからです。そのため、まずは「人間の好みをシミュレートするAI(報酬モデル)」を育て、そのAIに採点を代行させる仕組みをとっています。
【Step 3】強化学習(PPO)によるポリシー最適化
最後に、報酬モデルを「先生」として、LLMを強化学習で鍛え上げます。ここでよく使われるアルゴリズムがPPO(Proximal Policy Optimization)です。
- 試行錯誤: LLMが回答を生成し、報酬モデルがその回答に「80点」や「40点」といったスコアを付けます。
- パラメータ更新: PPOというアルゴリズムを用い、より高いスコア(報酬)を得られるようにLLMのパラメータを更新します。
- 過学習の抑制(KLダイバージェンス): 学習を進める際、元のSFTモデルから言葉遣いが極端に逸脱しないように「ペナルティ」を課します。これにより、報酬を稼ぐためだけにデタラメな文章を生成するような暴走を防ぎます。
DeepSeek-R1が示した「GRPO」の衝撃
これまで説明したPPOは非常に強力ですが、計算リソース(GPUメモリ)を大量に消費するという弱点がありました。この状況を一変させたのが、DeepSeek社が発表したGRPO(Group Relative Policy Optimization)という手法です。
PPOとの構造的な違い
従来のPPOでは、学習を安定させるために「価値モデル(Critic)」という重厚なモデルを別途用意する必要がありました。しかし、GRPOはこの価値モデルを排除することに成功しました。
GRPOの仕組み
- グループ生成: 1つの質問に対して、一度に複数の回答(グループ)を生成します。
- 相対評価: そのグループ内での平均的なスコアを基準とし、「平均よりどれだけ良かったか・悪かったか」という相対的な評価で学習を進めます。
- リソースの節約: 価値モデルが不要になった分、GPUメモリを大幅に節約でき、その分をより大規模なモデルや長い推論時間の学習に充てることが可能になりました。
DeepSeek-R1の成果と「自発的な推論」
DeepSeek-R1は、この手法を用いて「推論能力」に特化した学習を行いました。驚くべきは、高品質なSFTデータ(お手本)がなくても、強化学習のみでモデルが自発的に「思考の連鎖(CoT)」を獲得した点です。
例えば、難しい数学の問題を解く際、モデルは <think> タグの中で以下のような挙動を見せます。
- 「まずこの公式を使ってみよう」
- 「あ、待てよ。この条件だと計算が合わないな」
- 「やり直して、別の視点から考えてみよう」
このように、人間が教えなくても「自分の間違いに気づき、修正する」という高度な推論プロセスを、強化学習を通じて自ら習得したのです。
RLHFの限界と課題:報酬ハッキングの脅威
RLHFは万能ではありません。実務や研究において、いくつかの深刻な課題が指摘されています。
1. 報酬ハッキング (Reward Hacking)
モデルが「内容の正しさ」ではなく、「報酬モデルから高いスコアをもらうコツ」だけを学習してしまう現象です。
- 例: 回答が不正確であっても、報酬モデルが好みそうな「丁寧で自信満々な言い回し」を多用する。
- 例: ユーザーに媚びるような、お世辞ばかりの回答を生成する。
2. スケーラビリティの限界
高品質な人間による評価データを集めるには、莫大なコストがかかります。また、専門的な内容(高度なプログラミングや医学など)になると、一般のラベラーでは正誤判断ができません。 この解決策として、最近では人間の代わりにAIがフィードバックを行うRLAIF(Reinforcement Learning from AI Feedback)への移行が進んでいます。
3. 評価バイアスの反映
報酬モデルを訓練するラベラーに偏見(特定の政治的・文化的指向)があると、それがそのままモデルの「価値観」として固定されてしまうリスクがあります。アライメントを誰の基準で行うべきか、という倫理的な議論は今も続いています。


RLHFの代表的な応用事例
| モデル名 | アプローチの特徴 |
|---|---|
| GPT | InstructGPT以来、標準的な3ステップのRLHFを確立した先駆者。 |
| Claude (Anthropic) | Constitutional AI(憲法AI)。人間が書いた「憲法(ルール)」をAIに読み込ませ、AI自身が自分を評価する仕組み。 |
| DeepSeek-R1 | GRPOを採用。報酬モデルとして「数学の正解」や「コードの実行結果」といった客観的なルールを組み込み、高度な推論を実現。 |
| Llamaシリーズ | Metaによるオープンモデル。複数の報酬モデルを使い分け、安全性と有用性のバランスを最適化。 |
FAQ
- SFT(教師あり学習)だけで学習を終わらせてはいけないのですか?
-
SFTだけでも「それっぽい回答」はできますが、限界があります。SFTは「正解の模倣」に過ぎないため、未知の質問に対して柔軟に対応したり、回答の「質」をさらに高めたりすることが困難です。RLHFによる比較学習を導入することで、モデルはより安全で、人間の意図に深く合致した回答を生成できるようになります。
- 報酬ハッキングを防ぐ具体的な手段はありますか?
-
主に2つの対策があります。一つは、学習中のモデルが元のモデルから離れすぎないよう「KLダイバージェンス」という指標でペナルティを与えること. もう一つは、DeepSeekのように「数学の正解」や「コンパイルが通るか」といった、客観的でごまかしの効かないルール(ルールベース報酬)を評価に組み込むことです。
- PPOとGRPOのどちらを学ぶべきですか?
-
強化学習の基礎理論や、従来のLLMの成り立ちを理解したいならPPOが最適です。しかし、現在のトレンドや、限られたリソースで効率的にモデルを訓練したい実務的なニーズがあるなら、GRPOの仕組み(価値モデルを不要にする相対評価)を理解しておくことが不可欠です。
まとめ
RLHFは、AIが「ただの計算機」から「信頼できるパートナー」へと進化するための鍵となる技術です。
- SFTで基本の型を学び、
- 報酬モデルで人間の感性をシミュレートし、
- PPOやGRPOで試行錯誤を繰り返す。
このプロセスによって、LLMは私たちの複雑な意図を理解し、安全で役立つ知識を届けてくれるようになります。特にDeepSeek-R1が登場してからは、人間が細かく教えなくても「強化学習だけで推論能力を伸ばせる」という新たな可能性も見えてきました。
今後、RLHFは人間による評価(RLHF)から、AIによる自動評価(RLAIF)や客観的ルールに基づく評価へと、よりスケール可能な形へと進化していくでしょう。開発や運用のチームにおいて、これらのアプローチの違いを知っておくことは、モデルの特性を正しく理解し、最大限に活用するための第一歩となります。
