データベースに戻る
📀 出典のデータベース: LLM強化学習ツール・プラットフォーム一覧
ツール・プラットフォーム名
TRL
🗓 更新日: 5/10/2025
公開中項目
対応するLLMの種類
GPT-2などのトランスフォーマー言語モデル,
brainpad.co.jp
強化学習手法の種類
PPO (Proximal Policy Optimization),
brainpad.co.jp
note.com
主な特徴・機能
Hugging Faceライブラリで、ヒューマンフィードバックを含むデータセットを用いたLLMのファインチューニングをサポート。分散学習フレームワーク。, Hugging Faceライブラリの一つで、GPT-2などのトランスフォーマー言語モデルのPPO (Proximal Policy Optimization)アルゴリズムによる最適化をサポート。ヒューマンフィードバックを含むデータセットを用いたLLMのファインチューニングを支援する分散学習フレームワーク。, Hugging Faceライブラリで、ヒューマンフィードバックを含むデータセットを用いたLLMのファインチューニングをサポートする分散学習フレームワーク。PPOアルゴリズムによる最適化をサポート。Hugging Faceのアカウントを通じて公開されているデータセットや学習済みモデルにアクセス可能。
brainpad.co.jp
利用料金体系
情報なし