データベースに戻る
📀 出典のデータベース: LLM強化学習ツール・プラットフォーム一覧
ツール・プラットフォーム名
TRL
🗓 更新日: 5/10/2025
公開中対応するLLMの種類
GPT-2などのトランスフォーマー言語モデル,
強化学習手法の種類
PPO (Proximal Policy Optimization),
主な特徴・機能
Hugging Faceライブラリで、ヒューマンフィードバックを含むデータセットを用いたLLMのファインチューニングをサポート。分散学習フレームワーク。, Hugging Faceライブラリの一つで、GPT-2などのトランスフォーマー言語モデルのPPO (Proximal Policy Optimization)アルゴリズムによる最適化をサポート。ヒューマンフィードバックを含むデータセットを用いたLLMのファインチューニングを支援する分散学習フレームワーク。, Hugging Faceライブラリで、ヒューマンフィードバックを含むデータセットを用いたLLMのファインチューニングをサポートする分散学習フレームワーク。PPOアルゴリズムによる最適化をサポート。Hugging Faceのアカウントを通じて公開されているデータセットや学習済みモデルにアクセス可能。
利用料金体系
データがありません
すべての出典情報
出典情報の詳細は、ブラウザでページを表示してご確認ください。