DeskRex.ai

open α

テーマ

データベース

自動化

発見

サインイン

リサーチの結果の保存、レポートの作成、共有が行えます。

サインイン
データベースの一覧に戻る

LLM強化学習ツール・プラットフォーム一覧

🗓 Created on 5/10/2025

ツール・プラットフォーム名
対応するLLMの種類
強化学習手法の種類
主な特徴・機能
利用料金体系

TRL

GPT-2などのトランスフォーマー言語モデル,

PPO (Proximal Policy Optimization),

Hugging Faceライブラリで、ヒューマンフィードバックを含むデータセットを用いたLLMのファインチューニングをサポート。分散学習フレームワーク。, Hugging Faceライブラリの一つで、GPT-2などのトランスフォーマー言語モデルのPPO (Proximal Policy Optimization)アルゴリズムによる最適化をサポート。ヒューマンフィードバックを含むデータセットを用いたLLMのファインチューニングを支援する分散学習フレームワーク。, Hugging Faceライブラリで、ヒューマンフィードバックを含むデータセットを用いたLLMのファインチューニングをサポートする分散学習フレームワーク。PPOアルゴリズムによる最適化をサポート。Hugging Faceのアカウントを通じて公開されているデータセットや学習済みモデルにアクセス可能。

trlX

GPT-NeoXなどの言語モデル(最大200億パラメータ規模),

PPOおよびImplicit Language Q-Learning (ILQL),

CarperAI提供のPythonライブラリで、200億パラメータ規模までのLLMファインチューニングをサポート。PPOに加えILQLも利用可能。, CarperAIが提供するPythonライブラリで、GPT-NeoXなどの言語モデルについて200億パラメータ規模までのファインチューニングをサポート。PPOに加えImplicit Language Q-Learning (ILQL)も利用可能。Hugging Faceのアカウントを通じてヒューマンフィードバック用のデータセットや学習済みモデルにアクセス可能。分散学習フレームワークとしてLLMのファインチューニングを支援。, CarperAI提供のPythonライブラリで、200億パラメータ規模までのLLMファインチューニングをサポート。PPOに加えILQLも利用可能。Hugging Faceのアカウントを通じてヒューマンフィードバック用のデータセットや学習済みモデルにアクセス可能。分散学習フレームワークとしてLLMのファインチューニングを支援。

Argilla

RLHFプロセスのデータセット作成・管理を支援,

主な特徴・機能 RLHFのプロセスを手軽かつ柔軟に実行可能なオープンソースデータプラットフォーム。データセット作成や複数担当者による投票で質の良い回答決定をサポート。, RLHFのプロセスを手軽かつ柔軟に実行可能なオープンソースデータプラットフォーム。単に作成済みのデータセットを使ってRLHFを実行するだけでなく、データセットの作成自体もサポート。複数担当者間での応答文の投票評価など、データマネジメントを厳密に行う機能を提供。Python SDKによるセットアップやDocker環境構築が可能。, RLHFのプロセスを手軽かつ柔軟に実行可能なオープンソースデータプラットフォーム。データセット作成や複数担当者による投票で質の良い回答決定をサポート。Python SDKによるセットアップやDocker環境構築が可能。データセット作成や報酬モデル作成の作業をローコードで支援し、チームでのデータマネジメントを厳密に行う機能を提供。

rinna株式会社の日本語特化LLM

GPT-NeoXベースの36億パラメータ汎用言語モデル、教師あり学習対話モデル、RLHF対話モデル

RLHFによる対話言語モデルのファインチューニング

日本語特化のLLMをオープンソースで公開。RLHFモデルは商用利用可能なライセンス。Hugging Faceで提供。, 日本語特化のLLMをオープンソースで公開。RLHFモデルは商用利用可能なライセンス。Hugging Faceで提供。36億パラメータの汎用言語モデル、教師あり学習対話モデル、RLHF対話モデルの3種類を公開。RLHFモデルは人間評価で好ましい応答を生成することが確認されている。