DeskRex.ai

open α

テーマ

データベース

自動化

発見

サインイン

リサーチの結果の保存、レポートの作成、共有が行えます。

サインイン
データベースに戻る

📀 出典のデータベース: LLM強化学習ツール・プラットフォーム一覧

ツール・プラットフォーム名

Argilla

🗓 更新日: 5/10/2025

公開中

項目

対応するLLMの種類強化学習手法の種類主な特徴・機能利用料金体系関連する出典情報

対応するLLMの種類

情報なし

強化学習手法の種類

RLHFプロセスのデータセット作成・管理を支援,
brainpad.co.jp

主な特徴・機能

主な特徴・機能 RLHFのプロセスを手軽かつ柔軟に実行可能なオープンソースデータプラットフォーム。データセット作成や複数担当者による投票で質の良い回答決定をサポート。, RLHFのプロセスを手軽かつ柔軟に実行可能なオープンソースデータプラットフォーム。単に作成済みのデータセットを使ってRLHFを実行するだけでなく、データセットの作成自体もサポート。複数担当者間での応答文の投票評価など、データマネジメントを厳密に行う機能を提供。Python SDKによるセットアップやDocker環境構築が可能。, RLHFのプロセスを手軽かつ柔軟に実行可能なオープンソースデータプラットフォーム。データセット作成や複数担当者による投票で質の良い回答決定をサポート。Python SDKによるセットアップやDocker環境構築が可能。データセット作成や報酬モデル作成の作業をローコードで支援し、チームでのデータマネジメントを厳密に行う機能を提供。
brainpad.co.jp

利用料金体系

情報なし

関連する出典情報

copy url
source logowww.brainpad.co.jp
TRL
trlX
Argilla
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
OpenAI
*1
*2
こちらの記事
TRL
trlX
Argilla
Hugging Face
PPO (Proximal Policy Optimization)
*3
CarperAI
*4
GPT-NeoX
Implicit Language Q-Learning (ILQL)
こちらの記事
rinna株式会社
公式のプレスリリース
GPT-NeoX
汎用言語モデル
教師あり学習による対話言語モデル
RLHFによる対話言語モデル
*5
*6
*7
データセット
こちら
WRIME
実装例
Argilla
こちら
こちら
Colab notebook
Docker
こちら
*1
https://openai.com/research/learning-from-human-preferences
*2
https://blog.brainpad.co.jp/entry/2017/02/24/121500
*3
TRPO
*4
EleutherAI
*5
rinna、人間の評価を利用したGPT言語モデルの強化学習に成功|rinna株式会社
*6
*7
InteructGPTの論文