DeskRex.ai

open α

テーマ

データベース

自動化

発見

サインイン

リサーチの結果の保存、レポートの作成、共有が行えます。

サインイン
データベースに戻る

📀 出典のデータベース: LLM強化学習ツール・プラットフォーム一覧

ツール・プラットフォーム名

rinna株式会社の日本語特化LLM

🗓 更新日: 5/10/2025

公開中

項目

対応するLLMの種類強化学習手法の種類主な特徴・機能利用料金体系関連する出典情報

対応するLLMの種類

GPT-NeoXベースの36億パラメータ汎用言語モデル、教師あり学習対話モデル、RLHF対話モデル
brainpad.co.jp

強化学習手法の種類

RLHFによる対話言語モデルのファインチューニング
brainpad.co.jp

主な特徴・機能

日本語特化のLLMをオープンソースで公開。RLHFモデルは商用利用可能なライセンス。Hugging Faceで提供。, 日本語特化のLLMをオープンソースで公開。RLHFモデルは商用利用可能なライセンス。Hugging Faceで提供。36億パラメータの汎用言語モデル、教師あり学習対話モデル、RLHF対話モデルの3種類を公開。RLHFモデルは人間評価で好ましい応答を生成することが確認されている。
brainpad.co.jp

利用料金体系

情報なし

関連する出典情報

copy url
source logowww.brainpad.co.jp
TRL
trlX
Argilla
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
OpenAI
*1
*2
こちらの記事
TRL
trlX
Argilla
Hugging Face
PPO (Proximal Policy Optimization)
*3
CarperAI
*4
GPT-NeoX
Implicit Language Q-Learning (ILQL)
こちらの記事
rinna株式会社
公式のプレスリリース
GPT-NeoX
汎用言語モデル
教師あり学習による対話言語モデル
RLHFによる対話言語モデル
*5
*6
*7
データセット
こちら
WRIME
実装例
Argilla
こちら
こちら
Colab notebook
Docker
こちら
*1
https://openai.com/research/learning-from-human-preferences
*2
https://blog.brainpad.co.jp/entry/2017/02/24/121500
*3
TRPO
*4
EleutherAI
*5
rinna、人間の評価を利用したGPT言語モデルの強化学習に成功|rinna株式会社
*6
*7
InteructGPTの論文