データベースに戻る
📀 出典のデータベース: LLM強化学習ツール・プラットフォーム一覧
ツール・プラットフォーム名
rinna株式会社の日本語特化LLM
🗓 更新日: 5/10/2025
公開中項目
対応するLLMの種類
GPT-NeoXベースの36億パラメータ汎用言語モデル、教師あり学習対話モデル、RLHF対話モデル
強化学習手法の種類
RLHFによる対話言語モデルのファインチューニング
主な特徴・機能
日本語特化のLLMをオープンソースで公開。RLHFモデルは商用利用可能なライセンス。Hugging Faceで提供。, 日本語特化のLLMをオープンソースで公開。RLHFモデルは商用利用可能なライセンス。Hugging Faceで提供。36億パラメータの汎用言語モデル、教師あり学習対話モデル、RLHF対話モデルの3種類を公開。RLHFモデルは人間評価で好ましい応答を生成することが確認されている。
利用料金体系
情報なし
すべての出典情報
RLHFを利用して用途に応じたLLMを生成できるツールの紹介 | DOORS DX
#### RLHF(人間のフィードバックによる強化学習)とは
RLHFは、大規模言語モデル(LLM)を人間好みの応答ができるように微調整する手法です。ヒューマンフィードバックが必要となり、データセットの作成やプロセスの実装を支援するツールとして、[TRL](https://huggingface.co/docs/trl/index)、[trlX](https://github.com/CarperAI/trlx)、[Argilla](https://argilla.io/)が紹介されています。
#### RLHFの目的
LLMの応答を、より人間の好みに合うようにファインチューニングすることです。「素」の言語モデルは差別的な応答や、事実でない情報をあたかも事実であるかのように語ったり、人間の意図した自然な応答を返さない場合があるため、人間が好む応答をLLMに理解させる必要があります。
#### RLHFの3つのステップ
RLHFは以下の3つのステップからなります。詳細については[こちらの記事](https://blog.brainpad.co.jp/entry/2023/05/31/160719)を参照してください。
#### ツール紹介
- **TRLとtrlX**:
- [Hugging Face](https://huggingface.co/)ライブラリであり、ヒューマンフィードバックの情報を含んだデータセットを用いた学習による、LLMのファインチューニングをサポートする分散学習フレームワークです。
- TRLはGPT-2などのトランスフォーマー言語モデルの[PPO (Proximal Policy Optimization)](https://github.com/EleutherAI/gpt-neox)アルゴリズムによる最適化をサポートします。
- trlXは[CarperAI](https://carper.ai/)が提供するPythonライブラリで、[GPT-NeoX](https://github.com/EleutherAI/gpt-neox)などの言語モデルについて、200億パラメータの規模までのファインチューニングをサポートしています。
- TRLはPPOアルゴリズムのみの利用ですが、trlXはPPOに加えて[Implicit Language Q-Learning (ILQL)](https://sea-snell.github.io/ILQL_site/)も利用可能です。
- 学習に必要なデータセットの例として、[こちらの記事](https://huggingface.co/docs/trl/using_llama_models)(LLAMAモデルをRLHFによってファインチューニングするチュートリアル)が参考になります。
- **rinna株式会社の日本語特化LLM**:
- [rinna株式会社](https://rinna.co.jp/)が開発した日本語特化のLLMを紹介します。
- [GPT-NeoX](https://github.com/EleutherAI/gpt-neox)をもとに、36億パラメータの[汎用言語モデル](https://huggingface.co/rinna/japanese-gpt-neox-3.6b)と[教師あり学習による対話言語モデル](https://huggingface.co/rinna/japanese-gpt-neox-3.6b-instruction-sft-v2)、さらに[RLHFによる対話言語モデル](https://huggingface.co/rinna/japanese-gpt-neox-3.6b-instruction-ppo)の3種類をオープンソースで公開しています。
- RLHFによる対話言語モデルはHugging Face上で商用利用可能なライセンスで公開されています[*5](https://www.brainpad.co.jp#f-acd479d8)。
- [データセット](https://huggingface.co/datasets/Anthropic/hh-rlhf)を用いています。
- rinna社が開発した各言語モデルは[こちら](https://huggingface.co/rinna)から参照できます。
- **Argilla**:
- [Argilla](https://argilla.io/blog/argilla-for-llms/)は、RLHFのプロセスをより手軽かつ柔軟に実行するためのオープンソースデータプラットフォームで、データセットの作成自体もサポートしています。
- プロンプトの作成には3つの方法があり、[こちら](https://docs.argilla.io/en/latest/guides/llms/conceptual_guides/sft.html#add-records)に詳しい記述があります。
- ArgillaのPython SDKを利用してデータセットをセットアップできます。
- 複数の担当者間で同一のプロンプトに対する応答文を用意し、担当者全員による投票で最も質の良い回答を決定することができます。詳しくは[こちら](https://docs.argilla.io/en/latest/guides/llms/practical_guides/collect_responses.html)のページを参照してください。
#### Argillaの始め方
Argillaを試すには、Hugging Faceアカウントが必要です。ブラウザ環境で動かす場合は[Colab notebook](https://docs.argilla.io/en/latest/tutorials/libraries/colab.html)を、自身の環境で試す場合は[Docker](https://docs.argilla.io/en/latest/getting_started/quickstart_installation.html#%F0%9F%90%B3-Argilla-Quickstart-with-Docker)で環境を構築する方法があります。各種チュートリアルは[こちら](https://docs.argilla.io/en/latest/tutorials/tutorials.html)にリストアップされています。
#### まとめ
この記事では、人間好みのLLMを生成できるRLHFをサポートするライブラリやプラットフォームとして、TRL、trlX、Argillaを紹介しました。自社データに特化した対話型言語モデルの需要が大きい日本において、これらのツールは役立つ可能性があります。
#### オススメの記事
- [生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例](https://www.brainpad.co.jp/doors/contents/about_generative_ai/)
- [DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】](https://www.brainpad.co.jp/doors/contents/about_dx/)
- [【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル](https://www.brainpad.co.jp/doors/contents/data_scientist_job/)
- [DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】](https://www.brainpad.co.jp/doors/contents/dx_case/)
- [LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題](https://www.brainpad.co.jp/doors/contents/01_about_llm/)
- [生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説](https://www.brainpad.co.jp/doors/contents/generative_ai_benchmark/)
このデータベースが役に立ちましたか?
あなたの仕事で調べたい項目をワンボタンでデータベースにできます。