DeskRex.ai

open α

テーマ

データベース

自動化

発見

サインイン

リサーチの結果の保存、レポートの作成、共有が行えます。

サインイン

レポートの一覧に戻る

最新解説:LLMの学習プロセスと生成AIのデータ利用懸念の実態

🗓 Created on 8/4/2025

  • 📜要約
  • 📊ビジュアライズ
  • 🖼関連する画像
  • 🔍詳細
    • 🏷1. LLMの基礎学習プロセスとデータ収集の概要
    • 🏷2. Transformerモデルと自己アテンションの役割
    • 🏷3. ファインチューニングとRAGの違いと特徴
    • 🏷4. 生成AIサービスにおけるユーザーデータの取り扱いとオプトアウト
    • 🏷5. ユーザーデータ学習懸念の現状と技術的論拠の限界
    • 🏷6. 今後の調査課題とプライバシー保護技術の展望
  • 🖍考察
  • 📚参考文献
    • 📖利用された参考文献
    • 📖未使用の参考文献
    • 📊ドメイン統計

📜 要約

主題と目的

本調査は、大規模言語モデル(LLM)がウェブ上のデータなどからどのように学習しているかを明らかにするとともに、生成AI利用者が「自分の入力データがモデルに学習されるのではないか」と懸念する背景を整理し、学習プロセスの仕組みからその懸念が過度ではないと考えられる技術的・運用的論拠を示すことを目的としています。

回答

1. LLMの学習プロセス概要

  1. データ収集
    • インターネット上のウェブページ、オンライン書籍、研究論文、コードリポジトリなど公開情報をテラバイト単位で取得
      oxylabs.io
      ,
      sapien.io
      。
  2. データ前処理
    • 不要HTMLタグや広告の除去、文字コード正規化
    • 品質フィルタリング:低品質・有害情報やPII(個人識別情報)のリダクションを実施28, 30。
    • 重複排除(完全一致/MinHash/意味的)
  3. トークン化
    • Byte Pair Encoding(BPE)等でサブワード単位に分割し、語彙(vocabulary)を構築
      wikipedia.org
      。
  4. 事前学習(Pre-training)
    • Transformerアーキテクチャの自己アテンション機構で文脈パターンを獲得
    • 数十億~数十兆トークン規模でパラメータ(重み)を最適化6
  5. タスク適応(Fine-tuning/RLHF)
    • ラベル付け済みドメインデータや人間フィードバックによって、特定タスク・スタイルへ調整
      sapien.io
      。
  6. 検索拡張生成(RAG)
    • 基盤モデルの重みを変更せず、外部ベクトルストア等からリアルタイムに情報を参照して回答を生成
      solulab.com
      。

2. ユーザー入力データの学習利用に関する懸念と論拠

多くの利用者は「自分のプロンプトや会話がモデルに取り込まれてしまうのでは」と不安を抱きますが、以下のポイントから過度な心配は不要と考えられます。
  1. モデル内部のデータ保存方式
    • LLMは生テキストをそのまま保存せず、トークン間の確率的関係パターンのみを学習1。
    • 例えば固有名詞「Edward」は「ed」「ward」に分割され、語彙として再利用されるため、個人特定情報として保持されない。
  2. PIIリダクションと前処理の徹底
    • 事前学習時にPIIを匿名化・除去するパイプラインが標準化されており、個人情報の取り込みリスクは低減
      huggingface.co
      。
  3. 学習への影響度
    • ユーザー入力は、訓練データ全体(数兆トークン)に比べ微小な割合に過ぎず、モデル重みに与える影響は統計的に無視できる。
  4. モデルへの再現(Memorisation)現象と対策
    • 頻出パターンの部分的再現はあり得るが、逐語的ではなく不完全かつ言い換えが中心1。
    • 差分プライバシー(DP)やモデルアンラーニングなど、個別情報漏洩を防ぐ技術研究が進展中1,
      arxiv.org
      。

3. 主要サービスのオプトアウト設定

サービスオプトアウト方法備考
ChatGPT設定→Data controls→「Improve the model for everyone」をOff2一時チャット機能で30日後削除も可
Google Gemini設定→チャット履歴オフ
google.com
Workspace版はトレーニング利用ゼロの契約保証
google.com
Copilot 等学習オプトアウト専用トグルテキスト・音声別切替などサービス毎に異なる

結果と結論

  • LLMは公開済みの大規模コーパスを厳格に前処理し、パターン学習を行う設計のため、個別ユーザーデータがそのまま埋め込まれることは本質的に想定されていません。
  • PIIリダクションやトークン化により、個人を特定可能な情報は学習データから除去・匿名化されます。
  • ユーザー入力がモデルの重みに与える影響は微小であり、多くの主要サービスが学習オプトアウト機能を提供しているため、過度な心配は不要です。
  • ただし、凍結・削除されない一時的チャットの存在や、人間レビュアーによる確認などの運用上の制約は残るため、機密情報は入力しない、定期的にポリシーを確認するといった利用者側の注意が依然として重要です。

コード実行

<!DOCTYPE html>
<html lang="ja">
<head>
  <meta charset="UTF-8" />
  <meta name="viewport" content="width=device-width, initial-scale=1" />
  <title>LLMの学習プロセスと生成AIのデータ学習懸念の比較</title>
  <script src="https://cdn.jsdelivr.net/npm/chart.js"></script>
  <style>
    body { font-family: Arial, sans-serif; margin: 20px; background-color: #f9f9f9; }
    h1, h2 { color: #2c3e50; }
    .container { max-width: 900px; margin: auto; background: white; padding: 20px; border-radius: 8px; box-shadow: 0 2px 8px rgba(0,0,0,0.1); }
    table { border-collapse: collapse; width: 100%; margin-top: 20px; }
    th, td { border: 1px solid #ddd; padding: 8px; text-align: left; }
    th { background-color: #3498db; color: white; }
    caption { font-weight: bold; margin-bottom: 10px; font-size: 1.1em; }
    ul { margin-top: 10px; }
    a { color: #2980b9; text-decoration: none; }
    a:hover { text-decoration: underline; }
  </style>
</head>
<body>
  <div class="container">
    <h1>LLMの学習プロセスと生成AIのデータ学習懸念の比較</h1>

    <h2>1. LLMの学習プロセスの概要</h2>
    <ul>
      <li>Transformerモデルの自己アテンション機構を用いて、大量のテキストデータから言語パターンを学習</li>
      <li>事前学習(Pre-training)で膨大な公開データを用いて基礎能力を獲得</li>
      <li>ファインチューニングで特定ドメインやタスクに適応</li>
      <li>データ収集はウェブスクレイピングなど多様なソースから行い、データクリーニングで品質向上</li>
    </ul>

    <h2>2. 生成AIのデータ学習に関する懸念と論拠</h2>
    <ul>
      <li>ユーザーデータがモデルの恒久的な学習に使われるかはサービスのポリシーに依存</li>
      <li>多くのサービスはユーザーが学習利用をオプトアウト可能</li>
      <li>リアルタイムの対話データは短期的な応答生成に使われるが、即座にモデルの重みに反映されるわけではない</li>
      <li>プライバシー保護技術(差分プライバシーなど)の研究が進行中</li>
    </ul>

    <h2>3. RAG(検索拡張生成)とファインチューニングの比較</h2>
    <table>
      <caption>RAGとファインチューニングの特徴比較</caption>
      <thead>
        <tr>
          <th>項目</th>
          <th>RAG(Retrieval Augmented Generation)</th>
          <th>ファインチューニング(Fine-tuning)</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>モデルの変更</td>
          <td>基盤モデルは変更せず、外部データをリアルタイム参照</td>
          <td>モデルのパラメータを直接調整し、知識を埋め込む</td>
        </tr>
        <tr>
          <td>データ鮮度</td>
          <td>最新の外部情報を即座に利用可能</td>
          <td>再学習しない限り情報は固定</td>
        </tr>
        <tr>
          <td>セキュリティ・プライバシー</td>
          <td>機密データは安全なデータベースに保持され、モデルに埋め込まれない</td>
          <td>トレーニングデータがモデルに直接供給されるリスクあり</td>
        </tr>
        <tr>
          <td>コスト</td>
          <td>初期低コスト、継続的な検索コストあり</td>
          <td>高いトレーニングコストが必要</td>
        </tr>
        <tr>
          <td>実装の複雑さ</td>
          <td>検索インフラの構築が必要</td>
          <td>大量データと計算リソースが必要</td>
        </tr>
        <tr>
          <td>応用例</td>
          <td>最新情報の提供、トレーサビリティ重視</td>
          <td>ドメイン特化、スタイル制御</td>
        </tr>
      </tbody>
    </table>

    <h2>4. 参考リンク</h2>
    <ul>
      <li><a href="https://www.redhat.com/en/topics/ai/retrieval-augmented-generation-vs-fine-tuning" target="_blank" rel="noopener noreferrer">Red Hat: RAG vs. Fine-Tuning</a></li>
      <li><a href="https://www.montecarlodata.com/blog-rag-vs-fine-tuning/" target="_blank" rel="noopener noreferrer">Montecarlodata: RAG vs Fine Tuning</a></li>
      <li><a href="https://www.ibm.com/think/topics/rag-vs-fine-tuning-vs-prompt-engineering" target="_blank" rel="noopener noreferrer">IBM: RAG vs Fine-tuning vs Prompt Engineering</a></li>
    </ul>

    <h2>5. 図:RAGとファインチューニングの比較</h2>
    <canvas id="comparisonChart" width="800" height="400"></canvas>
    <p style="font-size:0.8em; color:#666;">出典: <a href="https://www.redhat.com/en/topics/ai/retrieval-augmented-generation-vs-fine-tuning" target="_blank" rel="noopener noreferrer">redhat.com</a></p>
  </div>

  <script>
    const ctx = document.getElementById('comparisonChart').getContext('2d');
    const data = {
      labels: ['モデルの変更', 'データ鮮度', 'セキュリティ・プライバシー', 'コスト', '実装の複雑さ', '応用例'],
      datasets: [
        {
          label: 'RAG',
          data: [1, 1, 1, 0.5, 0.7, 0.8],
          backgroundColor: 'rgba(52, 152, 219, 0.7)',
          borderColor: 'rgba(41, 128, 185, 1)',
          borderWidth: 1
        },
        {
          label: 'ファインチューニング',
          data: [0.8, 0.3, 0.4, 0.9, 0.9, 0.7],
          backgroundColor: 'rgba(231, 76, 60, 0.7)',
          borderColor: 'rgba(192, 57, 43, 1)',
          borderWidth: 1
        }
      ]
    };

    const options = {
      scales: {
        y: {
          beginAtZero: true,
          max: 1.2,
          ticks: {
            stepSize: 0.2,
            callback: function(value) {
              switch(value) {
                case 0: return '低い';
                case 0.5: return '中';
                case 1: return '高い';
                default: return '';
              }
            }
          },
          title: {
            display: true,
            text: '評価(相対値)'
          }
        }
      },
      plugins: {
        legend: { position: 'top' },
        title: {
          display: true,
          text: 'RAGとファインチューニングの比較(相対評価)'
        }
      },
      responsive: true,
      maintainAspectRatio: false
    };

    new Chart(ctx, {
      type: 'bar',
      data: data,
      options: options
    });
  </script>
</body>
</html>

🖼 関連する画像

Image for cmdwoxhas00cnq06ywpmaogih
Image for cmdwqu9dq00ieq06y9vity8we
Image for cmdwoxhas00cpq06yrq5z3wqk
Image for cmdwoxhas00cqq06yc7io0wzs
Image for cmdwoxhas00crq06yoqduhzte
Image for cmdwoxhas00csq06y98h4ptme
Image for cmdwoxhas00ctq06yaizqqsvd
Image for cmdwoxk0q00fgq06yitlnko1u
Image for cmdwqubjx00jjq06y8f4vzmcg
Image for cmdwoxhas00cwq06ytripl644
Image for cmdwoxhat00d7q06yn41eawty
Image for cmdwoxhat00d8q06yoe9gyooj
Image for cmdwoxhat00d9q06y3uyarfla
Image for cmdwoxhat00daq06yr1o3ncn5
Image for cmdwoxhat00dcq06y8ef90b6l
Image for cmdwoxhat00ddq06ybx6xakjy
Image for cmdwoxhat00deq06ygfl3a6ta
Image for cmdwoxhat00dfq06yqpikwdno
Image for cmdwoxhat00dgq06yimevp28x
Image for cmdwoxhat00dbq06y4qwrnjor
Image for cmdwoxhau00dqq06yx92ockr6
Image for cmdwoxhau00drq06yhqxx099g
Image for cmdwoxhau00dsq06yiwvkdrj5
Image for cmdwoxhau00dtq06ydd80mc1r
Image for cmdwoxhau00duq06yzqkaghxb
Image for cmdwoxhau00dvq06ylfrb2wy6
Image for cmdwoxhau00dwq06y4k8zad7p
Image for cmdwoxhau00dxq06yvuxhkf47
Image for cmdwoxhau00dyq06ycupetdff
Image for cmdwoxhau00dzq06yoa90s3lb
Image for cmdwoxhav00eaq06yy1llbu3v
Image for cmdwoxhav00ebq06ykxqslb8n
Image for cmdwoxhav00ecq06ysefbnash
Image for cmdwoxhav00edq06ykgtb9pe1
Image for cmdwoxhav00eeq06y3elqfjo6
Image for cmdwoxhav00efq06ybd8i92d0
Image for cmdwoxhav00egq06yqc6tgl01
Image for cmdwoxhav00ehq06ypa0rbavy
Image for cmdwoxhav00eiq06y2txi1zv7
Image for cmdwoxhaw00ejq06yd0hxeszj
Image for cmdwoxk0o00euq06yi4jcii0q
Image for cmdwoxk0o00evq06yy3vs4nul
Image for cmdwqubjy00k1q06yx7adqpoc
Image for cmdwoxk0o00exq06yss4u3e97
Image for cmdwoxk0o00eyq06y8mcsxiix
Image for cmdwoxk0o00ezq06y6v53k3er
Image for cmdwoxk0p00f0q06y089fanda
Image for cmdwoxk0p00f1q06yzy3lf8u5
Image for cmdwoxk0p00f2q06ymqhpoext
Image for cmdwoxk0p00f3q06yv80qj627
Image for cmdwoxk0q00fdq06yh968n6ld
Image for cmdwoxk0q00feq06ylmz085q6
Image for cmdwoxk0q00ffq06ywn4dmezl
Image for cmdwoxk0q00fhq06yjmrvs57k
Image for cmdwoxk0q00fiq06yhmomc817
Image for cmdwoxk0q00fjq06y7yjcewoa
Image for cmdwoxk0r00fkq06y9rmmsreo
Image for cmdwoxk0r00flq06yxr9rcnq1
Image for cmdwoxk0r00fmq06yschqlrp8
Image for cmdwoxk0s00fxq06yzzgw9fjn
Image for cmdwoxk0s00fyq06yw5wyafss
Image for cmdwoxk0s00fzq06yzuqozy9y
Image for cmdwoxk0s00g0q06yqcy32mju
Image for cmdwoxk0s00g1q06ytk9cc0kr
Image for cmdwoxk0s00g2q06yr3ddvz72
Image for cmdwoxk0s00g3q06ye9pzxfvm
Image for cmdwoxk0t00g4q06yw7u4540m
Image for cmdwoxk0t00g5q06yplcv7cc6
Image for cmdwoxk0t00g6q06yhb236b1v
Image for cmdwoxk0u00gcq06y6lfii8av
Image for cmdwoxk0u00gdq06ys5aximg8
Image for cmdwoxk0u00geq06y38qowddb
Image for cmdwoxk0u00gfq06yddvlzxwz
Image for cmdwoxk0u00ggq06y4c8y2s58
Image for cmdwoxk0u00ghq06yl9bwaojk
Image for cmdwoxk0u00giq06yz60gf0y7
Image for cmdwoxk0u00gjq06y9adltqbp
Image for cmdwoxk0u00gkq06yyqs79q2l
Image for cmdwoxk0t00gbq06yummllt1n
Image for cmdwqu9do00hbq06yeshtyb34
Image for cmdwqu9do00hcq06yw4so4u6b
Image for cmdwqu9do00hdq06y2j7xzh9b
Image for cmdwqu9do00heq06yftcaznzs
Image for cmdwqu9do00hfq06ysegcbqzw
Image for cmdwqu9do00hgq06ybvtjpc0x
Image for cmdwqu9do00hhq06yzms6vr0o
Image for cmdwqu9do00hiq06yco458wcm
Image for cmdwqu9do00hjq06y24tnd4nl
Image for cmdwqu9do00hkq06yyoxxp2ba
Image for cmdwqu9dp00hvq06yx5il2r9w
Image for cmdwqu9dp00hwq06yuml1gu5z
Image for cmdwqu9dp00hxq06yuhkk5ao1
Image for cmdwqu9dp00hyq06y9ct8483j
Image for cmdwqu9dp00hzq06yzl0sq1ax
Image for cmdwqu9dp00i0q06yvn1yjcmt
Image for cmdwqu9dp00i1q06y11laea1t
Image for cmdwqu9dp00i2q06yklniguwc
Image for cmdwqu9dp00i3q06y3p0rz3bi
Image for cmdwqu9dp00i4q06yuroqclcu
Image for cmdwqu9dq00ifq06y9l5fyunm
Image for cmdwqu9dq00igq06yfhs2yfie
Image for cmdwqu9dq00ihq06y080lahwt
Image for cmdwqu9dq00iiq06yhvzy7p5n
Image for cmdwqu9dq00ijq06yjlbfq0qh
Image for cmdwqu9dq00ikq06y6mt4fuir
Image for cmdwqu9dq00ilq06yvteer05a
Image for cmdwqu9dq00imq06yvc2lhtb5
Image for cmdwqu9dq00inq06y6oll6one
Image for cmdwqu9dr00ixq06y9iozmx3l
Image for cmdwqu9dr00iyq06ycs66iz3p
Image for cmdwqu9dr00izq06yz610bjck
Image for cmdwqu9dr00j0q06yydo0l17o
Image for cmdwqu9dr00j1q06yyen54l2t
Image for cmdwqu9dr00j2q06y0cezr27d
Image for cmdwqu9dr00j3q06ydqkyzcu5
Image for cmdwqu9dr00j4q06ypx7rmnza
Image for cmdwqu9dr00j5q06yznb1s9jn
Image for cmdwqu9dr00j6q06y00xkeh1p
Image for cmdwqubjx00jhq06ymhlj7kkb
Image for cmdwqubjx00jiq06yapkcgavr
Image for cmdwqubjx00jkq06y1wpti7sv
Image for cmdwqubjx00jlq06yryafxms7
Image for cmdwqubjx00jmq06yli9c5x35
Image for cmdwqubjx00jnq06yx3ckv9r6
Image for cmdwqubjx00joq06ybp3xrpcy
Image for cmdwqubjx00jpq06yqx6wlhjr
Image for cmdwqubjx00jqq06yi6rtelki
Image for cmdwqubjy00k2q06ykgpa95av
Image for cmdwqubjy00k3q06y3qu3jarz
Image for cmdwqubjy00k4q06yqngv0ziy
Image for cmdwqubjy00k5q06ycd44qsko
Image for cmdwqubjy00k6q06ycs1untks
Image for cmdwqubjy00k7q06yzif7sh1x
Image for cmdwqubjy00k8q06yjhz6jje9
Image for cmdwqubjy00k9q06yeej8m5vc
Image for cmdwqubjy00kaq06yw8nunw4v

このレポートが参考になりましたか?

あなたの仕事の調査業務をワンボタンでレポートにできます。

無料でリサーチ

🔍 詳細

🏷1. LLMの基礎学習プロセスとデータ収集の概要

画像 1

最新解説:LLMの学習プロセスと生成AIのデータ利用懸念の実態

1. LLMの基礎学習プロセスとデータ収集の概要

大規模言語モデル(LLM)は、人間のような自然言語を理解し、生成する驚異的な能力を持っています。その基盤となるのは、大量のデータからの学習プロセスです。このプロセスは主に「事前学習」と「ファインチューニング」という二つの段階で構成され、それぞれ異なる目的を持っています
wikipedia.org
,
sapien.io
。
LLMの核となるアーキテクチャは「Transformer(トランスフォーマー)」と呼ばれ、その最大の特徴は「アテンションメカニズム」です6,
openai.com
。このメカニズムにより、モデルは入力テキスト内の単語間の複雑な関係性、つまり文脈を効率的に捉え、人間らしいテキストを生成する能力を身につけます
openai.com
。
大規模な事前学習:LLM知識の基盤
LLMの知識の大部分は、「事前学習」と呼ばれる初期段階で形成されます。この段階では、モデルはインターネット上のウェブページ、オンライン書籍、研究論文、コードリポジトリなど、膨大かつ多様な公開データから学習します
oxylabs.io
,
sapien.io
。その規模はテラバイトにも及ぶことが一般的で、例えば、Llama 3.1は15兆トークンものデータで訓練されています6。
この膨大なデータセットは、モデルが言語のパターン、文法、事実知識、そして意味論といった汎用的な理解を深めるための基盤となります
sapien.io
。OpenAIの基盤モデルも、主にインターネット上の公開情報、サードパーティと提携してアクセスする情報、そしてユーザーや研究者が提供・生成する情報を使用して開発されています
openai.com
。
特筆すべきは、Pleiasがリリースした「Common Corpus」のようなデータセットです。これは2兆トークンを超える許諾済みライセンスコンテンツのみを含み、著作権で保護されたデータなしでも有用なAIモデルが作成可能であることを示しています
huggingface.co
。このデータセットは、科学論文、政府・法務文書、コード、公共ドメインの書籍や新聞など、幅広いコンテンツで構成され、徹底したキュレーションが行われています
huggingface.co
。
厳格なデータ前処理:品質とプライバシーの確保
LLMの学習において、データ収集後の「データ前処理」は極めて重要な役割を担います。AIプロジェクトに費やされる時間の最大80%がデータ準備タスクに充てられているとされており、データの品質がモデルのパフォーマンスに大きく影響するからです30。未加工のウェブデータは、不適切な形式、重複、有害な情報などが含まれることが多いため、AIモデルが効率的かつ正確に学習できるよう、入念なクリーニングと構造化が必要です28。
主要なデータ前処理のステップは以下の通りです。
  1. テキスト抽出とクリーニング: PDF、HTML、Microsoft Office文書など、多様な形式からテキストを抽出し、HTMLタグや非UTF-8文字などの非テキスト要素を削除・正規化します2。ApifyのWebsite Content Crawlerのようなツールは、バナーや広告、メニューなどの不要なHTML要素を除去する機能を提供しており、LLMにフィードする必要なコンテンツのみを抽出するのに役立ちます
    apify.com
    。
  2. 品質フィルタリング: 低品質、関連性の低い、または不適切なコンテンツをデータセットから除外します30。これには、ドキュメントの長さ、繰り返しパターン、句読点の分布などを評価するルールベースのメトリクスや、軽量なテキスト分類器(例:FineWeb-Edu classifier)を用いたモデルベースのフィルタリングが含まれます2, 28。
  3. 重複排除(De-duplication): 重複データは、モデルの多様性を低下させ、トレーニングの不安定さや性能への悪影響を引き起こす可能性があります30。そのため、完全一致、ファジー(MinHash、LSH)、意味的重複排除といった様々なアプローチで、重複するコンテンツを除去します28。
  4. PII(個人識別情報)リダクション: LLMの事前学習に使用されるテキストデータには、ウェブから収集された個人を特定できる情報(PII)が含まれる場合があります。これはプライバシー侵害のリスクをもたらすため、PIIを特定し、匿名化することが不可欠です。名前、住所、社会保障番号などの直接的な識別子から、他のデータと組み合わせることで個人を特定できる可能性のある間接的な識別子まで、様々な機密情報が対象となります28,
    thealliance.ai
    , 30。このプロセスにより、データのプライバシーを維持し、規制を遵守し、ユーザーとの信頼を構築しながら、データセットの有用性を保つことが可能になります28。Common Corpusのようなデータセットでは、地域固有のPII検出システムを開発し、GDPRなどの規制遵守を徹底しています
    huggingface.co
    。
  5. トークン化(Tokenization): 生テキストをモデルが理解できる数値表現(トークン)に分割するステップです
    wikipedia.org
    。バイトペアエンコーディング(BPE)などのアルゴリズムが使用され、語彙サイズを小さく保ちながら、効率的な学習を可能にします30。
以下の図は、LLMのテキスト処理パイプラインの概念を示しており、PIIリダクションが重要なステップとして組み込まれていることが分かります。 Text processing pipeline built with NeMo Curator showing stages from data download to blending/shuffling, including relevant NVIDIA NIM microservices 図1. NeMo Curatorで構築できるテキスト処理パイプライン28
ファインチューニング:特定のタスクへの適応
事前学習を終えたLLMは、次に「ファインチューニング」によって特定のタスクやドメインに適応させられます
sapien.io
。この段階では、より小規模でラベル付けされた、ドメイン固有のデータセットが使用されます
sapien.io
。例えば、顧客サービスのチャットボットを開発する場合、実際の顧客サービススクリプトのデータセットが用いられます
sapien.io
。
ファインチューニングの目的は、モデルを特定の分野に特化させ、精度と関連性を向上させ、あるいはバイアスを削減することです
sapien.io
。このプロセスには、教師ありファインチューニングや、人間のフィードバックによる強化学習(RLHF)といった手法が含まれ
turing.com
、モデルの内部的な重み(パラメータ)を調整することで、その振る舞いを特定の目的に合わせます
solulab.com
。
生成AI利用時のデータ学習に関する懸念と、その心配が過度ではない論拠
生成AIを利用する際に「自分の入力データがモデルの学習に利用されてしまうのではないか」という懸念を抱くのは自然なことです
theverge.com
。しかし、LLMの学習プロセスと多くのサービス提供者のデータ利用ポリシーを考慮すると、その心配は必ずしも過度ではないと考えることができます。
その論拠は以下の通りです。
  • LLMのデータ処理の性質: LLMは、従来のデータベースのように個人データをそのまま保存するようには設計されていません1。ユーザーが入力したテキストは「トークン化」され、サブワード単位に分割されます。例えば、「Edward」という名前は「ed」と「ward」に分割され、これらのサブワードは他の単語形成にも再利用されるため、個人の識別性は失われます1。LLMが保存するのは、訓練データ内のパターンに基づくトークン間の確率的関係性であり、個々のデータポイントの関連付けそのものではありません1。 また、LLMの学習データの主要部分は、前述の通り、PIIリダクションを含む厳格な前処理が施された膨大な公開情報です6, 28。個々のユーザーが生成AIサービスに入力するデータは、この途方もないデータセットのごく一部に過ぎず、モデル全体の恒久的な挙動に直接的な影響を与えるほど大きなウェイトを持つ可能性は極めて低いと考えられます。
  • 「記憶(Memorisation)」現象とその対策: LLMが訓練データ中の頻繁に現れるパターンを「記憶」し、それを再現する現象は存在します1,
    wikipedia.org
    。これは、特定の情報が訓練データに過剰に表現された場合に発生する可能性があります。しかし、再現される個人データは逐語的ではなく「言い換え」られたり、「不完全」であったりすることが多く1,PIIリダクションなどの前処理によって、このような意図しない再現のリスクは低減されます30。 さらに、モデル訓練前に個人データの削除、最小化、難読化を行う技術的措置や、「モデルアンラーニング」のような新しい技術の研究も進められており、個人データが再現されるリスクの低減が図られています1。
  • サービス提供者のデータ利用ポリシーとユーザーコントロール: 多くの主要な生成AIサービスでは、ユーザーが自身のデータをモデル学習に利用されることを防ぐための設定が提供されています。
    • ChatGPT: ウェブ版およびモバイルアプリで「Improve the model for everyone」というトグルスイッチをオフにすることで、プロンプトがモデルのトレーニングに使用されるのを停止できます
      theverge.com
      ,
      datanorth.ai
      ,
      openai.com
      。ChatGPTの一時的なチャットは、モデルのトレーニングには使用されず、30日後にシステムから削除されます
      openai.com
      。
    • Google Gemini: チャット履歴をオフにすることで、チャットがAIの訓練に使用されるのを停止できます
      theverge.com
      ,
      google.com
      。ただし、アクティビティがオフであっても、会話はサービス提供のため最長72時間保持されます
      google.com
      。Google Workspace版のGeminiでは、ユーザープロンプトが生成AIモデルのトレーニングに使用されることはありません
      google.com
      。また、アップロードされた画像やファイルは、フィードバックに含まれない限り、生成機械学習技術の学習には使用されないと説明されています
      google.com
      。
    • Copilot、Perplexity、Grok on Xなども、同様にデータ学習のオプトアウト設定を提供しています
      theverge.com
      。
    • 多くの企業向けプランやAPI利用では、ユーザーデータがモデルのトレーニングに使用されないという契約上の保証が提供されています
      datanorth.ai
      , 22。
  • RAG(検索拡張生成)の活用: LLMがユーザーデータをどのように利用するかという懸念に対し、「Retrieval Augmented Generation (RAG)」という技術は、特にその心配が過度ではない論拠を提供します。RAGは、LLMの基盤モデル自体を変更せずに、ユーザーが選択したデータリポジトリや既存のドキュメントなどの外部ソースから情報を取得し、それをLLMのコンテキストとして処理して回答を生成するアプローチです
    solulab.com
    ,
    addepto.com
    。 これにより、ユーザーのデータがモデルの重みに恒久的に「学習されて埋め込まれる」のではなく、リアルタイムで参照されるため、データがモデルの一部として固定化されることへの懸念を和らげることができます
    solulab.com
    。特に企業ユースケースでは、RAGは機密データがモデル自体に埋め込まれるのではなく、組織の管理下にある安全なデータベースに保持されるため、セキュリティとプライバシーを強化します
    solulab.com
    。 一方、「ファインチューニング」は、モデルのパラメータを特定のデータセットでさらに訓練し、モデルのアーキテクチャに情報を埋め込むプロセスであり、機密データがモデルに直接供給されるリスクがあります
    solulab.com
    。多くの企業ユースケースでは、RAGがより安全でスケーラブルかつ費用対効果が高いとされています
    solulab.com
    。
RAGとファインチューニングの主な違いは以下の表の通りです。
項目RAG(検索拡張生成)ファインチューニング
定義外部データベースと組み合わせ、リアルタイムで関連情報を取得して応答を増強
solulab.com
。
ラベル付けされたデータセットでLLMを再訓練し、特定のタスクに合わせてモデルのパラメータを調整
solulab.com
。
目的リアルタイムデータに基づいて回答を根拠づけ、正確で文脈的に更新された応答を提供
solulab.com
。
特定のタスクまたはドメインでのパフォーマンスを向上させるためにLLM自体をカスタマイズ
solulab.com
。
モデルの変更モデルの重みは変更しない
solulab.com
。
モデルの重みを変更する
solulab.com
。
セキュリティ機密データは安全なデータベースに保持され、モデルの重みに埋め込まれないため、データアクセス制御が容易
solulab.com
。
トレーニング中に機密データがモデルに直接供給され、モデルがトレーニングデータを反芻するリスクがある
solulab.com
。

以上のことから、LLMの学習プロセスは、膨大な公開データと厳格な前処理(PIIリダクションを含む)によって行われ、個々のユーザーの入力データがモデルの基盤知識にそのまま恒久的に組み込まれる可能性は低いと言えます。さらに、多くの生成AIサービスがユーザーにデータ利用に関するコントロールを提供し、RAGのような技術は、ユーザーのデータがモデルの重みとして恒久的に保存されることなく、外部参照されることでプライバシー保護を強化しています。これらの論拠を総合すると、生成AI利用時のデータ学習に関する懸念は、各サービスのポリシーと利用技術を理解することで、そこまで過度な心配ではないと判断できます。ただし、常に利用するサービスのプライバシーポリシーを確認し、機密情報の入力には慎重になることが重要です。
copy url
source logooxylabs.io
Back to blog
web scraping API
web datasets
data for AI & LLMs
this research paper
copy url
source logofpf.org
2
5
6
7
8
9
11
13
17
18
20
21
↩︎
↩︎
↩︎
https://fpf.org/wp-content/uploads/2024/12/Post-Event-Summary-and-Takeaways-_-FPF-Roundtable-on-AI-and-Privacy-1-2.pdf
↩︎
https://christophergs.com/blog/intro-to-large-language-models-llms
↩︎
https://huggingface.co/docs/hub/en/model-cards
↩︎
↩︎
https://www.coursera.org/articles/neural-network-weights (accessed 4 July 2025).
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
copy url
source logoamazon.com
Artificial Intelligence
FineWeb-Edu classifier
trafilatura
Fine-tune Meta Llama 3.1 models using torchtune on Amazon SageMaker
pdfplumber,
pypdf
pdfminer
Amazon Textract
python-docx
CCNet
CCNet pipeline
MinHash
Jaccard similarity
shingles
Locality Sensitive Hashing
Llama 3 paper
Direct Preference Optimization (DPO) dataset
.
Ultrachat-feedback dataset
DPO
Alpaca: A Strong, Replicable Instruction-Following Model
Snapper
PPO
Improving your LLMs with RLHF on Amazon SageMaker
Amazon SageMaker
Amazon Simple Storage Service (Amazon S3)
FSx for Lustre
Hugging Face DataTrove
repo
Amazon Bedrock
SageMaker Ground Truth
Amazon SageMaker
copy url
source logowikipedia.org
language model
self-supervised
machine learning
natural language processing
language generation
generative pretrained transformers
generative
chatbots
ChatGPT
Gemini
Claude
fine-tuned
prompt engineering
predictive power
syntax
semantics
ontologies
[2]
language corpora
biases
data
[3]
edit
language models
IBM
word alignment
corpus-based language modeling
n-gram model
Kneser-Ney smoothing
perplexity
[5]
[6]
[7]
deep neural networks
[9]
word embeddings
Word2Vec
seq2seq
LSTM
neural machine translation
recurrent neural networks
encoder-decoder architectures
transformers
NeurIPS
Attention Is All You Need
attention
[11]
BERT
[12]
prompting
[13]
GPT-1
GPT-2
OpenAI
[14]
GPT-3
API
ChatGPT
[15]
GPT-4
multimodal
[16]
parameters
[13]
reasoning model
OpenAI o1
[17]
[18]
source-available
BLOOM
LLaMA
Mistral AI
Apache License
DeepSeek
[19]
multimodal
[20]
recurrent neural network
Mamba
state space
[21]
[22]
[23]
edit
edit
machine learning
embedding
byte-pair encoding
control characters
BERT
[24]
compresses
array
jagged
[25]
[26]
edit
punctuation marks
n-grams
GPT-3
[27]
[28]
edit
Shan language
Myanmar
[26]
[29]
edit
[31]
[32]
[33]
[1]
edit
Phi
[34]
edit
[35]
[36]
foundation model
[38]
edit
GPT-1
list of large language models
[39]
[40]
[42]
inference
FLOPs
[43]
edit
fine-tuned
reinforcement learning from human feedback
constitutional AI
[45]
[44]
edit
supervised learning
[46]
GPT-3.5
[44]
edit
reinforcement learning
[44]
edit
transformer
attention
[47]
edit
[48]
GPT-2
[28]
Gemini 1.5
[51]
[52]
ChatGPT
GPTs
masked
[54]
regularization
testing
edit
mixture of experts
machine learning
[55]
[56]
[57]
edit
floating point numbers
[58]
edit
[59]
[60]
[61]
codebook
[62]
low-rank adaptation
[64]
backpropagation
[65]
[66]
[67]
distillation
edit
edit
OpenAI
GPT-3
bootstrap
[68]
edit
[70]
[71]
edit
Retrieval-augmented generation
document retrieval
vector database
[72]
edit
[73]
API
[74]
[76]
edit
[77]
edit
autonomous agent
[78]
ReAct pattern
agent
[79]
[80]
[81]
Monte Carlo tree search
[82]
propose increasingly difficult tasks
curriculum learning
[84]
functions
[84]
[85]
edit
edit
[87]
[88]
Chain-of-Thought
[86]
[90]
edit
o1
o3
International Mathematics Olympiad
GPT-4o
[91]
[92]
[93]
[92]
edit
edit
modality
proprioception
Google PaLM
robotic control
[95]
LLaMA
[96]
[97]
GPT-4o
[98]
[99]
[101]
edit
natural language
code completion
automatic programming
GitHub Copilot
[102]
[103]
embedding
multiple sequence alignments
Meta Platforms
AlphaFold2
[105]
metagenomic
[106]
[107]
regulatory sequences
[108]
[109]
edit
edit
artificial neural network
empirical statistical laws
Chinchilla scaling
log-log
learning rate
FLOPs
nats
[43]
edit
breaks
[111]
break(s)
[112]
[113]
[114]
[115]
in-context learning
International Phonetic Alphabet
[112]
[117]
[118]
cardinal directions
[119]
chain-of-thought prompting
[120]
Hinglish
Kiswahili
[121]
smooth scaling law
[122]
edit
black boxes
[123]
edit
Mechanistic interpretability
reverse-engineer
sparse autoencoders
modular arithmetic addition
discrete Fourier transform
grokking
overfitting
[125]
[126]
edit
"understand"
artificial general intelligence
[128]
[129]
Ilya Sutskever
[130]
[131]
[132]
Connor Leahy
Shoggoths
[133]
[134]
stochastic parrot
[127]
[129]
justified
training data
hallucination
[135]
[136]
Terrence Sejnowski
[127]
automated reasoning
retrieval-augmented generation
fine-tuning
[137]
cognition
cognitive linguistics
George Lakoff
[138]
computational basis
The NTL Model
The Language Myth: Why Language Is Not An Instinct
Vyvyan Evans
probabilistic context-free grammar
NLP to model cognitive patterns
[139]
[140]
edit
edit
perplexity
overfit
test set
[141]
edit
information theory
entropy
Claude Shannon
cross-entropy
lossless compression
Chinchilla
ImageNet
[143]
edit
Benchmarks
commonsense reasoning
[144]
[145]
[147]
MMLU
HLE (Humanity's Last Exam)
[142]
[147]
[149]
[150]
[151]
edit
[147]
[141]
[152]
edit
[127]
[154]
BERT
[155]
edit
[156]
Goldman Sachs
[157]
[158]
[159]
cultural evolution
edit
[161]
[162]
edit
[164]
Anthropic
[165]
[167]
Pravda network
[167]
[168]
Yongge Wang
[169]
citation needed
[170]
edit
prompt injection
[172]
[173]
edit
[175]
edit
[176]
[177]
[178]
edit
[179]
[180]
edit
[181]
edit
Data centers
climate change
[182]
Nuclear power
geothermal energy
Chevron
Exxon Mobil
natural gas
[184]
edit
[185]
edit
edit
"Language Models are Few-Shot Learners"
arXiv
2005.14165
Archived
^
^
Manning, Christopher D.
"Human Language Understanding & Reasoning"
doi
10.1162/daed_a_01905
S2CID
248377870
Archived
^
arXiv
cs/0108005
Bibcode
2001cs........8005G
^
"Introduction to the Special Issue on the Web as Corpus"
doi
10.1162/089120103322711569
ISSN
0891-2017
^
"Scaling to very very large corpora for natural language disambiguation"
doi
10.3115/1073012.1073017
^
"The Web as a Parallel Corpus"
doi
10.1162/089120103322711578
ISSN
0891-2017
Archived
^
"Can artificial neural networks learn language models?"
doi
10.21437/icslp.2000-50
^
"Review of Image Classification Algorithms Based on Convolutional Neural Networks"
Bibcode
2021RemS...13.4712C
doi
10.3390/rs13224712
^
Vaswani, Ashish
Gomez, Aidan N
"Attention is All you Need"
Archived
^
arXiv
1409.0473
[cs.CL
^
"A Primer in BERTology: What We Know About How BERT Works"
arXiv
2002.12327
doi
10.1162/tacl_a_00349
S2CID
211532403
Archived
"Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers"
arXiv
2307.10700
doi
10.18653/v1/2024.naacl-long.67
^
"New AI fake text generator may be too dangerous to release, say creators"
The Guardian
Archived
^
"ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months"
Euronews
Archived
^
"GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why"
MIT Technology Review
Archived
^
"OpenAI Unveils New ChatGPT That Can Reason Through Math and Science"
The New York Times
^
"Parameters in notable artificial intelligence systems"
^
"Open-source DeepSeek-R1 uses pure reinforcement learning to match OpenAI o1 — at 95% less cost"
^
"Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024"
^
arXiv
2305.13048
[cs.CL
^
"What Is a Transformer Model?"
Archived
^
arXiv
2312.00752
^
arXiv
2206.02608
^
"All languages are NOT created (tokenized) equal"
the original
"Language Model Tokenizers Introduce Unfairness Between Languages"
arXiv
2305.15425
Archived
^
"OpenAI API"
the original
doi
10.1007/978-3-031-23190-2_2
ISBN
9783031231902
^
"The Art of Prompt Design: Prompt Boundaries and Token Healing"
^
arXiv
2104.08758
[cs.CL
^
Carlini, Nicholas
"Deduplicating Training Data Makes Language Models Better"
doi
10.18653/v1/2022.acl-long.577
^
arXiv
2309.05463
^
arXiv
2404.07965
[cs.CL
^
arXiv
2404.14219
[cs.CL
^
arXiv
2203.02155
[cs.CL
^
OpenAI
"Aligning language models to follow instructions"
^
"Foundation Models And LLMs: 19 Real-World, Practical Use Cases"
^
"7 Steps to Mastering Large Language Model Fine-tuning"
^
"From bare metal to a 70B model: infrastructure set-up and scripts"
Archived
^
"metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq"
Archived
^
"State of the Art: Training >70B LLMs on 10,000 H100 clusters"
^
arXiv
2310.03715
arXiv
2001.08361
[cs.LG
arXiv
2203.02155
[cs.CL
^
"AI gains "values" with Anthropic's new Constitutional AI chatbot approach"
^
arXiv
2109.01652
[cs.CL
^
"A Deep Dive Into the Transformer Architecture – The Development of Transformer Models"
^
"Illustrated transformer"
Archived
^
"The Illustrated GPT-2 (Visualizing Transformer Language Models)"
^
"Our next-generation model: Gemini 1.5"
Archived
^
"Long context prompting for Claude 2.1"
Archived
^
"Rate limits"
Archived
^
"A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP"
arXiv
2104.10810
doi
10.1145/3373017.3373028
ISBN
9781450376976
S2CID
211040895
Archived
^
arXiv
1701.06538
[cs.LG
^
arXiv
2006.16668
[cs.CL
^
"More Efficient In-Context Learning with GLaM"
Archived
^
"How to run an LLM locally on your PC in less than 10 minutes"
^
"Up or Down? Adaptive Rounding for Post-Training Quantization"
Archived
^
arXiv
1802.05668
[cs.NE
^
arXiv
2210.17323
[cs.LG
^
"A Visual Guide to Quantization"
the original
^
Holtzman, Ari
arXiv
2305.14314
[cs.LG
^
"Learned Quantization in ml-explore mlx-lm"
^
"What is quantization aware training?"
^
arXiv
2306.03078
[cs.CL
^
"Unsloth Dynamic 2.0 GGUFs"
^
arXiv
2212.10560
[cs.CL
^
"Introducing ChatGPT"
^
"OpenAI Platform"
^
"Giving Claude a role with a system prompt"
^
"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"
arXiv
2005.11401
Archived
^
"The tool integration problem that's holding back enterprise AI (and how CoTools solves it)"
^
arXiv
2303.16434
[cs.AI
^
arXiv
2305.15334
[cs.CL
^
"ChatGPT-AutoExpert/_system-prompts/all_tools.md at 835baae768870aa9747663c24d8216820d24fd74 · spdustin/ChatGPT-AutoExpert"
^
"Core Concepts: Long-term Memory in LLM Applications"
^
arXiv
2308.11432
doi
10.1007/s11704-024-40231-1
^
arXiv
2210.03629
[cs.CL
^
arXiv
2302.01560
[cs.AI
arXiv
2303.11366
[cs.AI
^
arXiv
2305.14992
[cs.CL
^
arXiv
2306.01711
[cs.AI
"Voyager | An Open-Ended Embodied Agent with Large Language Models"
Archived
^
arXiv
2304.03442
[cs.HC
arXiv
2201.11903
^
arXiv
2203.06566
^
"What is prompt chaining?"
^
"What is chain of thought (CoT) prompting?"
^
"Deeper insights into AI language models - chain of thought prompting as a success factor"
"Introducing OpenAI o1-preview"
"OpenAI Unveils New A.I. That Can 'Reason' Through Math and Science Problems"
^
"China's cheap, open AI model DeepSeek thrills scientists"
^
"Multimodal Neural Language Models"
Archived
^
arXiv
2303.03378
[cs.LG
^
arXiv
2304.08485
[cs.CV
^
arXiv
2306.02858
[cs.CL
^
"OpenAI says natively multimodal GPT-4o eats text, visuals, sound – and emits the same"
^
"Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024"
^
arXiv
2301.12597
[cs.CV
^
"Flamingo: a Visual Language Model for Few-Shot Learning"
arXiv
2204.14198
Archived
^
doi
10.1145/3511861.3511863
ISBN
978-1-4503-9643-1
S2CID
246681316
^
doi
10.1016/j.csi.2024.103917
^
doi
10.1016/j.sbi.2025.102997
PMID
39921962
^
"Evolutionary-scale prediction of atomic-level protein structure with a language model"
Bibcode
2023Sci...379.1123L
bioRxiv
10.1101/2022.07.20.500902
doi
10.1126/science.ade2574
PMID
36927031
^
"ESM Metagenomic Atlas | Meta AI"
^
Bibcode
2025Sci...387..850H
doi
10.1126/science.ads0018
PMID
39818825
^
"GENA-LM: a family of open-source foundational DNA language models for long sequences"
doi
10.1093/nar/gkae1310
PMC
11734698
PMID
39817513
^
"Multi-purpose RNA language modelling with motif-aware pretraining and type-guided fine-tuning"
doi
10.1038/s42256-024-00836-4
^
arXiv
2203.15556
[cs.CL
arXiv
2210.14891
[cs.LG
"Emergent Abilities of Large Language Models"
ISSN
2835-8856
Archived
^
"137 emergent abilities of large language models"
^
arXiv
2304.00612
[cs.CL
^
arXiv
2403.09404
[cs.AI
^
arXiv
2303.07971
[cs.LG
^
"Proceedings of the 2019 Conference of the North"
doi
10.18653/v1/N19-1128
S2CID
102353817
Archived
^
"WiC: The Word-in-Context Dataset"
Archived
^
"Mapping Language Models to Grounded Conceptual Spaces"
Archived
^
A Closer Look at Large Language Models Emergent Abilities
Archived
Wayback Machine
^
"The Unpredictable Abilities Emerging From Large AI Models"
Archived
^
arXiv
2304.15004
[cs.AI
^
"What are large language models supposed to model?"
doi
10.1016/j.tics.2023.08.006
PMID
37659920
^
arXiv
2301.05217
[cs.LG
^
"How Do Machines 'Grok' Data?"
^
"On the Biology of a Large Language Model"
"The debate over understanding in AI's large language models"
arXiv
2210.13966
Bibcode
2023PNAS..12015907M
doi
10.1073/pnas.2215907120
PMC
10068812
PMID
36943882
^
"Microsoft Says New A.I. Shows Signs of Human Reasoning"
arXiv
2303.12712
[cs.CL
^
"Anthropic CEO Dario Amodei pens a smart look at our AI future"
^
"ChatGPT is more like an 'alien intelligence' than a human brain, says futurist"
Archived
"What Kind of Mind Does ChatGPT Have?"
Archived
^
"Why an Octopus-like Creature Has Come to Symbolize the State of A.I."
Archived
^
"The A to Z of Artificial Intelligence"
Archived
^
"Survey of Hallucination in Natural Language Generation"
Association for Computing Machinery
arXiv
2202.03629
doi
10.1145/3571730
S2CID
246652372
Archived
^
arXiv
2307.03987
[cs.CL
^
"Why Amazon is Betting on 'Automated Reasoning' to Reduce AI's Hallucinations: The tech giant says an obscure field that combines AI and math can mitigate—but not completely eliminate—AI's propensity to provide wrong answers"
ISSN
0099-9660
^
ISBN
978-0-465-05674-3
^
ISBN
978-1-107-04396-1
^
ISBN
978-0-262-36997-8
"Language Models are Few-Shot Learners"
Archived
"Evaluation Metrics for Language Modeling"
^
"AI language models can exceed PNG and FLAC in lossless compression, says study"
^
^
archived
arXiv
1905.10044
[cs.CL
arXiv
2303.18223
[cs.CL
^
"CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models"
arXiv
2010.00133
doi
10.18653/v1/2020.emnlp-main.154
cite conference
link
^
"StereoSet: Measuring stereotypical bias in pretrained language models"
arXiv
2004.09456
doi
10.18653/v1/2021.acl-long.416
cite conference
link
^
"Parity benchmark for measuring bias in LLMs"
doi
10.1007/s43681-024-00613-4
cite journal
link
^
arXiv
2306.17176
doi
10.1109/FNWF58287.2023.10520446
ISBN
979-8-3503-2458-7
^
"Sanitized open-source datasets for natural language and code understanding: how we evaluated our 70B model"
Archived
^
arXiv
2206.04615
[cs.CL
^
arXiv
2109.07958
[cs.CL
arXiv
1905.07830
[cs.CL
^
"Prepare for truly useful large language models"
doi
10.1038/s41551-023-01012-6
PMID
36882584
S2CID
257403466
^
"Your job is (probably) safe from artificial intelligence"
Archived
^
"Generative AI Could Raise Global GDP by 7%"
Archived
^
"Machine culture"
arXiv
2311.11388
doi
10.1038/s41562-023-01742-2
ISSN
2397-3374
PMID
37985914
^
"Near-Duplicate Sequence Search at Scale for Large Language Model Memorization Evaluation"
doi
10.1145/3589324
S2CID
259213212
Archived
^
Peng, Wang & Deng 2023
^
"How Googlers cracked an SF rival's tech model with a single word"
Archived
^
"AI chatbots have been used to create dozens of news content farms"
^
"Could chatbots help devise the next pandemic virus?"
doi
10.1126/science.adj2463
Archived
^
"AI poisoning could turn models into destructive "sleeper agents," says Anthropic"
^
arXiv
2302.05733
[cs.CR
"Russian propaganda may be flooding AI models"
^
"Russian networks flood the Internet with propaganda, aiming to corrupt AI chatbots"
Bulletin of the Atomic Scientists
^
"Encryption Based Covert Channel for Large Language Models"
Archived
^
arXiv
2507.02424
^
"openai-python/chatml.md at v0.27.6 · openai/openai-python"
^
"The inside story of how ChatGPT was built from the people who made it"
Archived
^
arXiv
2302.12173
[cs.CR
arXiv
2506.19028v1
[cs.CL
^
arXiv
2303.16281v2
[cs.CY
^
Morgenstern, Jamie
arXiv
2402.01908
doi
10.1038/s42256-025-00986-z
^
arXiv
2305.18189
^
"Gender bias and stereotypes in Large Language Models"
arXiv
2308.14921
doi
10.1145/3582269.3615599
ISBN
979-8-4007-0113-9
^
arXiv
2409.18857
^
arXiv
2309.03882
^
"AI language models are rife with different political biases"
^
"How Much Energy Do LLMs Consume? Unveiling the Power Behind AI"
^
"Artificial Intelligence wants to go nuclear. Will it work?"
^
"AI's energy hunger fuels geothermal startups but natgas rivalry clouds future"
^
arXiv
doi
10.48550/arXiv.2506.08872
edit
Jurafsky, Dan
arXiv
2303.18223
[cs.CL
arXiv
2307.10169
[cs.CL
"A Survey on Multimodal Large Language Models"
arXiv
2306.13549
doi
10.1093/nsr/nwae403
PMC
11645129
PMID
39679213
"AI Index Report 2024 – Artificial Intelligence Index"
"Baby steps in evaluating the capacities of large language models"
doi
10.1038/s44159-023-00211-x
ISSN
2731-0574
S2CID
259713140
arXiv
2404.09932
[cs.LG
copy url
source logohuggingface.co
Community Article
training large language models requires copyrighted data
Pleias
Common Corpus
HuggingFace
Dolma
FineWeb
RefinedWeb
have powered many language models
disproportionately toxic
low-quality
websites are restricting access to their data
an analysis of 1 million user interactions with ChatGPT
OCRonos-Vintage
available on HuggingFace
[https://huggingface.co/datasets/PleIAs/common_corpus]
https://huggingface.co/datasets/PleIAs/common_corpus
copy url
source logoprojectpro.io
| BY Nishtha
Start Project
USD 36.1 billion
Why do you Need LLM Datasets for Training?
Top LLM Datasets for Training by Category
LLM Datasets for Text Generation
LLM Training Datasets for Question Answering
Datasets for LLM Training for Text Classification
LLM Datasets for Training for Code Generation
LLM Datasets for the Healthcare Industry
Other Miscellaneous LLM Datasets for Training
Choosing an LLM Dataset for your First AI Project
Build Your First LLM with ProjectPro!
GenAI Certification Course
View All Projects
falcon-refinedweb dataset
cosmopedia
https://github.com/rajpurkar/SQuAD-explorer
rajpurkar/squad
Python
stanfordnlp/SHP
Natural Language Processing (NLP)
https://huggingface.co/Open-Orca
https://www.loc.gov/
dell-research-harvard/AmericanStories
li2017dailydialog/daily_dialog
bigcode/bigcodebench
Internet Archive StackExchange Data Dump
mikex86/stackoverflow-posts
image classification models,
Roboflow Chest X-Ray Dataset
chest-xray-classification
ncbi/pubmed
nampdn-ai/tiny-codes
GitHub
THUDM/LongBench
lmsys/chatbot_arena_conversations
https://github.com/zhangir-azerbayev/proof-pile
hoskinson-center/proof-pile
top 30+ LLM Project Ideas.
ProjectPro
generative AI,
copy url
source logoscraperapi.com
copy url
source logoapify.com
automating web data collection to supply AI
Website Content Crawler
AI data collection
Start URLs
Crawler settings
HTML processing
Data cleaning
Output settings
Running the Actor
Storing and exporting the data
Integrations
Website Content Crawler
sign in or sign up
https://docs.apify.com/academy/web-scraping-for-beginners
anti-bot blocking
costs
if the glob matches what you want
Dataset
integrating your data with LangChain
vector database
Pinecone
Pinecone alternatives
this tutorial on how to use LangChain and Pinecone with Apify
Make.com
Sign up for a free account
copy url
source logopromptcloud.com
show
web scraping
LLM integration
Project Pro
data extraction.
scraping prices
scrape customer reviews
avaScript
scraping news articles
Medium
web scraping framework
web scrapers
market research
Schedule a demo
copy url
source logolabellerr.com
Large Language Models (LLMs)
80% of the time spent on AI projects
sentiment analysis
Pretraining Of LLMs
Corpus/Corpora
Data Collection
Data Source
Data Preprocessing
Quality Filtering
De-duplication
Privacy Redaction
Tokenization
Effects of Pretraining Data on LLMs
Mixture of Sources
Amount of Pretraining Data
Quality of Pretraining Data
Double Descent
Conclusion
FAQs
corpora i
general data and specialized data.
multilingual data
scientific data
article
Start your AI project with a free demo today!
Wikipedia pages
BLOOM and Gopher
evaluation metric
Statistic-based filtering measures
de-duplication
words and n-grams
training and evaluation sets
personally identifiable information (PII)
Tokenization
SentencePiece
Byte Pair Encoding
NFKC
semantic knowledge
Gopher
C4 dataset
C4 validation dataset
T5
GLaM
double descent
generalization error
model complexity
bias and variance
regularisation
Data collection
Download the Free Guide
copy url
source logothealliance.ai
copy url
source logonvidia.com
customizing LLMs
synthetic data
NVIDIA NeMo Curator
synthetic data generation (SDG)
Nemotron-4
Nemotron-4-340B reward NIM
high-quality Vietnamese data
OSCAR
follow along with the full tutorial
NeMo Curator
Zyphra reduced the total cost of ownership (TCO)
NVIDIA/NeMo-Curator GitHub repository
tutorials
NeMo framework container
NVIDIA AI Enterprise
copy url
source logoopenai.com
Privacy Policy
this help center article
Privacy Policy
Privacy Portal
copy url
source logoopenai.com
copy url
source logoopenai.com
copy url
source logoaddepto.com
fine-tuning
copy url
source logowww.solulab.com
Retrieval-Augmented Generation (RAG)
generative AI
AI models
large language models (LLMs)
fine-tuning
large language models (LLMs)
AI solutions
InfuseNet
AI development company
AI application
LLM development solutions
copy url
source logoturing.com
business analytics
Reinforcement learning from human feedback (RLHF)
reinforcement learning
Explore the Case Study
13-billion-parameter model
chatbot applications
LLMs for enterprise-scale applications
Talk to an expert
Get Started
copy url
source logomedium.com
the perfect roadmap to help you land your first data science job.
you can grab it right now by clicking here.
DeepSpeed Documentation
Google Research Paper on BERT
OpenAI’s GPT Series Papers
copy url
source logosapien.io
fine-tuning LLMs
GPT-3 developed by OpenAI
SFT LLM
Stanford University
LiDAR in autonomous vehicles
domain-specific LLMs
copy url
source logomedium.com
copy url
source logoopenai.com
blog post
How do I export my ChatGPT history and data?
How can I delete my account?
How your data is used to improve model performance
Temporary Chat FAQ
Enterprise privacy policies
copy url
source logoopenai.com
version
this help center article(opens in a new window)
files(opens in a new window)
images(opens in a new window)
audio(opens in a new window)
Cookie Notice
this article
our instructions(opens in a new window)
shared links(opens in a new window)
here(opens in a new window)
privacy.openai.com(opens in a new window)
privacy.openai.com(opens in a new window)
this help center article(opens in a new window)
privacy.openai.com(opens in a new window)
California privacy rights reporting
contact support(opens in a new window)
copy url
source logodatanorth.ai
Statista conducted a survey about ChatGPT
ChatGPT
OpenAI
GPT-4.5
ChatGPT saves your data
800 million weekly users
GDPR
accused of data breaches
Italy already banned the chatbot
submit a privacy request
ChatGPT Enterprise subscription
Trust Portal
Azure OpenAI Service
here
AI-as-a-Service
ChatGPT plugins
ChatGPT workshop
ChatGPT Assessment
Get in touch with DataNorth AI
copy url
source logogoogle.com
privacy commitments
qualifying edition
link at the bottom of this page
Expand section
Collapse all & go to top
Cloud Data Processing Addendum
Below is a depiction of the workflow of a user prompt.
The life of a prompt: Demystifying Gemini
to learn how it works for our business, education, and public sector customers.
Client-side encryption
Information Rights Management
, can also help restrict Gemini’s access to sensitive data.
Expand section
Collapse all & go to top
Cloud Data Processing Addendum
.
9001
,
,
,
, and
- the world's first international standard for Artificial Intelligence Management Systems (AIMS). Gemini has
FedRAMP High authorization
Google-Extended
Expand section
Collapse all & go to top
Workspace Blog
launched
Turn Google Workspace smart features on or off
Turn Google Workspace smart features on or off
Learn how to turn the Gemini app on or off for users
Google Cloud Privacy Notice
Expand section
Collapse all & go to top
privacy, security, and compliance white paper
Adding audit logs for Gemini for Google Workspace activity
.
prompts and responses
.
Data covered by data regions
).
Learn more about how we are protecting gen AI users from threats
.
privacy compliance
9001
,
,
,
, and
certifications. Gemini has
FedRAMP High authorization
.
ISO/IEC 42001
and the
have been updated to reflect the inclusion of Gemini.
FedRAMP High authorization
Google Cloud Blog
.
.
for guidance around the DPIA process itself.
Expand section
Collapse all & go to top
Cloud Data Processing Addendum
Turn Workspace extensions in Gemini on or off (Beta)
. You can find more details at
. Also as mentioned above, users have control over their smart feature settings, including allowing the Gemini app to access Workspace data via the Workspace extension. You can learn more about these user controls at
.
for most Google Workplace editions subject to your organization’s Workspace agreement, including the
. When Google Workspace business, education, and public sector customers use the Gemini app, they get the same robust data protection and security standards that come with all Google Workspace services. Your chats and uploaded files won't be reviewed by human reviewers or otherwise used to train generative AI models outside of your domain without your permission.
.
Expand section
Collapse all & go to top
core Workspace service
and gets the same robust data protection and security standards that come with all Google Workspace services. In addition, your uploads, queries and the model's responses in NotebookLM will not be reviewed by human reviewers, and will not be used to train generative AI models.
file sharing
settings do not apply to data in NotebookLM.
turn NotebookLM on or off
export NotebookLM data using the Data Export tool
.
copy url
source logotheverge.com
copyright use
energy demands
human creativity
make efforts
read the data policy here
into the chat
this well-hidden form
alternative form
mbasic.facebook.com
privacy policy
signed a deal
scooped up by AI bots anyway
copy url
source logogoogle.dev
https://www.reddit.com/r/GoogleGeminiAI/comments/1jmevb0/gemini_25_api_in_privacy_mode/
copy url
source logogoogle.com
Gemini Apps Privacy Notice
Your data and Gemini Apps
What data is collected and how it’s used
How human reviewers improve Google AI
Configuring your settings
How Gemini Apps Activity works with other services and settings
Requesting content removal and exporting your information
Using Gemini as your device assistant on Android
Things to know
Terms of Service
Privacy questions
General
What are Gemini Apps?
How can I object to the processing of my data or ask for inaccurate data in Gemini Apps’ responses to be corrected?
What are Google’s legal bases of processing Gemini Apps data under European Union (EU) or United Kingdom (UK) data protection law?
Do you use my Gemini Apps chats to show me ads?
Can I access and delete my data from my Google Account?
Who has access to my chats, and how does human review improve Gemini for everyone?
Why does Google retain my conversations after I turn off Gemini Apps Activity and what does Google do with this data?
How does Google use my feedback?
What happens when I ask Gemini Apps to save info?
Location & other permissions information
Uploaded files
Connected apps in Gemini
Gemini Live
Gemini in Chrome
Gems
Canvas
Privacy Policy
(“
screens
g.co/privacypolicy/location
Privacy Policy
applicable age in your country
) and Gemini Apps is available to you, Gemini Apps Activity is off. If your
is on, Google stores your
with your Google Account for up to 18 months. You can change this to 3 or 36 months in your
.
Visit your Google Account
turn off Gemini Apps Activity
.
Learn more
Web & App Activity
, may keep saving location and other data as you use other Google services. You can also integrate and use Gemini Apps with other Google services. When you do, those services save and use your data to provide and improve their services, consistent with their policies and the Google
. If you use Gemini Apps to interact with third-party services, they will process your data according to their own privacy policies.
Learn more
request
your information.
Gems
) in Gemini Apps. When you use these supplemental features, additional data you provide (such as Gem names and custom instructions) are collected, and used consistent with this notice and our
, including to improve Google AI with help from human reviewers.
Gemini Apps Privacy Hub
Google Terms
apply to Gemini Apps.
Korean Location Terms of Service
Gemini Apps Privacy Notice
gemini.google.com
Gemini app
as your mobile assistant
Gemini app
specific locations
Gemini in Chrome
Learn more about availability
create a request in our Help Center
Google Privacy Policy
Gemini Apps Privacy Notice
Google Terms of Service
Voice Match
audio & Live recordings to improve Google services for everyone
Privacy and Security Principles
Your Gemini Apps Activity
manage and delete your data
Your Gemini Apps Activity
Learn more about managing chats
Gemini Apps Activity
Gemini Apps Activity
Your Gemini Apps Activity
Gemini Apps Activity
Learn more about Gemini Apps Activity
export your information
Google Privacy Policy
Gemini Apps Privacy Notice
Gemini models
Activity
Gemini Apps Activity
Gemini Apps Activity
Google Privacy Policy
Learn how to send feedback or report a problem with Gemini Apps
saved info setting
Learn how to delete saved info or turn off this setting
Gemini Apps Privacy Notice
g.co/privacypolicy/location
Google Privacy Policy
Learn how to manage your location
Learn how to manage device location settings
manage mobile permissions when Gemini is your device assistant
Learn how to manage your Gemini Apps activity
gemini.google.com
gemini.google.com
gemini.google.com
gemini.google.com
Gemini app
Learn where Gemini in Google Messages is available
about your location and how to manage it
Gemini in Chrome
Gemini app
Google app permissions
Gemini Apps Privacy Notice
submit feedback on a Gemini App response
Learn more about how Google uses your feedback
Learn more about apps that Gemini can connect with
Learn how to manage apps in Gemini
Google Privacy Policy
How Google retains data it collects
the Apps page
Gemini Apps Activity
Learn more about apps that Gemini can connect with
Learn about other apps that Gemini can connect with
the Apps page
Gemini Apps Activity
Web & App Activity
Your Gemini Apps Activity
how Gemini Apps Activity works with other services and settings
Your Gemini Apps Activity
Learn how to manage apps in Gemini
Gemini Apps Activity
Gemini Apps Privacy Notice
Gemini Apps Activity
manage and delete your Gemini Apps activity
Gemini Apps Activity
Learn more
Gemini Apps Activity
Learn more about your choices
respect others’ privacy
Gemini in Chrome
Gemini Apps Activity
Learn more
Gemini Apps Privacy Notice
Google Privacy Policy
delete Gems in the Gems manager page of the Gemini web app
manage your Gems in the Gems manager page Gemini web app
copy url
source logoanalyticsvidhya.com
copy url
source logotowardsdatascience.com
ChatGPT
Visual intro to Transformers
LLM Visualization
nanoGPT
tokenization
Attention? Attention!
Decoding Strategies in LLMs
Llama 3.1
FineWeb
RedPajama v2
nanotron
SmolLM2
Parallel training
Distributed training
OLMo 2
LLM360
💾 LLM Datasets
Auto-Evol
Synthetic Data Generator
LLM Datasets
NeMo-Curator
Distilabel
Semhash
Chat Template
Fine-tune Llama 3.1 Ultra-Efficiently with Unsloth
Axolotl – Documentation
Mastering LLMs
LoRA insights
Direct Preference Optimization
Proximal Policy Optimization
Illustrating RLHF
LLM Training: RLHF and Its Alternatives
Preference Tuning LLMs
Fine-tune Mistral-7b with DPO
NeuralHermes-2.5
DPO Wandb logs
Evaluation guidebook
Open LLM Leaderboard
Language Model Evaluation Harness
Lighteval
Chatbot Arena
llama.cpp
GPTQ
AWQ
EXL2
Introduction to quantization
Quantize Llama models with llama.cpp
4-bit LLM Quantization with GPTQ
Understanding Activation-Aware Weight Quantization
SmoothQuant on Llama 2 7B
DeepSpeed Model Compression
mergekit
DARE
TIES
CLIP
Stable Diffusion
LLaVA
Merge LLMs with mergekit
Smol Vision
Large Multimodal Models
Unsensor any LLM with abliteration
Intuitive Explanation of SAEs
Scaling test-time compute
OpenAI
Google
Anthropic
Cohere
OpenRouter
Hugging Face
Together AI
Hugging Face Hub
Hugging Face Spaces
LM Studio
llama.cpp
Ollama
LMQL
Outlines
Guidance
Run an LLM locally with LM Studio
Prompt engineering guide
Outlines – Quickstart
LMQL – Overview
Chroma
Pinecone
Milvus
FAISS
Annoy
LangChain – Text splitters
Sentence Transformers library
MTEB Leaderboard
The Top 5 Vector Databases
LangChain
LlamaIndex
FastRAG
HyDE
Ragas
DeepEval
Llamaindex – High-level concepts
Pinecone – Retrieval Augmentation
LangChain – Q&A with RAG
LangChain – Memory types
RAG pipeline – Metrics
RAG-fusion
DSPy
LangChain – Query Construction
LangChain – SQL
Pinecone – LLM agents
LLM Powered Autonomous Agents
LangChain – OpenAI’s RAG
DSPy in 8 Steps
Multi-Query Attention
Grouped-Query Attention
GPU Inference
LLM Inference
Optimizing LLMs for Speed and Memory
Assisted Generation
LM Studio
Ollama
oobabooga
kobold.cpp
Gradio
Streamlit
Hugging Face Spaces
SkyPilot
TGI
vLLM
MLC LLM
mnn-llm
Streamlit – Build a basic LLM app
HF LLM Inference Container
Philschmid blog
Optimizing latency
garak
langfuse
OWASP LLM Top 10
Prompt Injection Primer
LLM Security
@llm_sec
Red teaming LLMs
copy url
source logohuggingface.co
Trainer
Hub
Trainer
Yelp Reviews
preprocess
map
Trainer
TrainingArguments
dataset card
TrainingArguments
Trainer
evaluate.load
accuracy
Evaluate
compute
TrainingArguments
Trainer
train()
push_to_hub()
Trainer
Keras
tf.keras.Model
tf.data.Dataset
prepare_tf_dataset()
tf.data.Dataset
to_tf_dataset
Datasets
prepare_tf_dataset()
compile
fit
compile
examples
notebooks
< > Update on GitHub

調査のまとめ

LLM(大規模言語モデル)がウェブ上のデータなどからどのように学習しているのか、その基礎的なプロセスとデータソース、そして生成AIへのデータ学習に関する懸念についてご説明します。

LLMの...

調査のまとめ

LLMの学習におけるデータ前処理の重要性

大規模言語モデル(LLM)がウェブ上のデータなどから学習する際、そのプロセスにおいて「データ前処理」が非常に重要な役割を担っています。LLMのパイ...

🏷2. Transformerモデルと自己アテンションの役割

画像 1

Transformerモデルと自己アテンションの役割

大規模言語モデル(LLM)がウェブ上の膨大なデータから学習し、人間のようなテキストを理解し生成する能力を獲得する上で、その核となるのが「Transformer」アーキテクチャと、それに組み込まれた「自己アテンション」メカニズムです。この革新的な技術が、現代のLLMの驚異的な性能を支え、同時に、私たちがAIの学習プロセスやデータ利用の仕組みを理解する上での重要な鍵となります。

1. Transformerモデルの基礎と自己アテンションの革新性

Transformerモデルは、2017年に発表された画期的な論文「Attention Is All You Need」[search_results]
medium.com
,
linkedin.com
,
ibm.com
によって導入され、自然言語処理(NLP)の分野に革命をもたらしました。それ以前のリカレントニューラルネットワーク(RNN)や長・短期記憶(LSTM)モデルは、文章などのシーケンシャルデータを一度に1単語ずつ処理するため、特に長い文章における長距離の依存関係(離れた単語間の関係性)を捉えるのに課題を抱えていました[search_results]
medium.com
,
linkedin.com
,
ibm.com
。
ここで登場するのが**自己アテンション(Self-Attention)**メカニズムです。自己アテンションは、モデルが入力シーケンス内のトークン間の距離に関係なく、その依存関係をモデル化することを可能にしました[search_results]
medium.com
,
ibm.com
。これにより、LLMは文脈全体を考慮しながら個々の単語の意味をより正確に理解できるようになります。例えば、「light」という単語が「羽のように軽い(light as a feather)」という文脈で使われる場合と、「電気をつける(turn on the light)」という文脈で使われる場合では、その意味が異なります。自己アテンションは、このような単語の「文脈依存埋め込み」を動的に生成し、単語の真のニュアンスを捉えることを可能にします[search_results]
medium.com
。
このメカニズムは、深層学習モデルが入力データ内のどの部分に「注意を払う」べきかを学習することを可能にし[search_results]
ibm.com
, [search_results]
medium.com
,、複雑な言語タスクにおいて高い性能を発揮します。さらに、自己アテンションメカニズムは本質的に並列処理が可能であり、RNNのようにシーケンスを段階的に処理する必要がないため、特に大規模なデータセットでのトレーニング速度が飛躍的に向上しました[search_results]
medium.com
,
linkedin.com
,
ibm.com
。

2. 自己アテンションの動作原理:クエリ、キー、バリュー

自己アテンションの仕組みは、図書館で資料を探すことに例えられます[search_results]
medium.com
。モデルは入力シーケンスの各単語(またはトークン)に対して、3つの異なるベクトル「クエリ(Q)」「キー(K)」「バリュー(V)」を生成します[search_results]
medium.com
,
medium.com
,
ibm.com
。
  • クエリ(Q): モデルが現在焦点を当てている単語を表し、他の単語との関連性を測るための「質問」のようなものです[search_results]
    medium.com
    。
  • キー(K): シーケンス内のすべての単語を表し、クエリとの関連性を測るための「目録」のようなものです[search_results]
    medium.com
    。
  • バリュー(V): 各単語が持つ文脈情報や「意味」そのものを表します[search_results]
    medium.com
    。
アテンションスコアの計算は、クエリとキーのドット積を計算し、スケーリングしてからSoftmax関数を適用することで行われます[search_results]
medium.com
]。これにより、各単語が他のどの単語にどれだけ注意を払うべきかを示す「重み」が確率として得られます。最後に、これらの重みを使ってバリューの重み付き合計を計算し、シーケンス全体の文脈情報が強化された新しい単語の表現ベクトルが生成されます[search_results]
medium.com
。
Attention(Q, K, V) = Softmax((Q * K^T) / √d_k) * V
Attention Is All You Need
Transformerモデルでは、このアテンションメカニズムが「マルチヘッドアテンション」へと拡張されています[search_results]
medium.com
,
medium.com
,
linkedin.com
。これは、複数のアテンション「ヘッド」を並行して実行することで、モデルがシーケンスの異なる部分に同時に焦点を当て、様々な種類の関係性や異なる視点から情報を捉えることを可能にします[search_results]
medium.com
]。例えば、あるヘッドは文の全体的な構造に注目し、別のヘッドは特定の固有名詞とその役割に焦点を当てる、といった具合です。これらの多様な視点が統合されることで、より堅牢で文脈的に豊かな表現が生まれます[search_results]
medium.com
。
また、Transformerのデコーダー部分では「マスクド・マルチヘッド・アテンション」が使用されます[search_results]
medium.com
]。これは、モデルが未来のトークンを「覗き見」して不正行為をしないように設計されており、テキスト生成タスクにおいて、モデルが先行する単語のみを考慮して次の単語を予測することを保証します。これにより、一貫性があり文脈的に正確なシーケンスが、人間の思考プロセスのように一度に1トークンずつ生成されます[search_results]
medium.com
]。
Transformerの学習ダイナミクスを理解するための最近の研究では、アテンション重みを計算する際に使用される関数である「アテンションカーネル」の選択が収束速度に影響を与えることが示されています[search_results]
amazon.science
]。特に、Gaussianカーネルは一般的なsoftmaxカーネルよりも一部の条件下で迅速な収束と高い精度を可能にすることが経験的に示されており、モデルの効率をさらに高めるための研究が活発に進められています[search_results]
amazon.science
]。

3. LLMの学習プロセスとユーザーデータの利用懸念

LLMがウェブ上のデータから学習するプロセスは、大きく「事前学習(Pre-training)」と「ファインチューニング(Fine-tuning)」の2つのフェーズに分かれます
ankursnewsletter.com
,
medium.com
。
  • 事前学習: この段階で、LLMはインターネット上の公開された膨大なテキストデータ(書籍、記事、ウェブスクレイピングデータなど)から一般的な言語パターン、文法、事実、文脈のニュアンスなどを学習し、広範な知識ベースを構築します
    ankursnewsletter.com
    ,
    medium.com
    ,
    oxylabs.io
    。このフェーズで個々のユーザーのプライベートな入力データが直接取り込まれる可能性は低いと考えられます。
  • ファインチューニング: 事前学習されたモデルを、より小規模で特定のタスクやドメインに特化したデータセットで追加的に学習させるプロセスです
    ankursnewsletter.com
    ,
    medium.com
    ,
    oxylabs.io
    。これにより、モデルは特定の業界用語や表現スタイルに適応し、より専門的な精度を実現します
    ankursnewsletter.com
    。
ユーザーが「自分のデータが学習されるのではないか」と心配する主な懸念については、LLMのカスタマイズ方法が大きく関係します。特に、「検索拡張生成(RAG)」と「ファインチューニング」という2つの主要なアプローチを理解することが重要です。
項目RAG(検索拡張生成)ファインチューニング
アプローチ外部データソースから関連情報を検索し、プロンプトに組み込む[research_summary]既存のモデルを特定のデータセットで追加学習させる[research_summary]
モデルの変更モデルの重みは変更しない[research_summary]モデルの重みを変更する[research_summary]
データ利用ユーザーのデータはモデルの重みに恒久的に「学習されて埋め込まれる」のではなく、リアルタイムで参照される[research_summary]。機密データは安全なデータベースに保持され、モデルの重みに埋め込まれない[research_summary]。トレーニング中に機密データがモデルに直接供給され、モデルがトレーニングデータを「反芻」する(どこから来た情報なのかが不明になる)リスクがある[research_summary]。
プライバシー外部データアクセス制御が容易で、セキュリティとプライバシーを強化できる[research_summary]。トレーニングデータがモデルに直接埋め込まれるため、プライバシーリスクが存在する可能性がある[research_summary]。
RAGは、LLMの基盤モデル自体を変更せず、ユーザーが選択したデータリポジトリや既存のドキュメントなどの外部ソースから情報を取得し、それをLLMのコンテキストとして処理して回答を生成するアプローチです[research_summary]。このメカニズムにより、ユーザーのデータがモデルの重みに恒久的に学習されて埋め込まれるのではなく、リアルタイムで参照されるため、データがモデルの一部として固定化されることへの懸念は大幅に軽減されます[research_summary]。企業ユースケースでは、RAGはセキュリティとプライバシーを強化する選択肢となり得ます[research_summary]。また、個人データがLLMの語彙ではなく、ユーザーがプロンプトとして提供した参照ドキュメントから利用される場合があることも指摘されています[search_results]11]。
一方で、ファインチューニングは、提供されたデータがモデルのアーキテクチャに埋め込まれるプロセスであるため[research_summary]、機密データがモデルに直接供給され、モデルがトレーニングデータを「反芻」するリスクがあるという課題も指摘されています[research_summary]。
しかし、注意すべきは、OpenAIなどの主要な生成AIサービスでは、そのモデル開発に「公開されているインターネット情報」「サードパーティと提携してアクセスする情報」、そして「ユーザー、人間のトレーナー、研究者が提供または生成する情報」の3つの主要な情報源を使用していると明言されている点です[search_results]
openai.com
]。特にChatGPTは、ユーザーのプロンプトやチャット会話、アカウント詳細を保存し、その主な理由がAIトレーニングであると述べられています[search_results]
datanorth.ai
]。これは、LLMの技術的な学習メカニズムを理解することに加え、実際に利用するサービスのプライバシーポリシーを確認することが極めて重要であることを示唆しています。

4. 考察と展望

Transformerモデルと自己アテンションメカニズムは、LLMがウェブ上の大量データから効率的に学習し、人間が話すような複雑な言語のニュアンスを捉えることを可能にしました。これにより、LLMは幅広いタスクで優れた性能を発揮し、私たちの生活に深く浸透しつつあります。
ユーザーのデータ学習に関する懸念については、RAGのようなアプローチが普及することで、モデルの重みに直接データが埋め込まれるリスクは軽減される可能性があります。また、プライバシー保護モデルの概念提案[research_summary]や、差分プライバシー、合成データ生成、非識別化などのプライバシーメカニズムをLLMに統合する研究[research_summary]も進められており、高リスクなアプリケーションにおいても機密性の高いデータを扱うLLMを展開できる可能性が示唆されています。
しかし、前述の通り、一部のAIサービスプロバイダーはユーザーの提供データをモデルの学習に利用していると公表しており、この点は利用者が理解しておくべき重要な事実です。したがって、ご自身のデータがどのように扱われるかについては、利用する生成AIサービスの「プライバシーポリシー」や「利用規約」を必ず確認し、必要に応じてオプトアウトの選択肢があるかどうかも確認することが、安心してサービスを利用するための最も確実な方法と言えるでしょう。LLMの技術進化とともに、データプライバシー保護の技術と倫理的枠組みも進化し続けることが期待されます。
copy url
source logoibm.com
neural network
large language models (LLMs)
artificial intelligence (AI)
"Attention is All You Need"
deep learning
recurrent neural network (RNN)
machine learning (ML)
natural language processing (NLP)
chatbots
text generation
summarization
encoder-decoder model
vector databases
generative AI (gen AI)
convolutional neural networks (CNNs)
image segmentation
object detection
diffusion models
multimodal
vision language models (VLMs)
IBM Privacy Statement
here
IBM Privacy Statement
self-attention mechanism
long short term memory networks (LSTMs)
Attention mechanisms
GPUs
self-supervised learning
convolutions
loss function
backpropagation
gradient descent
Transformer models
relational databases
token
tokens
multi-head attention
sampling hyperparameters
GPT
Claude
IBM® Granite®
fine-tuning
time series forecasting models
object detection
image segmentation
copy url
source logoamazon.science
NeurIPS
new analysis of the transformer architecture
our paper
copy url
source logomedium.com
The Core Steps of LLM Training
Understanding Memory Consumption in LLMs
The Full Picture: Parameters + Gradients + Optimizer States
Memory-Saving Strategies at a Glance: Mixed Precision Training
The Activation Memory Challenge
Activation recomputation to the rescue!!
Gradient Accumulation: Enabling Large Batch Training
Conclusion: When to Scale Beyond a Single GPU
References
Source
Source
Source
Source
copy url
source logomedium.com
copy url
source logolinkedin.com
copy url
source logomedium.com
1] Ashish Vaswani, et al. and team, [Attention is all you need
copy url
source logomedium.com
Attention Is All You Need
copy url
source logowww.ankursnewsletter.com
copy url
source logoopenai.com
trusted API users(opens in a new window)
2
Preparedness Framework(opens in a new window)
interesting instances of reward hacking(opens in a new window)
System Card
OpenAI
View contributors
https://www.anthropic.com/news/claude-3-5-sonnet(opens in a new window)
https://deepmind.google/technologies/gemini/pro(opens in a new window)
https://arxiv.org/abs/2305.20050(opens in a new window)
https://codeforces.com/blog/entry/68288(opens in a new window)
copy url
source logodeepmind.com
FACTS Grounding
FACTS leaderboard on Kaggle
releasing the public set
in our paper
engage with FACTS Grounding

調査のまとめ

LLMの学習におけるデータ前処理の重要性

大規模言語モデル(LLM)がウェブ上のデータなどから学習する際、そのプロセスにおいて「データ前処理」が非常に重要な役割を担っています。LLMのパイ...

🏷3. ファインチューニングとRAGの違いと特徴

画像 1

最新解説:LLMの学習プロセスと生成AIのデータ利用懸念の実態

3. ファインチューニングとRAGの違いと特徴

大規模言語モデル(LLM)は、その基盤となる膨大な事前学習データから汎用的な知識を獲得しますが、特定のビジネスニーズや専門分野に適用する際には、さらなる調整が不可欠です。この調整を実現する主要なアプローチとして、「ファインチューニング」と「Retrieval Augmented Generation(RAG)」の2つが注目されています。これらの手法はLLMの性能を向上させるという共通の目標を持ちながらも、その実現方法やユーザーデータの扱いに大きな違いがあり、生成AIを利用する際に「自分のデータが学習されるのではないか」というユーザーの懸念に対する理解を深める重要な鍵となります。

ファインチューニング:モデル自体の知識を深めるアプローチ

ファインチューニングとは、事前学習済みのLLMを、より小規模で特定のタスクやドメインに特化したデータセットで追加的に訓練し、モデルのパラメータ(重み)を直接調整するプロセスです11。これは、モデルに特定のドメイン知識、専門用語、または応答のトーンを教え込むために用いられます11。
仕組みと特徴: ファインチューニングでは、収集されたタスク固有のデータがモデルのアーキテクチャに埋め込まれます11。例えば、医療ジャーナルや法律文書でファインチューニングすることで、モデルはこれらの専門的な語彙や文章スタイルに堪能になります
montecarlodata.com
。このプロセスは、モデルの振る舞いを特定の目的に合わせて微調整し、一般的なツールから専門的なツールへと進化させることを目的としています5。
メリット:
  • ドメイン固有の精度と文脈の適切性: モデルの重みが調整されるため、特定のドメインに対してより正確で文脈に合った応答を生成できます
    montecarlodata.com
    。
  • カスタマイズされたトーンとスタイル制御: モデルのトーンやスタイルを正確にカスタマイズでき、ブランドの一貫性や特定のコミュニケーションニーズを満たすのに役立ちます
    montecarlodata.com
    。
課題とユーザーデータの懸念: ファインチューニングは強力な一方で、いくつかの課題も伴います。
  • データと計算要件: 高品質でラベル付けされた大量のデータと、高性能なGPUやTPUなどの計算リソースが必要です
    montecarlodata.com
    。
  • 知識更新の労力: ドメイン知識が進化した場合、トレーニングデータを更新し、モデルを再トレーニングする必要があり、これには時間とコストがかかります
    montecarlodata.com
    。
  • ソース帰属の欠如: ファインチューニングでは、モデルの回答が内部パラメータから生成されるため、特定の情報がどこから来たのかを検証することがほぼ不可能です
    montecarlodata.com
    。
この「ソース帰属の欠如」は、ユーザーが「自分のデータが学習されるんじゃないか」と懸念する論点と密接に関わります。ファインチューニングは、トレーニング中に機密データがモデルに直接供給され、モデルがトレーニングデータを「反芻(はんすう)」し、どこから来た情報なのかが不明になるリスクがあることを示唆しています
montecarlodata.com
。つまり、ファインチューニングされたモデルにデータが入力されると、そのデータがモデルの内部知識の一部として恒久的に組み込まれ、後から元の情報源を特定することが困難になる可能性があります。

RAG(検索拡張生成):リアルタイム参照で知識を補完するアプローチ

RAGは、LLMの基盤モデル自体を変更せずに情報を補完するアプローチです11。LLMが回答を生成する際に、ユーザーが選択したデータリポジトリや既存のドキュメントなどの外部ソースから情報をリアルタイムで取得し、それをLLMのコンテキストとして処理して回答を生成します11。Meta AIの研究者によって2020年に導入されたこの手法は、従来のLLMの静的な知識という制限を克服することを目的としています
montecarlodata.com
。
仕組みと特徴: RAGのワークフローは、以下の主要なコンポーネントによって支えられています
solulab.com
:
  1. Retriever(検索器): ユーザーのクエリに基づいて、知識ベース(ドキュメントやデータベース)を検索し、最も関連性の高い情報を見つけ出します。これはAIの「リサーチアシスタント」のような役割を担います
    solulab.com
    。
  2. Knowledge Base / Vector Store(知識ベース/ベクトルストア): ドキュメントやデータチャンクが構造化されたコレクションであり、高速かつ正確な検索のためにベクトルデータベースに保存されます
    solulab.com
    。
  3. Embedding Model(埋め込みモデル): ユーザーのクエリとドキュメントを、関連性を比較するためにベクトル形式(数値形式)に変換します
    solulab.com
    。
  4. Generator (LLM)(生成器): 取得されたドキュメントを受け取り、人間らしい応答を生成します
    solulab.com
    。
  5. Orchestration Layer(オーケストレーション層): クエリ入力から取得、生成まで、パイプライン全体を調整します
    solulab.com
    。
ユーザーが質問を送信すると、まずRetrieverが知識ベースから関連情報を検索し、その情報がユーザーのクエリと結合され、LLMへの入力として提供されます。これにより、LLMは文脈豊かな基盤に基づいて応答を生成します
solulab.com
。
メリットとユーザーデータの懸念に対する論拠: RAGは、多くの点でファインチューニングの課題を補完し、ユーザーのデータ学習に関する懸念に対して明確な論拠を提供します。
  • 最新かつ特定の情報へのアクセス: モデルが現在のデータベースやドキュメントを参照できるため、トレーニングセットには含まれていなかった最新の具体的な情報を含めることができます
    montecarlodata.com
    。
  • 幻覚の減少: モデルが実際のソースデータに基づいて回答を生成するため、誤った情報を自信満々に生成する「幻覚」の問題を大幅に軽減します
    montecarlodata.com
    。
  • セキュリティとプライバシーの向上: RAGは、企業の機密データがモデル自体に埋め込まれるのではなく、組織の管理下にある安全なデータベースに保持されるため、セキュリティとプライバシーを強化します
    montecarlodata.com
    。これにより、機密情報が既存のセキュリティインフラ内で保護されつつ、認証されたAIクエリからアクセス可能になります
    montecarlodata.com
    。
  • トレーサビリティと検証: 回答が特定のソースドキュメントに遡れるため、正確性の検証やエラーのデバッグに役立つ監査証跡が作成されます
    montecarlodata.com
    。
このメカニズムにより、ユーザーのデータがモデルの重みに恒久的に「学習されて埋め込まれる」のではなく、リアルタイムで参照されるため、データがモデルの一部として固定化されることへの懸念を和らげることができます11。つまり、RAGを利用している生成AIサービスの場合、ユーザーが入力したデータは一時的な参照のために利用される可能性が高いですが、それがLLMの基盤モデルの学習データとして永続的に組み込まれることはありません0。
課題:
  • 検索インフラの構築と維持: ドキュメントの取り込みと処理、ベクトルデータベースでのインデックス作成、検索メカニズムの作成など、洗練された検索インフラの構築と維持が必要です
    montecarlodata.com
    。
  • コンテキストウィンドウの制限: LLMのプロンプト長には制限があり、取得されたすべてのコンテキストはモデルのコンテキストウィンドウ内に収まる必要があります
    montecarlodata.com
    。

RAGとファインチューニングの主な違い

RAGとファインチューニングは、LLMの性能を向上させるという点で共通していますが、そのアプローチとデータ利用における特性は大きく異なります。
項目RAG(検索拡張生成)ファインチューニング
定義事前学習済みLLMを外部データベースと組み合わせ、リアルタイムで関連情報を取得して応答を増強する
solulab.com
。
ラベル付けされたデータセットを使用してLLMを再訓練し、特定のタスクに合わせてモデルのパラメータを調整する
solulab.com
。
モデルの変更LLMの基盤モデル自体を変更せず、外部データソースを参照する11。トレーニング中にモデルのパラメータを直接調整し、データがモデルのアーキテクチャに埋め込まれる11。
データ利用ユーザーデータはモデルの重みに恒久的に「学習されて埋め込まれる」のではなく、リアルタイムで参照される11。トレーニング中に機密データがモデルに直接供給され、モデルがトレーニングデータを「反芻」するリスクがある
montecarlodata.com
。
知識の更新外部知識ベースを更新するだけで、最新情報に即座に対応可能
montecarlodata.com
。
モデルのパラメータに情報が焼き付けられるため、再トレーニングが必要
montecarlodata.com
。
セキュリティ機密データは安全なデータベースに保持され、モデルの重みに埋め込まれないため、データアクセス制御が容易
montecarlodata.com
。
トレーニング中に機密データがモデルに直接供給されるリスクがある
montecarlodata.com
。
コスト一般的に費用対効果が高い。既存のデータを活用し、大規模なトレーニングが不要11。高品質なデータと高性能な計算リソースが必要で、一般的に高コスト
montecarlodata.com
。
複雑性検索インフラの構築と維持に複雑さがあるが、モデル変更は伴わない
montecarlodata.com
。
NLP、ディープラーニング、モデル構成などの専門知識が必要
addepto.com
。
透明性回答のソースを特定しやすい
addepto.com
。
回答の背後にある推論が隠されるブラックボックスとして機能する傾向がある
addepto.com
。

ユーザーのデータ学習懸念への総合的な考察

生成AIを利用している方が「自分のデータが学習されるんじゃないか」と心配する気持ちはごもっともです。この懸念は、LLMがどのようにデータを扱っているか、特にファインチューニングとRAGの違いを理解することで、その度合いを評価できます。
もし利用している生成AIサービスが主にRAGのようなアプローチを採用している場合、ユーザーの入力データがモデルの重みとして恒久的に保存され、再利用されるという懸念は大幅に軽減されると考えられます11。RAGはリアルタイムで外部データを参照する仕組みであり、ユーザーのデータがモデルの「記憶」に組み込まれるわけではないからです0。多くの企業ユースケースでは、RAGがより安全でスケーラブルかつ費用対効果が高いとされています
montecarlodata.com
。
一方で、もしサービスがファインチューニングを頻繁に行い、その際にユーザーの入力データ(特に個人情報や機密情報を含む可能性のあるもの)を直接利用している場合、データがモデルの内部パラメータに埋め込まれ、そのソースが不明になるリスクは存在します
montecarlodata.com
。
現在、ChatGPTやGeminiなどの主要な生成AIサービスの具体的なプライバシーポリシーにおけるユーザーデータの取り扱い、オプトアウトの有無に関する詳細な情報は、今回の調査結果には含まれていません。しかし、LLMにおけるユーザーのプライバシー保護は重要なテーマとして研究が進められており、差分プライバシーや連合学習などの技術が統合されることで、機密性の高いデータを扱う高リスクなアプリケーションにおいてもLLMを展開できる可能性が示唆されています
arxiv.org
。
実践的な洞察として、生成AIサービスがご自身のデータをどのように取り扱うかについては、利用規約やプライバシーポリシーを必ず確認することが最も重要です
protecto.ai
。多くのLLMプロバイダーはデータ収集を無効にするオプションを提供している場合があり、匿名化やストレージのオプトアウトなどの技術を活用することで、ユーザーデータを不正アクセスや悪用からさらに保護できる可能性があります
protecto.ai
。
また、RAGとファインチューニングは相互に排他的な選択肢ではなく、組み合わせて使用することで、どちらか一方では達成できない優れた結果を生み出すことができます
montecarlodata.com
。例えば、特定の分野でファインチューニングして専門性を高めつつ、RAGを使って最新情報を補完するといったハイブリッドアプローチも可能です
montecarlodata.com
。どのAIサービスを利用するにしても、その技術的なアプローチと、それがご自身のデータに与える影響を理解しておくことは、安心してAIを活用するための第一歩と言えるでしょう。
copy url
source logoaddepto.com
fine-tuning
copy url
source logowww.solulab.com
Retrieval-Augmented Generation (RAG)
generative AI
AI models
large language models (LLMs)
fine-tuning
large language models (LLMs)
AI solutions
InfuseNet
AI development company
AI application
LLM development solutions
copy url
source logoturing.com
business analytics
Reinforcement learning from human feedback (RLHF)
reinforcement learning
Explore the Case Study
13-billion-parameter model
chatbot applications
LLMs for enterprise-scale applications
Talk to an expert
Get Started
copy url
source logomedium.com
the perfect roadmap to help you land your first data science job.
you can grab it right now by clicking here.
DeepSpeed Documentation
Google Research Paper on BERT
OpenAI’s GPT Series Papers
copy url
source logosapien.io
fine-tuning LLMs
GPT-3 developed by OpenAI
SFT LLM
Stanford University
LiDAR in autonomous vehicles
domain-specific LLMs
copy url
source logoredhat.com
RAG
large language models (LLMs)
artificial intelligence (AI)
machine learning (ML)
foundation models
LoRA and QLoRA
parameter-efficient fine-tuning (PEFT)
Explore predictive AI use cases
deep learning
AI partner ecosystem
large language model operations (LLMOps)
InstructLab
generative AI (gen AI)
framework
How InstructLab's synthetic data enhances LLMs
How InstructLab's synthetic data enhances LLMs
Red Hat® Enterprise Linux® AI
Granite family
open source-licensed LLMs
Open Source Assurance
Red Hat OpenShift® AI
machine learning operations (MLOps)
copy url
source logomontecarlodata.com
Pinecone
Snorkel AI created a data-centric foundation model
data observability
copy url
source logoarxiv.org
[13
3
[15
16
[6
1
[9
[2
[15
18
[11
4
[15
16
[12
14
[15
17
7
[16
12
14
[15
18
14
5
8
[10
15
18
[12
17
[7
16
[15
18
14
copy url
source logoprotecto.ai
data privacy in LLMs
LLM data protection
LLM data loss prevention
LLM sensitive data
personally identifiable information (PII)
AI Guardrails
LLM data privacy
AI adoption
copy url
source logofactset.com
artificial intelligence capabilities
copy url
source logodeepmind.com
38th Annual Conference on Neural Information Processing Systems
Test of Time
Sequence to Sequence Learning with Neural Networks
Generative Adversarial Nets
Gemma Scope
AI for music generation
weather forecasting
AndroidControl
in-context abstraction learning
measure an AI system’s goal-directedness
model’s perception of its user can influence its safety filters
CAT3D
a new technique called SDF-Sim
Neural Assets
methods to adapt many-shot ICL
address an important question
Time-Reversed Language Models
Joint Example Selection
planning itself can be viewed as a distinct type of probabilistic inference
Women in Machine Learning
LatinX in AI
Black in AI
Google Research
copy url
source logoai.google
Explore developer resources
Google AI Essentials
Grow with Google
Google Cloud Skills Boost
Skill Badges
Google Career Certificates
Google Cloud Certificates
Google Cloud Certifications
Skill Badges
learning paths
YouTube
Google Cloud Innovators
Google Cloud Skills Boost
g.co/edu/cloudready

調査のまとめ

LLMの学習におけるデータ前処理の重要性

大規模言語モデル(LLM)がウェブ上のデータなどから学習する際、そのプロセスにおいて「データ前処理」が非常に重要な役割を担っています。LLMのパイ...

🏷4. 生成AIサービスにおけるユーザーデータの取り扱いとオプトアウト

画像 1

4. 生成AIサービスにおけるユーザーデータの取り扱いとオプトアウト

大規模言語モデル(LLM)が進化し、日常生活に深く浸透するにつれて、多くの方が「自分のデータがAIの学習に利用されるのではないか」という懸念を抱かれることは自然なことです。今回の調査では、LLMがウェブ上のデータなどからどのように学習しているか、特にデータクリーニングの具体的なパイプライン、Transformerモデルの内部的なアテンションメカニズム、Retrieval Augmented Generation(RAG)とファインチューニングの違いといった技術的な詳細については、現在の調査結果から十分な情報を得ることはできませんでした。しかし、LLMの基盤モデルが、インターネット上で公開されている膨大な情報、第三者との提携によってアクセスするデータ、そしてユーザー、人間のトレーナー、研究者が提供または生成する情報という、主に3つの情報源から学習していることは確認されています[zl7t4bcig6t75sv2kbibk1vr]。
モデルは、学習プロセス(トレーニング)を通じて、これらのデータ内のパターンや関係性を分析し、次に現れる可能性が最も高い単語を予測することで応答を生成します[zl7t4bcig6t75sv2kbibk1vr]、
openai.com
。この学習により、LLMは多様な言語タスクに対応する能力を獲得し、ユーザーのプロンプトに基づいてテキストを生成できるようになります[heo79lnck6pxkcgqd76yg3f8]。ユーザーの懸念に対し、主要な生成AIサービスは、ユーザーデータがモデル学習に利用されることに関して、様々なデータ管理機能とプライバシーポリシーを設けていることが明らかになっています。

主要生成AIサービスにおけるユーザーデータの管理と「そこまで心配ではない」論拠

ユーザーが「自分のデータが学習されるんじゃないか」と心配する気持ちは理解できますが、多くの主要な生成AIサービスでは、その懸念を軽減するための具体的な対策が提供されており、必ずしも「そこまで心配ではない」と言える論拠が存在します。
OpenAI (ChatGPT) におけるデータプライバシー
ChatGPTは、ユーザーのプロンプト、チャット履歴、アカウント詳細(名前、メールアドレス、IPアドレス、位置情報など)を保存しています[heo79lnck6pxkcgqd76yg3f8]、4。これらのデータは、主にLLMのトレーニング、ハルシネーション(誤った情報生成)の防止、および悪用監視のために利用されてきました[heo79lnck6pxkcgqd76yg3f8]、4。週に8億人ものユーザーがいるため、膨大なデータがChatGPTの知識ベースに追加され、モデルの能力向上に貢献しているのです[heo79lnck6pxkcgqd76yg3f8]。
しかし、OpenAIはユーザーのプライバシー保護に配慮し、以下のようなデータコントロール機能を提供しています。
  • モデル学習からのオプトアウト: 最も重要な点は、ユーザーが自身のコンテンツがモデルの学習に利用されることをオプトアウトできることです
    openai.com
    、
    medium.com
    。ChatGPTのウェブ版およびモバイルアプリでは、「Improve the model for everyone(モデルをすべてのユーザーのために改善)」という設定をオフにすることで、ユーザーの会話がモデルのトレーニングに使用されるのを停止できます6、2、4。この設定はアカウント全体に同期され、一度オフにすれば、どのデバイスからアクセスしても有効です2。
    具体的な手順は以下の通りです。
    1. ChatGPTにログインします4。
    2. 画面左下(または右上)にあるご自身の名前/プロフィールアイコンをクリックします4、2。
    3. 「Settings(設定)」を選択します4、2。
    4. 「Data Controls(データ管理)」に進みます4、2。
    5. 「"Improve the model for everyone"」のトグルスイッチをオフにします6、2。
    ウェブ版の例: サインアウト時の例:
    この設定により、会話はチャット履歴に残りますが、ChatGPTのトレーニングには使用されません2、4。
  • 一時的なチャット(Temporary Chats): OpenAIは、プライバシー保護をさらに強化する「一時的なチャット」機能も提供しています2。この機能を使用すると、チャットは履歴に保存されず、30日後にシステムから自動的に削除されます2。また、これらのチャット内容はモデルのトレーニングには使用されません2。
  • ビジネス向けプラン(Teams, Enterprise, API): ChatGPT TeamsやEnterprise、OpenAI APIといったビジネス向けサブスクリプションを利用すると、ユーザーのデータがChatGPTのトレーニングには使用されないことが明記されています4。Azure OpenAI Serviceを利用する場合も同様に、ユーザーデータがモデル学習に利用されることはなく、Microsoftがサービスを制御するため、OpenAIはユーザーの入力と出力にアクセスできない仕組みとなっています4。これらのプランは、データの所有権と管理を維持したい企業や組織にとって非常に魅力的な選択肢と言えるでしょう。
  • データレビューの可能性: ただし、注意すべき点として、モデル学習をオプトアウトした場合や一時的なチャットを利用した場合でも、OpenAIは悪用、ポリシー違反、または法的な理由のためにユーザーのチャット内容をレビューする可能性があります2、
    openai.com
    。このレビューは、第三者の契約業者を通じて行われる可能性も示唆されています
    medium.com
    。
Google (Gemini) におけるデータプライバシー
GoogleのGeminiも、ユーザーデータの取り扱いに関して明確なプライバシーポリシーを公開しています。特に「Gemini Apps Privacy Hub」では、Geminiとのやり取りにおいてGoogleがどのようにデータを処理するかを説明しています
google.com
。
  • チャット履歴と学習利用の連携: Geminiでは、チャット履歴をオフに設定することで、ユーザーのチャット内容がAIの学習に利用されるのを停止することが可能です6。ChatGPTのように個別の「Improve the model for everyone」設定があるわけではなく、チャット履歴の設定と学習利用の設定が一括となっている点が特徴です。ウェブ版では「Activity」(左下)、モバイルアプリでは「Gemini Apps Activity」(右上アカウント画像内)からこの設定をオン/オフできます6。
  • データ収集と人間によるレビュー: Googleは、チャット内容、共有データ(ファイル、画像、スクリーンコンテンツなど)、製品利用情報、フィードバック、接続アプリからの情報、位置情報といったデータを収集します
    google.com
    。これらのデータは、Googleの製品とサービスの提供、改善、開発、パーソナライズ、および機械学習技術の改善に利用されます
    google.com
    。また、品質向上と製品改善のため、人間レビュアー(サービスプロバイダーを含む)がユーザーのGemini Appsの会話を閲覧、アノテーション、処理することがあると説明されています
    google.com
    。ただし、レビュー前には会話がGoogleアカウントから切断されるといったプライバシー保護措置が講じられます
    google.com
    。
  • アップロードされたファイルと画像の取り扱い: ユーザーがプロンプトに画像やファイルを含めても、現時点ではフィードバックに含まれない限り、アップロードされた実際の画像やファイルが生成機械学習技術の学習には使用されないとGoogleは明記しています
    google.com
    。
  • Google Workspace版Geminiのデータ保護: Google WorkspaceにおけるGemini(Gmailの「Help me write」などの機能を含む)は、厳格なデータアクセス制御モデルを採用しており、入力やセッションコンテンツがユーザー間で漏洩することはないとされています
    google.com
    。最も重要な点は、Google WorkspaceにおけるGeminiでは、ユーザープロンプトを含む顧客データが、顧客の事前の許可または指示なしに生成AIモデルのトレーニングに使用されることはないと明確に約束されていることです
    google.com
    。プロンプトや応答はユーザーセッション終了後にデータが消滅し、長期的に保存されることはありません
    google.com
    。
    Googleは、そのAI原則においても、「プライバシーとセキュリティを促進し、知的財産権を尊重する」ことを責任あるAI開発の主要原則として掲げています
    ai.google
    。
    Geminiは行いませんGeminiは行います
    ✖ 許可されていないWorkspaceコンテンツへのアクセス✅ プロンプトと許可に基づき関連するWorkspaceコンテンツにアクセス
    ✖ 許可なくプロンプト、Workspaceコンテンツ、ウェブページコンテキスト、または生成された応答を生成AIモデルのトレーニングに使用✅ プロンプト、関連するWorkspaceコンテンツ、ウェブページコンテキストを使用して応答を生成
    ✖ プロンプトまたは生成された応答を他のユーザーや組織と共有✅ 生成された応答をメールやドキュメントに挿入する際に、既存のデータ保護コントロールを自動的に適用
    google.com
  • 無料版Gemini 2.5 Proの懸念: 一方で、現在無料で提供されているGemini 2.5 Proを使用する際に、アップロードされたファイル(画像、PDF、DOCXなどの著作権コンテンツ)が、今後のトレーニングや分析に利用されるか否かについては、ユーザーコミュニティ内で議論の対象となっています
    google.dev
    。コミュニティの見解としては、無料版ではデータがトレーニングに利用される可能性が高いと推測されており、有料のAPIを使用する場合にはデータがトレーニングに利用されないという見方が示されています
    google.dev
    。この点は、ユーザーが利用するGeminiのバージョンやプランによってデータ利用ポリシーが異なる可能性があることを示唆しており、注意が必要です。
その他の生成AIサービスとオンラインプラットフォーム
ChatGPTやGemini以外にも、多くの生成AIサービスやオンラインプラットフォームがユーザーデータの取り扱いに関する設定を提供しています。
  • Copilot、Perplexity、Grok on X、Meta AI: これらもそれぞれ異なる方法でモデル学習へのデータ利用を停止する設定を持っています6。例えば、Copilotはテキストと音声の学習を個別にオフにでき、Perplexityは「AI Data Retention」のトグルスイッチでデータ利用を停止できます6。Meta AIは他のアプリに比べてデータ利用ポリシーが不透明な部分もありますが、ヨーロッパや英国ではデータ収集に異議を唱えるためのフォームが提供されています6。
  • LinkedIn: ビジネスSNSのLinkedInでは、新しい投稿がAIトレーニングに利用されるのを停止する設定が可能です
    medium.com
    。
  • Reddit: 一方で、RedditはOpenAIとユーザーの投稿でAIを訓練するための契約を締結しており、ユーザーはRedditを利用しない以外に止める方法がないとされています6。

ユーザーの懸念に対する実践的な洞察

これらの情報から、生成AIサービスにおけるユーザーデータの学習利用について「そこまで心配ではない」と言える論拠は、主要なサービス提供者がユーザー自身によるデータ利用の制御(特にオプトアウト機能)を提供している点にあります。特に、機密性の高いデータを扱うビジネス環境向けの有料プランでは、データがモデル学習に利用されないことが明確に保証されている場合が多く、これが大きな安心材料となります。
しかし、完全に心配がないわけではありません。以下のような点には引き続き注意が必要です。
  • 人間によるレビュー: オプトアウト設定をしていても、悪用監視やコンプライアンスの目的で人間によるデータレビューが行われる可能性があるため、機密情報や個人を特定できる情報をAIに入力する際には、常に慎重な姿勢が求められます2、8。
  • 無料版と有料版の差異: 無料版のAIサービスでは、有料版と比較してデータ利用の範囲が広がる可能性があり、特にファイルや画像などのアップロードデータについては、プライバシーポリシーを注意深く確認することが重要です
    google.dev
    。
  • サードパーティプラグインのリスク: ChatGPTのプラグインのように、サードパーティが提供する拡張機能を利用する場合、OpenAIがすべてのデータを保護できるとは限りません。利用する前に、そのプラグインのプライバシーポリシーも確認することが推奨されます4。
  • ポリシー変更の可能性: サービスの利用規約やデータポリシーは変更される可能性があります。そのため、定期的に利用しているサービスのプライバシーポリシーを確認し、ご自身のデータがどのように扱われているかを常に把握しておくことが賢明です
    medium.com
    。
プライバシー擁護者であるアルバート・フォックス・カーン氏が述べるように、「個人を特定できる情報(写真を含む)を公開AIツールにアップロードしてはなりません。削除された後でも、アップロードした瞬間に制御を失います」
medium.com
。これは、AIが意図的に悪用するわけではなくても、デジタル環境におけるデータセキュリティの複雑性と、一度共有された情報の完全なコントロールを維持することの困難さを強調しています。
総じて、生成AIサービスはデータ学習に関するユーザーの懸念に対し、オプトアウト機能やビジネスプランでのデータ保護強化といった対策を講じています。これらの機能を活用することで、ユーザーは自身のデータがAIの学習に利用されるリスクを大幅に軽減できるため、過度な心配は不要であると考えられます。しかし、いかなる場合も、機密性の高い情報の入力には細心の注意を払い、常に利用しているサービスの最新のプライバシーポリシーを確認する習慣を持つことが、ご自身のプライバシーを守る上で最も効果的な「最高の防御線」となるでしょう。
copy url
source logomedium.com
copy url
source logoopenai.com
blog post
How do I export my ChatGPT history and data?
How can I delete my account?
How your data is used to improve model performance
Temporary Chat FAQ
Enterprise privacy policies
copy url
source logoopenai.com
version
this help center article(opens in a new window)
files(opens in a new window)
images(opens in a new window)
audio(opens in a new window)
Cookie Notice
this article
our instructions(opens in a new window)
shared links(opens in a new window)
here(opens in a new window)
privacy.openai.com(opens in a new window)
privacy.openai.com(opens in a new window)
this help center article(opens in a new window)
privacy.openai.com(opens in a new window)
California privacy rights reporting
contact support(opens in a new window)
copy url
source logodatanorth.ai
Statista conducted a survey about ChatGPT
ChatGPT
OpenAI
GPT-4.5
ChatGPT saves your data
800 million weekly users
GDPR
accused of data breaches
Italy already banned the chatbot
submit a privacy request
ChatGPT Enterprise subscription
Trust Portal
Azure OpenAI Service
here
AI-as-a-Service
ChatGPT plugins
ChatGPT workshop
ChatGPT Assessment
Get in touch with DataNorth AI
copy url
source logogoogle.com
privacy commitments
qualifying edition
link at the bottom of this page
Expand section
Collapse all & go to top
Cloud Data Processing Addendum
Below is a depiction of the workflow of a user prompt.
The life of a prompt: Demystifying Gemini
to learn how it works for our business, education, and public sector customers.
Client-side encryption
Information Rights Management
, can also help restrict Gemini’s access to sensitive data.
Expand section
Collapse all & go to top
Cloud Data Processing Addendum
.
9001
,
,
,
, and
- the world's first international standard for Artificial Intelligence Management Systems (AIMS). Gemini has
FedRAMP High authorization
Google-Extended
Expand section
Collapse all & go to top
Workspace Blog
launched
Turn Google Workspace smart features on or off
Turn Google Workspace smart features on or off
Learn how to turn the Gemini app on or off for users
Google Cloud Privacy Notice
Expand section
Collapse all & go to top
privacy, security, and compliance white paper
Adding audit logs for Gemini for Google Workspace activity
.
prompts and responses
.
Data covered by data regions
).
Learn more about how we are protecting gen AI users from threats
.
privacy compliance
9001
,
,
,
, and
certifications. Gemini has
FedRAMP High authorization
.
ISO/IEC 42001
and the
have been updated to reflect the inclusion of Gemini.
FedRAMP High authorization
Google Cloud Blog
.
.
for guidance around the DPIA process itself.
Expand section
Collapse all & go to top
Cloud Data Processing Addendum
Turn Workspace extensions in Gemini on or off (Beta)
. You can find more details at
. Also as mentioned above, users have control over their smart feature settings, including allowing the Gemini app to access Workspace data via the Workspace extension. You can learn more about these user controls at
.
for most Google Workplace editions subject to your organization’s Workspace agreement, including the
. When Google Workspace business, education, and public sector customers use the Gemini app, they get the same robust data protection and security standards that come with all Google Workspace services. Your chats and uploaded files won't be reviewed by human reviewers or otherwise used to train generative AI models outside of your domain without your permission.
.
Expand section
Collapse all & go to top
core Workspace service
and gets the same robust data protection and security standards that come with all Google Workspace services. In addition, your uploads, queries and the model's responses in NotebookLM will not be reviewed by human reviewers, and will not be used to train generative AI models.
file sharing
settings do not apply to data in NotebookLM.
turn NotebookLM on or off
export NotebookLM data using the Data Export tool
.
copy url
source logotheverge.com
copyright use
energy demands
human creativity
make efforts
read the data policy here
into the chat
this well-hidden form
alternative form
mbasic.facebook.com
privacy policy
signed a deal
scooped up by AI bots anyway
copy url
source logogoogle.dev
https://www.reddit.com/r/GoogleGeminiAI/comments/1jmevb0/gemini_25_api_in_privacy_mode/
copy url
source logogoogle.com
Gemini Apps Privacy Notice
Your data and Gemini Apps
What data is collected and how it’s used
How human reviewers improve Google AI
Configuring your settings
How Gemini Apps Activity works with other services and settings
Requesting content removal and exporting your information
Using Gemini as your device assistant on Android
Things to know
Terms of Service
Privacy questions
General
What are Gemini Apps?
How can I object to the processing of my data or ask for inaccurate data in Gemini Apps’ responses to be corrected?
What are Google’s legal bases of processing Gemini Apps data under European Union (EU) or United Kingdom (UK) data protection law?
Do you use my Gemini Apps chats to show me ads?
Can I access and delete my data from my Google Account?
Who has access to my chats, and how does human review improve Gemini for everyone?
Why does Google retain my conversations after I turn off Gemini Apps Activity and what does Google do with this data?
How does Google use my feedback?
What happens when I ask Gemini Apps to save info?
Location & other permissions information
Uploaded files
Connected apps in Gemini
Gemini Live
Gemini in Chrome
Gems
Canvas
Privacy Policy
(“
screens
g.co/privacypolicy/location
Privacy Policy
applicable age in your country
) and Gemini Apps is available to you, Gemini Apps Activity is off. If your
is on, Google stores your
with your Google Account for up to 18 months. You can change this to 3 or 36 months in your
.
Visit your Google Account
turn off Gemini Apps Activity
.
Learn more
Web & App Activity
, may keep saving location and other data as you use other Google services. You can also integrate and use Gemini Apps with other Google services. When you do, those services save and use your data to provide and improve their services, consistent with their policies and the Google
. If you use Gemini Apps to interact with third-party services, they will process your data according to their own privacy policies.
Learn more
request
your information.
Gems
) in Gemini Apps. When you use these supplemental features, additional data you provide (such as Gem names and custom instructions) are collected, and used consistent with this notice and our
, including to improve Google AI with help from human reviewers.
Gemini Apps Privacy Hub
Google Terms
apply to Gemini Apps.
Korean Location Terms of Service
Gemini Apps Privacy Notice
gemini.google.com
Gemini app
as your mobile assistant
Gemini app
specific locations
Gemini in Chrome
Learn more about availability
create a request in our Help Center
Google Privacy Policy
Gemini Apps Privacy Notice
Google Terms of Service
Voice Match
audio & Live recordings to improve Google services for everyone
Privacy and Security Principles
Your Gemini Apps Activity
manage and delete your data
Your Gemini Apps Activity
Learn more about managing chats
Gemini Apps Activity
Gemini Apps Activity
Your Gemini Apps Activity
Gemini Apps Activity
Learn more about Gemini Apps Activity
export your information
Google Privacy Policy
Gemini Apps Privacy Notice
Gemini models
Activity
Gemini Apps Activity
Gemini Apps Activity
Google Privacy Policy
Learn how to send feedback or report a problem with Gemini Apps
saved info setting
Learn how to delete saved info or turn off this setting
Gemini Apps Privacy Notice
g.co/privacypolicy/location
Google Privacy Policy
Learn how to manage your location
Learn how to manage device location settings
manage mobile permissions when Gemini is your device assistant
Learn how to manage your Gemini Apps activity
gemini.google.com
gemini.google.com
gemini.google.com
gemini.google.com
Gemini app
Learn where Gemini in Google Messages is available
about your location and how to manage it
Gemini in Chrome
Gemini app
Google app permissions
Gemini Apps Privacy Notice
submit feedback on a Gemini App response
Learn more about how Google uses your feedback
Learn more about apps that Gemini can connect with
Learn how to manage apps in Gemini
Google Privacy Policy
How Google retains data it collects
the Apps page
Gemini Apps Activity
Learn more about apps that Gemini can connect with
Learn about other apps that Gemini can connect with
the Apps page
Gemini Apps Activity
Web & App Activity
Your Gemini Apps Activity
how Gemini Apps Activity works with other services and settings
Your Gemini Apps Activity
Learn how to manage apps in Gemini
Gemini Apps Activity
Gemini Apps Privacy Notice
Gemini Apps Activity
manage and delete your Gemini Apps activity
Gemini Apps Activity
Learn more
Gemini Apps Activity
Learn more about your choices
respect others’ privacy
Gemini in Chrome
Gemini Apps Activity
Learn more
Gemini Apps Privacy Notice
Google Privacy Policy
delete Gems in the Gems manager page of the Gemini web app
manage your Gems in the Gems manager page Gemini web app
copy url
source logoai.google

調査のまとめ

回答

LLM(大規模言語モデル)の学習プロセスにおけるユーザーデータの取り扱い、特に「自分のデータが学習されるのではないか」という懸念について、現在までの調査結果に基づいてご説明します。 ...

🏷5. ユーザーデータ学習懸念の現状と技術的論拠の限界

画像 1

5. ユーザーデータ学習懸念の現状と技術的論拠の限界

近年、大規模言語モデル(LLM)の急速な進化は、その驚異的な能力と共に、個人データの取り扱いに関するユーザーの懸念を生み出しています。特に、「生成AIを使っている人が自分のデータが学習されるんじゃないか」という懸念は広く聞かれます。しかし、LLMの学習プロセスとデータ処理のメカニズムを深く理解することで、この懸念が「過度な心配ではない」という論拠を見出すことが可能です。同時に、技術的な限界と依然として存在するリスクについても認識しておく必要があります。

LLMの学習データとプライバシー保護の原則

LLMは、人間には想像もできないほどの膨大な量のテキストデータから学習することで、人間のような自然言語を理解し生成する能力を獲得しています
oxylabs.io
。この学習プロセスは、主に「事前学習(Pre-training)」と「ファインチューニング(Fine-tuning)」の二つの主要な段階で構成されます
medium.com
。
事前学習では、ウェブサイト、オンライン書籍、研究論文など、一般に公開されているテラバイト規模の非常に膨大なテキストコレクションが活用されます
oxylabs.io
。これらのデータは、PDF、HTML、JSON、さらにはWordやExcelなどのMicrosoft Office文書といった多様な形式で存在し、LLMが言語のパターン、文法、知識を習得するための基盤となります
amazon.com
。
ここで重要なのは、これらの生データがモデルにそのまま取り込まれるわけではないという点です。データは収集された後、以下の厳格な前処理パイプラインを経ます
amazon.com
:
  • テキスト抽出とクレンジング: HTMLタグや非UTF-8文字などの非テキスト要素が除去・正規化されます。
  • 品質フィルタリング: 有害なコンテンツや個人識別情報(PII)の除外といったコンテンツベースのフィルタリングが行われます。これは、プライバシー保護の観点から非常に重要なステップです
    amazon.com
    。
  • 重複排除(Deduplication): 重複した訓練例は訓練時間を延長し、モデルにバイアスをかける可能性があるため、段落レベルや文レベルで重複が除去されます
    amazon.com
    。
LLMがデータを「保存」する方法は、従来のデータベースとは大きく異なります。LLMは顧客の請求情報や従業員の詳細を個別の記録として保存するのではなく、データは識別性を失う形で処理されます
fpf.org
。訓練データ内のテキストはまず小さな単位に「トークン化」されます。例えば、「pseudonymisation」は「pseudonym」と「isation」に分解されるように、サブワード単位で分割されます
fpf.org
。各サブワードトークンには固有のIDが割り当てられ、このIDとトークンのマッピングは「語彙(vocabulary)」として保存されます
fpf.org
。この語彙は、LLM内で人間が読めるテキストが存在する唯一の場所です。
fig 1 fig 1 図1. GPT-Legalの語彙リストの例。各トークンはIDと関連付けられています
fpf.org
。
次に、トークン化されたデータは「埋め込み(Embedding)」の段階に進みます。これは、各トークンの文脈情報を訓練データから抽出し、数値表現である「ベクトル」にエンコードする数学的なプロセスです
fpf.org
。このトークンベクトルは、LLMが訓練データから学習するにつれて調整され、そのトークンが他のトークンとどのように関連するかという複雑な文脈情報を反映します
fpf.org
。
fig 2 図2. GPT-Legalの埋め込み行列の例。各行が1つのトークンベクトルで、各値が1つの次元です
fpf.org
。
このプロセスを通じて、LLMは訓練データ内のパターンに基づいたトークン間の確率的関係を学習します。LLMは、処理されたフレーズやテキスト文字列全体を、スプレッドシートやデータベースのようにそのまま保存するわけではありません。学習したパターンに基づいて新しい組み合わせを生成する能力を持っています
fpf.org
。つまり、個人データはトークン化の際にサブワードに分割され、元々個人データの一部であった単語が、個人データではない他の種類の単語を形成するためにも再利用されるため、個人データが識別性を失った形で処理されるという論拠が示唆されています
fpf.org
。

「記憶(Memorisation)」現象とそのプライバシーリスク

LLMが訓練コーパス中に十分な量で頻繁に出現する単語やフレーズのパターンを学習し、それを再現する現象は「記憶(Memorisation)」と呼ばれます
fpf.org
。これは機械学習の「過学習」に関連しており、特定のパターンが訓練データで過剰に表現されると、モデルはその特定のシーケンスを再現する傾向を発達させます
fpf.org
。例えば、特定の有名人の住所のような情報がウェブ上で非常に頻繁に出現する場合、LLMはそれを学習し、関連する質問に対してその情報を再現することがあります
fpf.org
。
この記憶現象は、有名人にとっては許容されるかもしれませんが、一般のプライベートな個人にとっては懸念となり得ます。しかし、LLMによる個人データの再現は、逐語的ではなく「言い換え(paraphrased)」られることが多く、「部分的な吐き出し(partial regurgitation)」とも呼ばれます
fpf.org
。これにより、歪みや不正確さが生じることがあり、再現は一貫性がなく、不完全であることが多いです
fpf.org
。これは、LLMがデータポイント間の関連付けを個人に関する情報のコレクションとして保存していないという、その設計思想からすれば驚くべきことではありません
fpf.org
。

プライバシー保護のための技術的対策

LLMが個人データを学習する際に生じるプライバシー懸念に対しては、様々な技術的対策が活発に研究・開発されており、これらの対策が適用されることで懸念を大幅に軽減することが可能です
arxiv.org
。
訓練段階での対策
LLM開発者やファインチューニングを行う展開者は、訓練コーパスに個人データが含まれるリスクを低減するために以下の措置を講じることができます
fpf.org
:
  • 擬似匿名化(Pseudonymisation): 個人の識別性を除去します。
  • データ最小化(Data Minimisation): 不要な個人データの排除を行います。
  • 差分プライバシー(Differential Privacy; DP): ランダムなノイズを追加して個人データを難読化する堅牢な数学的フレームワークです。これは、データセット内の単一の要素が変更されても、アルゴリズムの出力がほとんど変わらないように機能します
    arxiv.org
    。
    • LLMのファインチューニングにおいて、適応的なノイズ割り当てによってDPを統合する新しい手法「ANADP」が提案されています
      aclanthology.org
      。ANADPは、モデルパラメータの重要度に基づいてノイズを適応的に割り当てることで、プライバシーを保護しつつモデル性能の劣化を最小限に抑えることを目指しています
      aclanthology.org
      。
  • フェデレーテッドラーニング(Federated Learning; FL): LLMが分散されたデータソース間で共同で学習できる分散型訓練アプローチです。この方法では、生の機密データがデバイス上に保持され、共有されることはありません
    arxiv.org
    。モデルの更新のみが交換され集約されるため、プライバシーリスクが大幅に低減されます
    arxiv.org
    。
  • 暗号プロトコル: ホモモルフィック暗号(HE)やセキュアマルチパーティ計算(SMPC)といった技術により、訓練中や推論中にデータを暗号化し、堅牢なプライバシー保護を保証します
    arxiv.org
    。
  • モデルアンラーニング(Machine Unlearning): 特定のデータポイントが訓練済みモデルに与える影響を軽減し、個人データが再現されるリスクを低減する研究中の技術です
    fpf.org
    。
デプロイ段階での対策
LLMをAIシステムに展開する際にも、個人データを保護するための措置が講じられます
fpf.org
:
  • データ損失防止対策(DLP)の実装: 例えば、プロンプトフィルタリングはユーザープロンプトに許可されていない個人データが含まれるリスクを低減し、出力フィルタリングはAIシステムによって生成された応答で意図せず個人データが再現されるリスクを低減します
    fpf.org
    。
  • 信頼できる情報源からのデータ提供: LLMは個人データを保存・検索するために設計されていませんが、個人データを処理するために利用することは可能です
    fpf.org
    。ユーザーがプロンプトの一部として個人データを提供した場合、LLMはそれを応答生成に利用できます。この場合、LLMが使用する個人データは、LLMの語彙ではなく、ユーザーが提供した情報源からのものである可能性が高いです
    fpf.org
    。
  • Retrieval Augmented Generation (RAG): LLMは、その訓練データに基づいて応答を生成しますが、ユーザー自身のデータなど外部の信頼できる情報源とLLMを組み合わせるRAG技術を活用することで、モデルが訓練データ以外の特定の情報源に基づいてより関連性の高い応答を生成できます
    factset.com
    。これにより、ユーザーデータがLLMの「語彙」そのものに組み込まれるリスクを回避しつつ、個々のユーザーの利用体験を改善できます。
多くのAIサービスでは、ユーザーが自身の入力データをモデルの学習に利用しないよう設定できるオプションが提供されていますsearch_results 19。また、GoogleのAI原則では、「プライバシーとセキュリティを促進し、知的財産権を尊重します」と明確に述べられており、AI開発においてユーザーデータのプライバシーとセキュリティが重要な考慮事項であることが示されています
ai.google
。

ユーザー懸念に対する論拠と限界

上記のメカニズムを踏まえると、「生成AIを使っている人が自分のデータが学習されるんじゃないか」という懸念は、その学習プロセスを考慮すれば「過度な心配ではない」と言える論拠がいくつか存在します。
「心配が少ない」とする論拠
  1. データの非永続的保存: LLMは従来のデータベースのように個人データをそのまま保存するようには設計されていません
    fpf.org
    。個人データはトークン化、埋め込みといったプロセスを経て識別性を失い、訓練済みのモデルには単語間の確率的関係がパターンとして学習されるのみで、個別のデータ記録として保持されるわけではありません
    fpf.org
    。
  2. 再現の性質: 「記憶」現象により個人データが再現される可能性はありますが、これは逐語的な「検索と取得」ではなく、確率的な「部分的な吐き出し」であり、多くの場合不完全で不正確な言い換えとして現れます
    fpf.org
    。モデルが個人に関する情報の集合を完全に再現する能力は限定的です
    fpf.org
    。
  3. プライバシー保護技術の導入: 差分プライバシーやフェデレーテッドラーニングなどの技術は、訓練段階で個々のデータポイントのプライバシーを保護し、モデルが特定の情報を記憶するリスクを低減します
    arxiv.org
    。
  4. サービス提供者の対策: 多くのAIサービスプロバイダーは、ユーザーの入力データがモデルの恒久的な学習に利用されないよう、プライバシーポリシーで規定したり、ユーザーがデータ利用をオプトアウトできる設定を提供したりしています
    fpf.org
    , search_results 19。
技術的論拠の限界と残る懸念
しかしながら、完全にリスクがゼロになるわけではありません。
  • 記憶現象の存在: 頻繁に出現する個人情報が訓練データに含まれる場合、それが不完全または不正確であってもモデルによって「再現」されるリスクは依然として存在します
    fpf.org
    。
  • サービスポリシーへの依存: ユーザーデータの取り扱いは、最終的に各AIサービス提供元のプライバシーポリシーに大きく依存します
    fpf.org
    。ユーザーは利用するサービスの規約を慎重に確認し、自身のデータがどのように扱われるかを理解することが不可欠です。
  • 潜在的な脆弱性: LLMアプリケーションには、プロンプトインジェクションやデータ/プロンプトリークといったセキュリティ上の脆弱性も存在し、これらにより意図しない情報漏洩のリスクが生じる可能性も指摘されています
    towardsdatascience.com
    。
結論として、LLMのデータ処理プロセスは、従来のデータベースとは異なり、個人データのそのままの保存や検索を意図していません。また、プライバシー保護のための様々な技術的対策が講じられています。これらの事実を考慮すると、多くのユーザーにとって、生成AIへの入力データがモデルの恒久的な学習に不適切に利用されることへの過度な心配は不要であると考えられます。しかし、記憶現象によるデータの部分的な再現や、サービスごとのポリシーの違い、潜在的なセキュリティ脆弱性も存在するため、ユーザーは自身のデータ保護に対する意識を持ち、利用するAIサービスのデータ取り扱いについて確認する責任があります。AIシステムにデータ損失防止対策(例:出力フィルタリング)を実装することは、意図しない個人データの再現リスクを低減するための効果的な手段として推奨されます
fpf.org
。
copy url
source logofpf.org
2
5
6
7
8
9
11
13
17
18
20
21
↩︎
↩︎
↩︎
https://fpf.org/wp-content/uploads/2024/12/Post-Event-Summary-and-Takeaways-_-FPF-Roundtable-on-AI-and-Privacy-1-2.pdf
↩︎
https://christophergs.com/blog/intro-to-large-language-models-llms
↩︎
https://huggingface.co/docs/hub/en/model-cards
↩︎
↩︎
https://www.coursera.org/articles/neural-network-weights (accessed 4 July 2025).
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
↩︎
copy url
source logoamazon.com
Artificial Intelligence
FineWeb-Edu classifier
trafilatura
Fine-tune Meta Llama 3.1 models using torchtune on Amazon SageMaker
pdfplumber,
pypdf
pdfminer
Amazon Textract
python-docx
CCNet
CCNet pipeline
MinHash
Jaccard similarity
shingles
Locality Sensitive Hashing
Llama 3 paper
Direct Preference Optimization (DPO) dataset
.
Ultrachat-feedback dataset
DPO
Alpaca: A Strong, Replicable Instruction-Following Model
Snapper
PPO
Improving your LLMs with RLHF on Amazon SageMaker
Amazon SageMaker
Amazon Simple Storage Service (Amazon S3)
FSx for Lustre
Hugging Face DataTrove
repo
Amazon Bedrock
SageMaker Ground Truth
Amazon SageMaker
copy url
source logoaclanthology.org
copy url
source logoarxiv.org
[13
3
[15
16
[6
1
[9
[2
[15
18
[11
4
[15
16
[12
14
[15
17
7
[16
12
14
[15
18
14
5
8
[10
15
18
[12
17
[7
16
[15
18
14
copy url
source logoprotecto.ai
data privacy in LLMs
LLM data protection
LLM data loss prevention
LLM sensitive data
personally identifiable information (PII)
AI Guardrails
LLM data privacy
AI adoption

調査のまとめ

LLMがウェブ上のデータなどからどのように学習しているのか、そして生成AI利用者のデータが学習に用いられる懸念についてですね。現在の調査結果では、LLMがウェブ上のデータからどのように「事前学習」を行...

調査のまとめ

LLM(大規模言語モデル)がウェブ上のデータなどからどのように学習しているのか、その基礎的なプロセスとデータソース、そして生成AIへのデータ学習に関する懸念についてご説明します。

LLMの...

🏷6. 今後の調査課題とプライバシー保護技術の展望

画像 1

6. 今後の調査課題とプライバシー保護技術の展望

大規模言語モデル(LLM)の急速な進化と社会への統合は目覚ましいものがありますが、これに伴い、ユーザーのデータプライバシーに関する懸念も高まっています
protecto.ai
。特に「自分のデータが学習されるのではないか」という不安は、生成AIを利用する多くの人々が抱える共通の疑問でしょう。しかし、LLMの学習メカニズムとそのプライバシー保護技術の進展を深く理解することで、その懸念が過度ではない理由が見えてきます。本セクションでは、LLMの学習プロセスにおけるプライバシー課題と、それに対処するための最先端の技術、そして今後の展望について掘り下げていきます。

LLMにおけるプライバシーの核心的な懸念

LLMは、自然言語処理に革命をもたらす一方で、その広範なデータ依存性からデータ漏洩や敵対的攻撃といった深刻なプライバシー懸念を引き起こしています
arxiv.org
。主なリスクの一つは、訓練および推論中に機密情報が意図せず露出することです。これは、LLMが訓練データから特定の詳細を「記憶」し、それが推論中に偶発的または悪意ある試みによって抽出される可能性があるためです
arxiv.org
。特に医療や金融といった機密性の高い分野では、この懸念は極めて重要です
arxiv.org
。
具体的には、LLMが訓練セットの一部であった特定のデータポイントをモデルの応答から推測しようとする「メンバーシップ推論攻撃」
arxiv.org
や、モデルの出力に基づいて機密入力データを再構築する「モデル反転攻撃」
arxiv.org
といった脅威が存在します。これらの脆弱性は、GDPRやHIPAAなどのプライバシー規制への準拠に関する懸念も引き起こします
arxiv.org
。
また、ChatGPTのような公開されているLLMサービスは、ユーザーのプロンプト、チャット履歴、アカウント詳細(名前、メール、IPアドレス、位置情報など)を保存しており、これらの情報がLLMのトレーニングに利用されることが明言されています3。これは、LLMが「経験から学習し、タスクを改善するため」3の重要なプロセスですが、ユーザーにとっては「自分のデータが学習される」という直接的な懸念につながります。

プライバシー保護メカニズムによる懸念の緩和

しかし、ユーザーのデータ学習への懸念に対しては、LLM開発コミュニティが積極的にこれらのプライバシー課題に対処するための様々なメカニズムを研究・実装しているという重要な論拠があります。これらの技術は、データが意図せず再構築されたり、個人の情報が特定されたりする可能性を大幅に低減することを目的としています
arxiv.org
。
主要なプライバシー保護メカニズムは以下の通りです。
  • 差分プライバシー(DP): これは、訓練プロセス中に個々のデータポイントを保護するための堅牢な数学的フレームワークです
    arxiv.org
    。データセット内の単一の要素が変更されても、アルゴリズムの出力がほとんど変わらないように機能します
    arxiv.org
    。DPは、勾配を閾値でクリッピングし、集約された勾配にガウスノイズを追加することで、個々のデータがモデルに与える影響を制限します
    arxiv.org
    。Google DeepMindの研究では、適応的なノイズ割り当てによってDPを統合する新しい手法「ANADP」が提案されており、これにより従来のDP手法よりもモデル性能の劣化を抑えつつ、堅牢なプライバシー保護を維持できることが示されています
    aclanthology.org
    。ANADPは、Transformerモデルの重要なパラメータには低いノイズレベルを、中間層には高いノイズレベルを戦略的に適用することで、機密性の高い事実の関連付けを効果的に曖昧にすることが可能です
    aclanthology.org
    。
  • フェデレーテッドラーニング(FL): この分散型訓練アプローチは、生の機密データがデバイス上に保持され、共有されないことを保証します
    arxiv.org
    。代わりに、勾配や重みなどのモデルの更新のみが交換され、これらが集約されてグローバルモデルが形成されます
    arxiv.org
    。これにより、データがローカルに保持されるため、プライバシーリスクが大幅に低減されます
    arxiv.org
    。これは、医療やパーソナライズされたAIなど、プライバシーに敏感なアプリケーションに特に適しています
    arxiv.org
    。
  • 暗号プロトコル: ホモモルフィック暗号(HE)やセキュアマルチパーティ計算(SMPC)などの技術は、LLMの訓練および推論中にデータを暗号化することで、信頼できない環境でもデータが保護されることを保証します
    arxiv.org
    。HEは暗号化されたデータに対して直接計算を実行でき
    arxiv.org
    、SMPCは複数の関係者が自身の入力を開示することなく共同で計算することを可能にします
    arxiv.org
    。
  • トラステッド実行環境(TEEs): これは、プロセッサ内にセキュアな実行ゾーンを作成するハードウェアベースのアプローチで、訓練中または推論中に機密データを処理でき、外部エンティティにデータを公開することなく、データの機密性と完全性を確保できます
    arxiv.org
    。
これらの技術は、LLMが情報を「記憶」する方法が、従来のデータベースのように個人情報をそのまま保存し、検索する仕組みとは異なるという事実に基づいています
fpf.org
。LLMは、単語がトークンに分割され、その間の統計的なパターンや関連性を学習します。たとえ個人情報が再生される場合でも、それは単語の組み合わせの確率が高いがゆえのことであり、特定の個人を記述するためのデータポイントの関連性が維持されているわけではありません
fpf.org
。さらに、再生される個人情報は、非逐語的であったり、不正確であったり、不完全であったりすることが多く、「部分的な反芻(partial regurgitation)」と呼ばれています
fpf.org
。この特性は、LLMがクエリと検索機能のために設計されていないことを示唆しています
fpf.org
。

プライバシー保護LLMの応用事例と今後の展望

プライバシー保護LLMの応用は、ヘルスケア、金融、教育といった機密性の高いドメインで変革的な可能性を秘めています
arxiv.org
。例えば、ヘルスケア分野ではフェデレーテッドラーニングにより、複数の病院が患者データを集中させることなくLLMを共同訓練し、医療診断や新薬開発に役立てています
arxiv.org
。金融セクターでは、セキュアマルチパーティ計算を活用して、生データを共有せずに不正検出やリスク評価を行うことが可能になっています
arxiv.org
。
今後の調査課題としては、これらのプライバシー保護技術のスケーラビリティと効率性のさらなる向上が挙げられます
arxiv.org
。特に、モデルの有用性を維持しつつ、プライバシー保護を最大化するためのトレードオフのバランスを最適化する研究が重要です
arxiv.org
。ANADPの例が示すように、より効率的なノイズ割り当て方法の開発などが進められています
aclanthology.org
。
また、LLMのライフサイクル全体にわたる「プライバシー・バイ・デザイン」の原則の統合が強調されています
arxiv.org
、
protecto.ai
。これは、データ収集、訓練、展開、そしてその後の監視に至るまで、AIシステム全体でプライバシーを考慮した設計を組み込むことを意味します
ai.google
。GoogleのAI原則でも「プライバシーとセキュリティを促進し、知的財産権を尊重する」
ai.google
ことが明記されており、企業はデータ保持や共有の実践に関するLLMのデータプライバシーポリシーを徹底的に見直し、規制基準への準拠を確保する必要があります
protecto.ai
。
ユーザーが自身のデータが学習されることを心配している場合、多くのLLMプロバイダーがデータ収集を無効にするオプションを提供していることは、大きな安心材料となります
protecto.ai
、
protecto.ai
、12。匿名化やストレージのオプトアウトといったデータ損失防止技術を活用することで、ユーザーデータは不正アクセスや悪用からさらに保護されます
protecto.ai
。プライバシー保護の専門家は、個人情報や顔写真、機密書類などをAIツールにアップロードしないよう推奨しており、これはユーザー自身がプライバシーを守るための最も効果的な「最後の防衛線」となり得ます
medium.com
。
さらに、開発パイプラインに「AIガードレール」を統合することで、脆弱性を早期に特定し、LLMデータセキュリティを強化する取り組みも進められています
protecto.ai
。自動フィルターを使用して機密情報やプライバシーに関する懸念を検出し、ブロックすることで、潜在的なプライバシー侵害を防ぐことが可能です
protecto.ai
。また、モデルから特定のデータポイントの影響を削除する「機械学習のアンラーニング」
fpf.org
といった新技術も、今後のプライバシー保護の重要な研究方向性として注目されています。
これらの進展を総合すると、LLMがウェブ上のデータから学習するプロセスは確かに膨大ですが、それが必ずしも個々のユーザーデータの直接的な漏洩や悪用を意味するわけではないことが分かります。LLMはデータを統計的に処理し、その挙動を曖昧にするための強力な技術が開発されており、企業は透明性の高いポリシー、技術的な安全策、そしてユーザーが自身のデータを制御できるメカニズムを提供しています。したがって、ユーザーが生成AIを利用する際に自分のデータが学習されることについて心配しすぎる必要はない、という論拠は、これらの多層的なプライバシー保護技術と、LLMの根本的な学習メカニズムの理解に基づいていると言えるでしょう。ただし、個々のユーザーが提供するデータの性質(特に機密性)を認識し、適切なプライバシー設定を活用することが、引き続き重要である点は変わりません。
copy url
source logoaclanthology.org
copy url
source logoarxiv.org
[13
3
[15
16
[6
1
[9
[2
[15
18
[11
4
[15
16
[12
14
[15
17
7
[16
12
14
[15
18
14
5
8
[10
15
18
[12
17
[7
16
[15
18
14
copy url
source logoprotecto.ai
data privacy in LLMs
LLM data protection
LLM data loss prevention
LLM sensitive data
personally identifiable information (PII)
AI Guardrails
LLM data privacy
AI adoption
copy url
source logoai.google
copy url
source logodeepmind.com
38th Annual Conference on Neural Information Processing Systems
Test of Time
Sequence to Sequence Learning with Neural Networks
Generative Adversarial Nets
Gemma Scope
AI for music generation
weather forecasting
AndroidControl
in-context abstraction learning
measure an AI system’s goal-directedness
model’s perception of its user can influence its safety filters
CAT3D
a new technique called SDF-Sim
Neural Assets
methods to adapt many-shot ICL
address an important question
Time-Reversed Language Models
Joint Example Selection
planning itself can be viewed as a distinct type of probabilistic inference
Women in Machine Learning
LatinX in AI
Black in AI
Google Research

🖍 考察

調査の本質

本調査は「LLM(大規模言語モデル)がウェブ上のデータからどのように学習するか」「ユーザーの入力データがモデルに学習されるリスクはどの程度か」を明らかにし、利用者が抱きやすい“自分のプロンプトが永久にモデルに刻まれるのではないか”という懸念を技術的・運用的視点から検証することを目的としています。
真のニーズは、
  • LLMの学習メカニズムを正しく理解し、
  • サービス提供者のプライバシー保護措置を踏まえたうえで、
  • 自身のデータ取り扱いを制御する方法を具体的に知りたい、
    という点にあります。

分析と発見事項

  1. LLMの学習フェーズ
    • 事前学習(Pre-training)
      ・インターネット上の公開データ(ウェブページ、論文、書籍、コードリポジトリなど)をテラバイト級で収集
      ・多段階の前処理(HTMLタグ除去、正規化、品質フィルタリング、重複排除、PIIリダクション、トークン化)により、生データから機密情報を匿名化
      ・トークン埋め込み(Embedding)を通して「確率的関係性」のみをモデルのパラメータに学習
    • ファインチューニング(Fine-tuning)
      ・ドメイン固有の小規模かつラベル付けされたデータでモデルの重みを調整
      ・専門用語や応答スタイルのカスタマイズに有効だが、直接的にデータを「モデルに埋め込む」ため、機密性には注意が必要
  2. ユーザーデータ利用の現状
    • 記憶(Memorisation)現象:頻出パターンの有限再現はあるものの「逐語的ではない」「不完全/言い換えられる」ため、個人を識別できる形で保存されるわけではない
    • RAG(Retrieval Augmented Generation) vs ファインチューニング:
      項目RAGファインチューニング
      モデル重みの変更なしあり
      データ埋め込み外部DBにとどめ、リアルタイム参照パラメータに恒久的に組み込む
      プライバシー安全なリポジトリ管理が可能埋め込みによる再現リスクあり
      更新コストDB更新のみで最新情報反映再学習による時間・コスト発生
  3. 生成AIサービスのオプトアウト機能
    • ChatGPT:「Improve the model for everyone」をオフ化でトレーニング利用を停止
      openai.com
    • Gemini:チャット履歴オフで学習データから除外(Workspace版はそもそもモデル学習に利用しない)
      google.com
      ,
      google.com

より深い分析と解釈

  1. なぜユーザーは過度に心配するのか?
    • “AI=全データ記憶”という誤解
    • プロンプトの出所が不明な生成結果に対する不信感
    • データをそのまま保存・検索する旧来型DBとの混同
  2. 3段階の「なぜ?」掘り下げ
    1. なぜ心配? → 利用規約や技術仕様を把握していない
    2. なぜ把握しにくい? → 学習プロセスが複雑、前処理やトークン化のイメージがつきにくい
    3. なぜイメージしにくい? → トランスフォーマーや自己アテンションといった内部構造がブラックボックス化している
  3. 技術的矛盾点と弁証法的解釈
    • 矛盾:公開情報から学習しながら「ユーザーデータも学習される」と言われる
      → 解釈A:公開データが主軸であり、ユーザーデータは“副次的かつ一時的参照”にとどまる
      → 解釈B:ファインチューニング時に機密データを用いる場合は、企業契約やオプトアウト設定が必須
  4. 隠れたパターン・リスク
    • モデル更新時の“無意識な再学習”
    • サードパーティプラグイン経由のデータ漏洩
    • 人間レビュアーによる会話ログチェック

戦略的示唆

  1. 利用者向け
    • プライバシー設定の積極活用:ChatGPTのオプトアウト設定/Geminiの履歴オフを必ず実施
    • 一時的チャットの活用:機密プロンプトは一時チャットモードでやり取りし、30日で自動消去
    • 敏感情報の入力禁止:個人識別情報や企業機密は生成AIにアップロードしない
  2. 企業・組織向け
    • RAGの導入推進:機密リポジトリを自社管理し、モデル重みにデータを埋め込まないアーキテクチャを構築
    • 差分プライバシー/フェデレーテッドラーニング:トレーニング段階で個人データ漏洩を技術的に防止
    • 監査・ガバナンス体制の整備:定期的なプライバシー影響評価(PIA)と人間レビュープロセスの可視化
  3. LLMプロバイダー向け
    • オプトアウトのUI統一化:Web/Mobile/API間で一貫したデータコントロールを実装
    • モデルアンラーニング機能:特定データポイントを後からモデルから除外可能な機能を開発
    • 透明性レポート:学習データの種類、前処理方法、レビュープロセスを定期公開

今後の調査の提案

  • 差分プライバシー(DP)を実運用する際の「性能低下 vs ノイズ量」の最適バランス検証
  • フェデレーテッドラーニング(FL)を用いた企業横断共同学習の事例研究
  • モデルアンラーニング技術(Machine Unlearning)の成熟度と応用範囲調査
  • RAGとファインチューニングを組み合わせたハイブリッドアーキテクチャの効果検証
  • サードパーティプラグインによるデータ漏洩リスク評価とガイドライン策定
  • プロンプトインジェクション防御のベストプラクティス確立
以上を踏まえれば、LLM学習プロセスの実態とサービスのオプトアウト機能を正しく理解することで、「自分のデータが永久に学習されてしまうのではないか」という過度な懸念は大幅に軽減できます。一方で技術的・運用的リスクは残るため、継続的なモニタリングとプライバシー保護技術のアップデートが重要です。

このレポートが参考になりましたか?

あなたの仕事の調査業務をワンボタンでレポートにできます。

無料でリサーチ

📖 レポートに利用された参考文献

検索結果: 50件追加のソース: 0件チャット: 4件

266件の参考文献から54件の情報を精査し、約270,000語の情報を整理しました。あなたは約23時間の調査時間を削減したことになります🎉

調査された文献
266件
精査された情報
54件
整理された情報量
約270,000語
削減された時間
約23時間

🏷 1. LLMの基礎学習プロセスとデータ収集の概要

LLM Training Data: The 8 Main Public Data Sources - Oxylabs
Training data for LLMs consists of vast collections of text, often terabytes in size, gathered from public sources like websites, online books, research papers, ...
oxylabs.iooxylabs.io
Nature of Data in Pre-Trained Large Language Models
In this example, the personal data that the LLM uses will likely be from the sources that have been provided by the user and not from the LLM's vocabulary.
fpf.orgfpf.org
An introduction to preparing your own dataset for LLM training - AWS
Text data can come from diverse sources and exist in a wide variety of formats such as PDF, HTML, JSON, and Microsoft Office documents such as Word, Excel, and ...
amazon.comamazon.com
A Guide to 400+ Categorized Large Language Model(LLM) Datasets
Discover essential datasets for your GenAI/LLMs project, covering pre-training, fine-tuning, evaluation, and more for effective AI research.
analyticsvidhya.comanalyticsvidhya.com
Large language model - Wikipedia
A large language model (LLM) is a language model trained with self-supervised machine learning on a vast amount of text, designed for natural language ...
wikipedia.orgwikipedia.org
Releasing the largest multilingual open pretraining dataset
The largest fully open multilingual dataset for training LLMs, containing over 2 trillion tokens of permissibly licensed content with provenance information.
huggingface.cohuggingface.co
The Large Language Model Course | Towards Data Science
「The Large Language Model Course | Towards Data Science」の要約を以下に提供します。このコースは、大規模言語モデル(LLM)の世界に参入したい人々を対象としたトピックと教育リソースの集まりです。 #### コースの概要 このLLMコースは、LLMに興味を持つ人々が学習を進めるための包括的なリソースを提供しています。主に以下の2つのロードマップに焦点を当てています。 * **LLMサイエンティスト (🧑🔬)**:最新技術を駆使して最高のLLMを構築することに特化しています。 * **LLMエンジニア (👷)**:LLMベースのアプリケーションを構築し、展開することに焦点を当てています。 このコースには、質問に答えたり知識をテストしたりするインタラクティブなLLMアシスタントが、[HuggingChat](https://huggingface.co/chat/)や[ChatGPT](https://chat.openai.com/g/g-yviLuLqvI-llm-course)で提供されています。 ![Image by author](https://towardsdatascience.com/wp-content/uploads/2025/01/1s-fK5J5Sz5185wLkLuvgTg.png) #### LLMサイエンティスト:LLM構築の基礎 このセクションでは、最新技術を用いたLLMの構築方法について学習します。 ![Image by author](https://towardsdatascience.com/wp-content/uploads/2025/01/0VFFby0bpiwUeaELv.png) * **LLMアーキテクチャの基本**: Transformerアーキテクチャの詳細な知識は必須ではありませんが、現代のLLMの主要なステップを理解することが重要です。これには、トークン化によるテキストの数値変換、アテンションメカニズムを含む層を介したトークンの処理、様々なサンプリング戦略による新しいテキストの生成が含まれます。 * **事前学習モデルのメカニズム**: 事前学習は計算集約的で高コストなプロセスですが、その理解は不可欠です。 * **データ準備**: 事前学習には[Llama 3.1が15兆トークン](https://arxiv.org/abs/2307.09288)で訓練されたように、キュレーション、クリーニング、重複排除、トークン化が必要な大規模データセットが用いられます。現代の事前学習パイプラインでは、低品質または問題のあるコンテンツを除去するために高度なフィルタリングが実装されています。 * **分散学習と最適化**: データ並列、パイプライン並列、テンソル並列など様々な並列化戦略を組み合わせ、効率的なネットワーク通信とメモリ管理が求められます。学習率の調整、勾配クリッピング、混合精度学習、AdamWなどの最新のオプティマイザが使用されます。 * **事後学習データセットの構造**: 事後学習データセットは、命令と回答(教師ありファインチューニング)や、命令と選択/拒否された回答(選好アラインメント)といった正確な構造を持ちます。 * **合成データ生成と品質フィルタリング**: シードデータに基づき、GPT-4oのようなフロンティアモデルを使用して命令-応答ペアを作成する「合成データ生成」は、高品質な回答を伴う柔軟でスケーラブルなデータセット作成を可能にします。また、ルールベースのフィルタリング、重複排除(MinHashや埋め込みを使用)、N-gram汚染除去などの伝統的な技術に加え、報酬モデルや判定LLMを用いたきめ細かな品質管理が行われます。 * **教師ありファインチューニング (SFT)**: ベースモデルを役立つアシスタントに変えるプロセスです。モデルは質問に答え、指示に従う方法を学び、事前学習で習得した知識の一部を再活性化します。新しい知識を習得することは可能ですが、それは表面的なもので、完全に新しい言語を学ぶことはできません。常にパラメータ最適化よりもデータ品質を優先することが強調されています。LoRAやQLoRAのようなパラメータ効率の良いファインチューニング技術は、メモリ要件を大幅に削減します。 * **選好アラインメント**: 事後学習の第2段階で、生成された回答を人間の好みに合わせることに焦点を当てています。これにより、LLMのトーンを調整し、毒性や幻覚を減らすだけでなく、パフォーマンスと有用性を向上させます。DPO(Direct Preference Optimization)とPPO(Proximal Policy Optimization)が主要なアルゴリズムとして挙げられています。 #### LLM Engineer:LLMアプリケーションの構築 このセクションでは、本番環境で使用できるLLMパワードアプリケーションの構築方法に焦点を当て、モデルの拡張とデプロイメントに重点を置いています。 * **LLMの実行**: ハードウェア要件が高いため、APIを介してモデルを使用するか、ローカルで実行するかに応じて様々な方法があります。OpenAIやGoogleなどのプライベートAPIと、Hugging FaceやTogether AIなどのオープンソースLLM APIが存在します。また、プロンプトエンジニアリングは、出力の品質を向上させたり、構造化された出力を生成したりするために重要です。ローカルLLMサーバー([LM Studio](https://lmstudio.ai/)、[Ollama](https://ollama.ai/)など)は、プライバシーという利点を活かし、ローカルアプリケーションを強化します。 * **RAG (Retrieval Augmented Generation)**: LLMがデータベースから文脈に関連する文書を検索し、回答の精度を向上させる人気の方法です。これには、文書の取り込み、分割、埋め込みモデルによるベクトル表現の生成、ベクトルデータベースへの保存、そしてLangChainのようなオーケストレーターを用いた検索の最適化が含まれます。 * **LLMのセキュリティ**: 従来のソフトウェアセキュリティ問題に加え、LLMは訓練方法やプロンプトの仕方に関連する独自の弱点を持っています。 * **プロンプトハッキング**: プロンプトインジェクション(モデルの回答を乗っ取る追加指示)、データ/プロンプトリーク(元のデータ/プロンプトの取得)、ジェイルブレイク(安全機能を回避するプロンプト)など、プロンプトエンジニアリングに関連する様々な技術があります。 * **バックドア**: 訓練データ自体を標的とする攻撃ベクトルで、訓練データを汚染したり(例:誤情報)、推論時にモデルの挙動を変える秘密のトリガーを作成したりするものです。 * **防御策**: 最良の防御策は、レッドチームや[garak](https://github.com/leondz/garak/)のようなツールを使って脆弱性に対してアプリケーションをテストし、[langfuse](https://github.com/langfuse/langfuse)のようなフレームワークで本番環境で監視することです。 #### LLMの学習プロセスとユーザーデータの懸念について ユーザーが自身のデータがLLMの学習に利用されることを懸念している点について、本コースの学習プロセスを考慮すると、直接的な個人情報の露呈や意図しない学習の可能性は低いと考えられます。その論拠は以下の通りです。 * **大規模データセットと厳格な品質管理**: LLMの事前学習には、非常に膨大な量のウェブデータなどが利用されます(例:[Llama 3.1は15兆トークン](https://arxiv.org/abs/2307.09288)で訓練)。これらのデータは「注意深いキュレーション、クリーニング、重複排除、トークン化」が行われ、「低品質や問題のあるコンテンツを除去するための高度なフィルタリング」が実装されています。個々のユーザーが生成AIサービスに入力するデータは、この途方もないデータセットのごく一部に過ぎず、モデル全体の挙動に直接的な影響を与えるほど大きなウェイトを持つ可能性は極めて低いと言えます。 * **事後学習における合成データとフィルタリング**: 事後学習では、モデルの性能向上や特定タスクへの適応のためにデータが使用されますが、このデータセットも「重複排除」や「N-gram汚染除去」といった徹底した「品質フィルタリング」が施されます。また、[GPT-4o](https://chat.openai.com/g/g-yviLuLqvI-llm-course)のような「フロンティアモデル」を用いて「命令と応答のペアを生成する」という「合成データ生成」が主要な方法として挙げられています。これは、ユーザーの生データが直接学習に用いられるのではなく、高品質な既存モデルが生成したデータや、厳密に管理されたデータが用いられる傾向が強いことを示唆します。 * **ファインチューニングにおける新規知識獲得の性質**: 教師ありファインチューニング(SFT)は、ベースモデルを役立つアシスタントにするものですが、「新しい知識を習得することは可能だが、それは表面的なもの」と述べられています。このことから、ユーザーが入力した個々の情報が、モデルの深い知識として恒久的に組み込まれ、他のユーザーの出力に直接的に現れる可能性は低いと考えられます。 * **セキュリティとプライバシーへの認識と対策**: 本コースの「LLMのセキュリティ」セクションでは、「プロンプトハッキング」や「バックドア」といったデータに関連する脆弱性が認識されており、それに対する「防御策」の必要性も明確に示されています。AI開発企業は、データの漏洩や悪用を防ぐための技術的・運用的な対策を講じています。 これらの学習プロセスやセキュリティへの配慮から、一般的な商用生成AIサービスにおいて、ユーザーが入力した個別のデータが意図せずモデルの再学習に利用され、その内容が他のユーザーに再現される形で出力されるといった懸念は、その可能性が低いと言えるでしょう。各企業はユーザーデータのプライバシーとセキュリティを重視し、厳格なデータ利用ポリシーを設けています。
towardsdatascience.comtowardsdatascience.com
15+ High-Quality LLM Datasets for Training your LLM Models
This blog explores the world of LLM training with a curated list of over 15 LLM datasets categorized by the specific task they excel at.
projectpro.ioprojectpro.io
Fine-tuning - Hugging Face
Trainer is an optimized training loop for Transformers models, making it easy to start training right away without manually writing your own training code ...
huggingface.cohuggingface.co
Scalable Data Collection Tool for AI Models and LLMs - ScraperAPI
Turn Web Pages into Ready-to-Use Data to Train LLMs. ScraperAPI's output_format parameter lets you collect web data in Text or Markdown format automatically, ...
scraperapi.comscraperapi.com
AI data collection (how to feed your LLM) - Apify Blog
In this article, we'll show you step-by-step how to use Website Content Crawler for AI data collection with its simple and intuitive UI.
apify.comapify.com
How LLM Web Scraping Transforms Data Extraction and Processing?
Integrating LLM web scraping into your workflows allows smarter data collection and analysis. Find out how it benefits data scientists and AI researchers.
promptcloud.compromptcloud.com
RAG vs. fine-tuning: LLM learning techniques comparison - Addepto
As a result, fine-tuned LLM is more likely to generate more accurate and relevant responses compared to a generic model.
addepto.comaddepto.com
RAG vs. Fine Tuning: A Complete LLM Technique Comparison
Deskrex AIアシスタントとして、「RAG vs. Fine Tuning: A Complete LLM Technique Comparison」についての読みやすく包括的な要約を提供します。 #### はじめに ビジネスや開発者は、より正確で効率的な言語モデルを構築するための賢い方法を常に模索しています。この文脈でよく議論される人気のアプローチとして、Retrieval-Augmented Generation (RAG) と大規模言語モデル (LLM) のファインチューニングの2つが挙げられます。 両方の手法はモデルの出力を改善することを目指しますが、その到達経路は大きく異なります。RAGは外部ソースからリアルタイムデータを引き出すことで応答を強化する一方、ファインチューニングは特定のデータセットで訓練することでモデルの振る舞いを再構築します。どちらを選択するかは、ユースケース、予算、およびデータの変更頻度によって異なります。 #### Retrieval-Augmented Generation (RAG) とは [Retrieval-Augmented Generation (RAG)](https://www.solulab.com/what-is-retrieval-augmented-generation/) は、Metaが2020年に導入したフレームワークで、大規模言語モデル (LLM) をキュレーションされた動的データベースに接続することで、その性能を向上させるように設計されています。この接続により、LLMは最新かつ信頼性の高い情報で強化された応答を生成し、その精度と文脈的推論能力を向上させます。 #### RAG開発の主要コンポーネント RAGアーキテクチャの構築は、さまざまなツールや技術を統合する多面的なプロセスです。これには、プロンプトエンジニアリング、Pineconeなどのベクトルデータベース、埋め込みベクトル、セマンティックレイヤー、データモデリング、データパイプラインのオーケストレーションが含まれます。各要素はRAGシステムの要件に合わせてカスタマイズされます。 RAG (Retrieval-Augmented Generation) 開発の主要コンポーネントは以下の通りです。 1. **Retriever**: ユーザーのクエリに基づいて、知識ベース(ドキュメントやデータベースなど)を検索し、最も関連性の高い情報を見つけ出すコンポーネントです。AIの「リサーチアシスタント」のような役割を果たします。 2. **Knowledge Base / Vector Store**: ドキュメントやデータチャンクの構造化されたコレクションで、通常、ベクトルデータベース(例:Pinecone、FAISS)に埋め込みを介して高速かつ正確な検索ができる形式で保存されます。 3. **Embedding Model**: ユーザーのクエリとドキュメントを、関連性を比較するためにベクトル形式(数値形式)に変換します。OpenAIのモデルやSentence Transformersなどが人気です。 4. **Generator (LLM)**: GPT-4のような大規模言語モデルが、取得されたドキュメントを受け取り、人間らしい応答を生成します。これにより、回答が文脈に沿っており、取得された情報に基づいていることが保証されます。 5. **Orchestration Layer**: クエリ入力から取得、生成まで、パイプライン全体を調整します。LangChainやLlamaIndexなどのツールが、このフローを効率的に合理化するのに役立ちます。 #### RAGの仕組み RAGのワークフローは以下の手順で進行します。 1. **クエリ処理**: ユーザーがクエリを送信すると、RAGワークフローが開始されます。このクエリがシステムの取得メカニズムの出発点となります。 2. **データ取得**: 入力クエリに基づいて、システムはそのデータベースで関連情報を検索します。このステップでは、洗練されたアルゴリズムを使用して、最も適切で文脈に沿ったデータを識別し、取得します。 3. **LLMとの統合**: 取得された情報はユーザーのクエリと結合され、LLMへの入力として提供されます。これにより、応答生成のための文脈が豊かな基盤が作成されます。 4. **応答生成**: LLMは、文脈データと元のクエリによって強化され、正確でクエリの特定のニーズに合わせた応答を生成します。 #### ファインチューニングとは ファインチューニングは、より小さく、専門的で、ラベル付けされたデータセットで大規模言語モデル (LLM) を訓練することに焦点を当てることで、[生成AI](https://www.solulab.com/generative-ai/) を開発する別の方法を提供します。このプロセスには、新しいデータに適応させるためにモデルのパラメータと埋め込みを変更することが含まれます。 企業向けのAIソリューションに関して、Retrieval-Augmented Generation (RAG) とファインチューニングの両方が、[AIモデル](https://www.solulab.com/generative-ai-models/) から得られるビジネス価値を最大化するという同じ目標を目指します。ただし、独自のデータベースへのアクセスを付与することでLLMを強化するRAGとは異なり、ファインチューニングは特定のドメインに合わせてモデル自体をカスタマイズすることで、より詳細なアプローチを取ります。 ファインチューニングプロセスは、特定の分野に固有のニュアンスや専門用語を反映した、ニッチでラベル付けされたデータセットを使用してLLMを訓練することに焦点を当てています。そうすることで、ファインチューニングはモデルが専門的なタスクをより効果的に実行できるようにし、ドメイン固有のアプリケーションに非常に適したものにします。 #### LLMのファインチューニングの種類 [大規模言語モデル (LLM)](https://www.solulab.com/comparison-of-all-llm/) のファインチューニングは、一概に同じではありません。目的、データサイズ、リソース制約に応じていくつかの異なるアプローチがあります。LLMのファインチューニングには、以下の種類があります。 1. **教師あり調整 (Supervised Adjustment)** ラベル付けされた入出力ペアを持つタスク固有のデータセットを使用し、事前に訓練されたモデルをさらに訓練します。これにより、モデルは提供されたデータセットを使用して入力を出力にマッピングする方法を学習できます。 * **仕組み**: 訓練済みモデルを使用し、入出力ペアを含むデータセットを作成します。ファインチューニング中に事前訓練済み重みを更新し、新しいタスクに適応させます。 * ラベル付きデータセットが利用可能な場合、固有表現認識、テキスト分類、感情分析などのアプリケーションに最適です。[ファインチューニング](https://www.solulab.com/fine-tuning-a-model-for-a-specific-task/) のこの形式は、特定のタスクにモデルを特化させるのに役立ちます。 2. **指示調整 (Instructional Adjustment)** プロンプトテンプレートに詳細なガイダンスを加えて入出力の例を追加します。これにより、モデルは新しいタスク、特に平易な言語での指示を必要とするタスクに対して一般化する能力を向上させます。 * **仕組み**: 訓練済みモデルを使用し、指示と応答のペアを含むデータセットを準備します。ニューラルネットワークの訓練と同様に、指示ファインチューニング手順を使用してモデルを訓練します。 * チャットボット、質問応答システム、および自然言語対話を必要とするその他の活動の構築によく使用されます。 3. **PEFT (Parameter-Efficient Fine-Tuning)** 完全なモデルを訓練するには多くのリソースが必要です。PEFT技術は、モデルのパラメータの一部のみを変更することで、訓練に必要なメモリ量を削減し、メモリと計算の両方を効率的に使用できるようにします。 * **PEFT技術**: * **Selective Method**: モデルのレイヤーの一部のみをファインチューニングし、大部分をフリーズします。 * **LoRA (Reparameterization Method)**: 低ランク行列を使用して、小さく訓練可能なパラメータを追加し、以前の重みをフリーズすることでモデルの重みを再パラメータ化できます。例えば、モデルの次元が512x64の場合、完全なファインチューニングでは32,768パラメータが必要ですが、LoRAでは4,608パラメータに削減できます。 * **Additive Method**: 所与のジョブのためにモデルのエンコーダー側またはデコーダー側に追加のレイヤーを訓練することを含みます。 * **Soft Prompting**: 他のトークンと重みをフリーズし、モデルプロンプトに新しく導入されたトークンのみを訓練します。 * PEFTは訓練コストとリソース要件を削減し、メモリ制限を超える巨大なモデルを扱う場合に役立ちます。 4. **人間からのフィードバックによる強化学習 (RLHF)** RLHFは、強化学習を使用して、洗練されたモデルの出力を人間の好みに合わせます。初期のファインチューニング段階の後、この戦略はモデルの振る舞いを改善します。 * **仕組み**: * **データセットの準備**: プロンプトと完了のペアを作成し、人間評価者が使用するアライメント基準に従ってランク付けすることでデータセットを準備します。 * **報酬モデルの訓練**: 人間のフィードバックを使用して完了スコアを提供する報酬モデルを作成します。 * **モデルの修正**: 通常はPPOアルゴリズムを使用して、強化学習に基づいて報酬モデルに基づいてモデルの重みを更新します。 * RLHFは、倫理基準やユーザーの期待に準拠した言語生成を含む、人間らしい出力を必要とするアプリケーションに最適です。 #### ファインチューニングの仕組み ファインチューニングは、[大規模言語モデル (LLM)](https://www.solulab.com/guide-to-llmops/) を特定のタスクにカスタマイズするための重要なステップです。プロセスを詳細に説明します。 1. **LLMの事前学習**: ファインチューニングは、事前訓練された大規模言語モデルから始まります。事前訓練では、大量のテキストとコードを収集して汎用LLMを開発します。この基盤モデルは基本的な言語パターンと関係性を学習し、汎用的なタスクを実行できるようにします。ただし、ドメイン固有のアプリケーションには、パフォーマンスを向上させるために追加のファインチューニングが必要です。 2. **タスク固有データの準備**: ターゲットタスクに関連する、より小さく、ラベル付けされたデータセットを収集します。このデータセットは、モデルが特定の入出力関係を処理できるように訓練するための基盤となります。収集後、データは訓練、検証、テストセットに分割され、効果的な訓練と正確なパフォーマンス評価が保証されます。 3. **データの再処理**: 初心者向けのRAGのファインチューニングの成功は、タスク固有のデータの品質に依存します。まず、データセットをLLMが処理できる形式に変換します。エラーを修正し、重複を削除し、外れ値に対処してデータをクリーニングし、モデルが正確で構造化された情報から学習できるようにします。 4. **レイヤーの調整**: 事前訓練されたLLMは複数のレイヤーで構成されており、それぞれが入力データの異なる側面を処理します。ファインチューニング中に、モデルをタスク固有のデータセットに適応させるために、最上位または後期のレイヤーのみが更新されます。残りのレイヤー(一般的な知識を保存する)は、基本的な言語理解を保持するために変更されません。 5. **モデルの構成**: 学習率、バッチサイズ、正則化技術、エポック数など、ファインチューニングのパラメータを設定します。これらのハイパーパラメータを適切に構成することで、効率的な訓練と、目的のタスクに対する最適なモデル適応が保証されます。 6. **モデルの訓練**: クリーニングされたタスク固有のデータを事前訓練されたLLMに入力し、訓練を開始します。バックプロパゲーションアルゴリズムを使用してファインチューニングされたレイヤーが調整され、誤差を最小限に抑えることでモデルの出力が洗練されます。ベースモデルは事前訓練されているため、ファインチューニングは通常、スクラッチからの訓練と比較して少ないエポックで済みます。過学習を防ぎ、必要に応じて調整するために、検証セットでのパフォーマンスを監視します。 7. **性能評価**: モデルが訓練されたら、新しいデータに一般化する能力を確認するために、未知のデータセットを使用してその性能をテストします。BLEUスコア、ROUGEスコア、または人間による評価などの指標を使用して、モデルの精度と、目的のタスクを実行する上での有効性を評価します。 8. **反復と展開**: 評価結果に基づいて、モデルを洗練し改善するために以前のステップを見直します。モデルが満足のいくパフォーマンスを達成するまでプロセスを繰り返します。準備ができたら、ファインチューニングされたLLMを、指定されたタスクを効果的に実行できるアプリケーションに展開します。 これらのステップに従うことで、RAGのファインチューニングに不慣れな人も、LLMを専門タスクに効果的に適応させ、高いパフォーマンスと実用的なアプリケーションを確保できます。 #### RAGとLLMファインチューニングの違い 以下の表は、LLMにおけるRAGとファインチューニングの主な違いを強調し、それぞれのアプローチをいつ選択すべきかを理解するのに役立ちます。両方の手法は大規模言語モデル (LLM) を強化する目的を果たしますが、その方法論とアプリケーションは大きく異なります。 | 側面 | Retrieval-Augmented Generation (RAG) | Fine-Tuning | |---|---|---| | 定義 | RAGは事前訓練されたLLMを外部データベースと組み合わせ、リアルタイムで関連情報を取得してモデルの応答を増強します。 | ファインチューニングは、ラベル付けされたデータセットを使用してLLMを再訓練し、特定のタスクに合わせてモデルのパラメータを調整することを含みます。 | | 目的 | リアルタイムデータに基づいて回答を根拠づけることで、正確で文脈的に更新された応答を提供します。 | 特定のタスクまたはドメインでのパフォーマンスを向上させるために、LLM自体をカスタマイズします。 | | データ依存性 | 関連情報を取得するために、キュレーションされ動的に更新される外部データベースに依存します。 | 訓練と検証のためにタスク固有のラベル付けされたデータセットを必要とします。 | | 訓練の労力 | 生成モデルは変更されないため、訓練は最小限で済みます。取得の最適化に焦点を当てます。 | ラベル付けされたデータで事前訓練されたモデルをファインチューニングするために、かなりの計算リソースを必要とします。 | | モデルの適応 | 関連する外部情報を取得することでモデルが動的に適応します。 | ファインチューニング後、モデルは静的で、特定のタスクやドメインに合わせて調整されます。 | | 知識の更新 | 外部知識ベースを単に修正または追加するだけで更新が容易です。 | 新しい情報を取り込むには、再訓練または追加のファインチューニングが必要です。 | | 推論コスト | 取得プロセスがあるため、推論中のコストが高くなります。 | ファインチューニングされたモデルは独立して動作するため、推論コストが低くなります。 | | 例 | PineconeやElasticsearchなどのベクトルデータベースと統合されたGPT-3やChatGPT。 | 契約審査のためにGPT-3を法律文書でファインチューニングしたり、特定のAPIのためにファインチューニングしたりします。 | | カスタマイズレベル | 取得メカニズムと外部知識の調整に限定されます。 | 特定のタスクに対するパラメータ更新を通じて深いカスタマイズが可能です。 | | メンテナンス | 主に知識ベースの更新であるため、メンテナンスが容易です。 | 新しいタスクや更新された知識のために継続的なファインチューニングが必要です。 | #### ファインチューニングとRAGのどちらを選ぶか LLM RAG (Retrieval-Augmented Generation) とファインチューニングのどちらを選択するかは、特定のユースケースと利用可能なリソースによって異なります。RAGは多くのシナリオで選択肢となることが多いですが、RAGとファインチューニングは相互排他的ではないことに注意することが重要です。両方のアプローチは互いを補完し合うことができ、特にリソースが利用可能な場合は、それらを組み合わせて最大のメリットを得ることができます。 * **考慮すべき要素** ファインチューニングは深いカスタマイズを提供しますが、高い計算コスト、時間のかかるプロセス、ラベル付けされたデータの必要性などの課題を伴います。一方、RAGは訓練にはリソースをあまり必要としませんが、効果的な取得システムの構築と管理には複雑さが伴います。 * **RAGとファインチューニングの両方を活用する** リソースが許す場合、両方の方法を組み合わせることは非常に効果的です。非常に特定の文脈を理解するようにモデルをファインチューニングし、RAGを使用してターゲットとする知識ベースから最も関連性の高いデータを取得することで、強力な[AIソリューション](https://www.solulab.com/ai-copilot-development-company/) を作成できます。LLMのファインチューニングとRAGのニーズを慎重に評価し、目標に最も合致するアプローチに焦点を当てることで、ステークホルダーに最大の価値を提供することを目指してください。 * **AI開発におけるデータ品質の役割** ファインチューニングとRAGのどちらを選択するにしても、両方とも堅牢なデータパイプラインに大きく依存します。これらのパイプラインは、AIアプリケーションの有効性を確保するために、信頼できるデータストアを介して正確で信頼性の高い企業データを提供する必要があります。 * **オブザーバビリティによるデータ信頼性の確保** RAGまたはファインチューニングが成功するためには、基盤となるデータが信頼できるものでなければなりません。データオブザーバビリティ(データ信頼性を監視および改善するためのスケーラブルで自動化されたソリューション)の実装は不可欠です。オブザーバビリティは、問題を検出し、その根本原因を特定し、迅速に解決するのに役立ち、このデータに依存するLLMへの悪影響を防ぎます。 高品質なデータを優先し、ステークホルダーのニーズと決定を整合させることで、LLM RAGとファインチューニングのどちらか、または両方の強みを活用しながら、情報に基づいた選択を行うことができます。 #### 最後に Retrieval-Augmented Generation (RAG) とLLMファインチューニングは、AIパフォーマンスを向上させる強力な方法を提供しますが、それぞれ異なる目的を果たします。RAGは、モデル自体を変更することなく、リアルタイムで最新の、またはドメイン固有の情報が必要な場合に理想的です。 一方、ファインチューニングは、キュレーションされたデータで訓練することで、特定のタスクでより良いパフォーマンスを発揮するようにモデルをカスタマイズします。柔軟性と新しい知識が必要な場合はRAGを選択し、深いカスタマイズと長期的な改善を求める場合はファインチューニングが適切な選択肢です。正しい選択は、特定のユースケース、予算、コンテンツまたはデータの変更頻度によって異なります。 SoluLabは、企業がテキスト、画像、ドキュメント、APIからデータをインポート・統合し、インテリジェントでパーソナライズされたアプリケーションを構築できるAIプラットフォームである[InfuseNet](https://www.solulab.com/case-studies/data-empowerment-with-infusenet/)を支援しました。そのドラッグ&ドロップインターフェースは、GPT-4やGPT-NeoXなどの高度なモデルを接続し、プライベートデータを使用したChatGPTのようなアプリの作成を改善し、セキュリティと効率を確保します。MySQL、Google Cloud、CRMなどの多様なサービスをサポートするInfuseNetは、生産性と意思決定の強化のためにデータ駆動型イノベーションを可能にします。 [AI開発企業](https://www.solulab.com/ai-development-company/)であるSoluLabは、動的な情報取得のためのRAGベースのモデルの実装から、ニッチなアプリケーションのためのLLMのファインチューニングまで、お客様を支援できます。 #### よくある質問 (FAQs) **1. AI開発におけるRAGとファインチューニングの違いは何ですか?** RAG (Retrieval-Augmented Generation) は、生成言語モデルと外部データ取得を組み合わせ、最新かつドメイン固有の情報を提供します。ファインチューニングは、事前訓練された言語モデルをカスタムデータセットで訓練し、特定のタスクに合わせてパフォーマンスを最適化することを含みます。RAGは動的なデータニーズに理想的である一方、ファインチューニングは専門的なアプリケーションに優れています。 **2. RAGとファインチューニングは一緒に使用できますか?** はい、RAGとファインチューニングは互いを補完し合うことができます。例えば、特定のタスクのためにモデルをファインチューニングし、RAGを使用して関連する追加情報を動的に取得することで、[AIアプリケーション](https://www.solulab.com/top-artificial-intelligence-applications/) における精度と関連性の両方を確保できます。 **3. RAGとファインチューニング、どちらのアプローチがより費用対効果が高いですか?** RAGはモデルを変更する必要がなく、取得システムの最適化に焦点を当てるため、一般的に費用対効果が高いです。一方、ファインチューニングは、ラベル付けされたデータ、計算能力、再訓練が必要なため、リソースを大量に消費する可能性があります。 **4. データ品質はRAGまたはファインチューニングの成功にどのように影響しますか?** RAGとファインチューニングの両方とも、高品質で信頼性の高いデータに依存します。RAGでは、取得システムは適切にキュレーションされた知識ベースに依存し、ファインチューニングは正確にラベル付けされたデータセットを必要とします。データ品質が低いと、出力の不正確さやモデルのパフォーマンス低下につながる可能性があります。 **5. SoluLabはRAGまたはファインチューニングプロジェクトをどのように支援できますか?** SoluLabは、RAGとファインチューニングの両方のアプローチに特化した、エンドツーエンドの[LLM開発ソリューション](https://www.solulab.com/large-language-model-development-company/) を提供しています。当社のチームは、シームレスな統合、安全なデータ処理、およびビジネスニーズに合わせたスケーラブルなソリューションを保証します。AIプロジェクトを向上させる方法について、ぜひお問い合わせください。
solulab.comsolulab.com
Fine-Tuning LLMs: Overview, Methods, and Best Practices - Turing
Fine-tuning is the process of adjusting the parameters of a pre-trained LLM to a specific task or domain. Learn about the methods and how to fine-tune LLMs.
turing.comturing.com
Fine-Tuning vs. Training LLMs: A Practical Guide - Medium
Here's what I've learned from deploying both fine-tuned and fully trained LLMs. Fine-tuned models are generally lighter, which makes them easier to deploy. I' ...
medium.commedium.com
Fine-Tuning vs. Pre-Training: Their Impact on Language Models
Pre-trained LLMs can generalize well across various applications, making them versatile, whereas fine-tuned models excel in specialized domains.
sapien.iosapien.io
Fine-Tuning Techniques - Choosing Between SFT, DPO ...
The training process adjusts model weights to minimize errors across text-image pairs and as a result improve the model's understanding of image inputs.
openai.comopenai.com
How ChatGPT and our foundation models are developed
During training, the model analyzes relationships within this data—such as how words typically appear together in context—and uses that understanding to predict ...
openai.comopenai.com
LLMs don't know anything about how they themselves are ...
This training process is akin to learning a language on a scale unimaginable for a human. I analyze patterns in this data, learn the relationships between words ...
openai.comopenai.com
Does ChatGPT Use My Personal Data for Training? - Medium
The short answer is: No, ChatGPT does not use your personal data to train its underlying models. But to fully understand this, let's explore how ChatGPT is ...
medium.commedium.com
Data Controls FAQ | OpenAI Help Center
If you opted out by contacting support or using our privacy form, your account will represent that request. Are there additional data controls for ChatGPT ...
openai.comopenai.com
Privacy policy - OpenAI
... ChatGPT. Read our instructions⁠(opens in a new window) on how you can opt out of our use of your Content to train our models. 3. Disclosure of Personal Data.
openai.comopenai.com
ChatGPT and Data Privacy - DataNorth AI
Opt-out of data training in ChatGPT using data controls · Log in to ChatGPT · Click on your name in the bottom left corner. · Click on 'Settings. · Click on 'Data ...
datanorth.aidatanorth.ai
Generative AI in Google Workspace Privacy Hub
The strict data access control model for Gemini does not allow for inputs or session content to leak across user boundaries. The model is structured to only ...
google.comgoogle.com
How to stop the AI you're using from training with your data | The Verge
With Gemini, you must turn off chat history to stop your chats from being used to train the AI — there's no option to set these separately, as there is with ...
theverge.comtheverge.com
Gemini 2.5 pro Files Training Privacy Policy - Google AI Studio
Files uploaded image or pdf or docx or other copyrighted content, while using 2.5 pro, that is currently offered for $0 will or will not be used for further ...
google.devgoogle.dev
Gemini Apps Privacy Hub - Google Help
This notice and our Privacy Policy describe how Google handles your data when you interact with Gemini, your personal AI assistant from Google.
google.comgoogle.com
Mastering LLM Techniques: Text Data Processing - NVIDIA Developer
In this post, we will describe data processing techniques for optimizing LLM performance by improving data quality for training.
nvidia.comnvidia.com
Mastering Data Cleaning for Fine-Tuning LLMs and RAG Architectures
This blog dives deep into the critical role of data cleaning in AI workflows. You'll explore essential techniques, innovative tools like IBM's Data Prep Kit, ...
thealliance.aithealliance.ai
Data Collection and Preprocessing for LLMs [Updated] - Labellerr
This section discusses various data preprocessing strategies to enhance the quality of data. Data Preprocessing Pipeline. Figure: Data Preprocessing Pipeline.
labellerr.comlabellerr.com
調査のまとめ
LLM(大規模言語モデル)がウェブ上のデータなどからどのように学習しているのか、その基礎的なプロセスとデータソース、そして生成AIへのデータ学習に関する懸念についてご説明します。 #### LLMの...
調査のまとめ
#### LLMの学習におけるデータ前処理の重要性 大規模言語モデル(LLM)がウェブ上のデータなどから学習する際、そのプロセスにおいて「データ前処理」が非常に重要な役割を担っています。LLMのパイ...

🏷 2. Transformerモデルと自己アテンションの役割

Pre-training Vs. Fine-Tuning Large Language Models
大規模言語モデル(LLM)の学習プロセスについて、事前学習とファインチューニングという2つの主要なアプローチとそのデータソース、そして生成AI利用者のデータ学習に関する懸念について、提供されたコンテキストに基づいて詳しく解説します。 #### LLMの学習プロセス:事前学習とファインチューニング 大規模言語モデル(LLM)は、人間のような言語を理解し、生成する能力を持つ最先端のAIモデルです。これらのモデルがその高度な能力を獲得するためには、事前学習(Pre-training)とファインチューニング(Fine-tuning)という二つの重要な学習フェーズを経ます。 #### 事前学習(Pre-training)のメカニズムとデータソース 事前学習は、LLM開発の初期段階であり、モデルが膨大なテキストデータ群から一般的な言語理解を獲得するプロセスです。これは、モデルに言語、文化、一般的な知識に関する「一般的な教育」を与えることに例えられます。このフェーズで、モデルは文法、イディオム、事実、さまざまな文脈のニュアンスなどを学習します。 * **データソース**: 主にウェブ上の膨大なテキストデータ(ウェブスクレイピングや公開データセット)が利用されます。例えば、OpenAIのGPT-3は広範な事前学習を経て、非常に多様なトピックについての一貫性のある応答生成能力と文脈内学習能力を獲得しています。 * **利点**: * **広範な知識ベース**: 多様なテキストを分析することで、幅広いトピックに対応できる能力を築きます。 * **転移学習**: 一度事前学習されたモデルは、その言語パターンを新しいデータセットにも適用でき、限られたデータでのタスクに特に有効です。 * **コスト効率**: 事前学習には莫大な計算資源が必要ですが、一度完了すれば同じモデルを多数のアプリケーションに再利用でき、個々のタスクごとにモデルを構築するよりも結果的にコスト効率が高くなります。 * **柔軟性**: 要約、分類、生成など、多岐にわたるタスクへの適応が可能です。 * **性能向上**: 自然言語処理タスクにおいて新しいベンチマークを打ち立てることがよくあります。 * **スケーラビリティ**: 新しいデータが利用可能になるにつれて、「継続的な事前学習」を通じてモデルの理解と性能を継続的に向上させることができます。 #### ファインチューニング(Fine-tuning)のメカニズムとデータソース ファインチューニングは、事前学習されたモデルを特定のタスクやドメインに特化させるプロセスです。これは、モデルに「専門的な学習」を与えることに相当します。 * **データソース**: より小規模で、特定のタスクに特化したデータセットが使用されます。例えば、医療診断テキスト、法律文書分析、顧客サービス対話など、特定の分野の専門用語や文脈を含むデータです。 * **利点**: * **タスク専門化**: 特定のタスクのニュアンスに合わせてモデルのパラメーターを調整し、医療診断や法務文書分析などの分野で高い精度を実現します。 * **データ効率**: 小規模なタスク固有のデータセットでも強力なAIツールを構築できます。これは、大規模なデータが利用できないニッチなアプリケーションで特に重要です。 * **トレーニング時間の短縮**: 事前学習に比べてはるかに少ない計算能力で、短時間で完了できます。 * **カスタマイズ**: 法務、医療、技術など、あらゆるドメインの特定の言語や専門用語に適応させることができます。 * **継続的改善**: 新しいデータが入手されるたびに繰り返すことで、モデルを最新の情報やトレンドに保つことができます。 * **リソース効率**: 事前学習よりも計算能力とデータが少なくて済むため、AIアプリケーション開発においてより持続可能なアプローチです。 #### 事前学習とファインチューニングの比較とビジネス応用 事前学習とファインチューニングは、それぞれ異なる戦略的価値を持ちます。事前学習は、Facebook、Microsoft、Amazonのような大手テクノロジー企業が翻訳やコンテンツモデレーションといった基盤となるAIサービスを開発するために行われ、幅広い応用が可能です。 一方、ファインチューニングは、Replika(パーソナライズされた会話型エージェント)やGrammarly(文章アシスタント)のようなニッチ市場のスタートアップによって利用され、特定のタスクパフォーマンスに焦点を当てます。例えば、DeepLの翻訳サービスは、その小規模ながらも効果的なファインチューニングによって、大手企業の翻訳品質と競合しています。Duolingoも、言語学習体験をパーソナライズするためにファインチューニングされたモデルを利用しており、リソース効率の高いアプローチを採っています。 ビジネスにおいては、汎用的な能力(事前学習)と特定のニーズへの対応(ファインチューニング)のバランスが重要です。顧客サービスボット(ZendeskやSalesforceなど)のように、幅広い問い合わせを理解しつつ、会社のサービス内で詳細な支援を提供する必要がある場合、このバランスは特に重要になります。 CaktusAIはMultimodalと協力し、継続的な事前学習とLLaMA 2(7B)のファインチューニングによって、学術AIアシスタントを開発しています。 #### 生成AIのデータ学習に関するユーザーの懸念について 生成AIを利用する際に、自分のデータが学習されるのではないかという懸念は理解できます。コンテキストの情報に基づくと、この点について以下の論拠が示唆されます。 1. **事前学習の性質**: LLMの事前学習は、インターネット上の公開されたテキストデータなど、非常に大規模で多様なデータセットから行われます。このフェーズでは、個々のユーザーの特定の入力データが直接的に取り込まれてモデルの基盤を形成するというよりも、一般的な言語パターン、知識、構造が学習されます。そのため、個人のプライベートな情報が意図せず汎用モデルの事前学習データに含まれる可能性は低いと考えられます。これは、まるで「本を読んで知識を得る」行為に近いもので、特定の個人が書いた手紙を読み込むこととは性質が異なります。 2. **ファインチューニングの目的**: ファインチューニングは、特定の企業やアプリケーションが、自社の特定のニーズに合わせてモデルをカスタマイズする際に用いられます。この場合、多くは企業内部のデータや、特定のタスクのために収集された限定的なデータセットが利用されます。これは、その企業がそのモデルを特定の目的(例えば、顧客対応チャットボット、社内文書解析など)に特化させるためであり、一般ユーザーがサービスを通じて入力したデータが、そのモデルの汎用的な「再学習」に利用されるという直接的な記述はコンテキストにはありません。 提供されたコンテキストは、LLMの技術的な学習プロセスとビジネスへの適用に焦点を当てており、個人のプライバシー保護やデータ利用に関する具体的な規約やポリシーには直接言及していません。しかし、上記の学習プロセスから、一般的な生成AIサービスの場合、あなたの個別の入力が、そのサービスの基盤となる大規模な公開モデルの「事前学習」データとして扱われる可能性は低いと推測できます。 多くのAIサービス提供企業は、ユーザーデータの利用に関してプライバシーポリシーを公開しており、多くの場合、ユーザーの入力データがモデルの学習にどのように利用されるかについて、明示的な同意を得るか、匿名化・集計された形で利用されることが示されています。したがって、具体的な懸念がある場合は、利用する生成AIサービスのプライバシーポリシーを確認することが最も確実な方法です。
ankursnewsletter.comankursnewsletter.com
What is a Transformer Model? - IBM
During training, the model makes predictions across millions of examples drawn from its training data, and a loss function quantifies the error of each ...
ibm.comibm.com
Understanding the training dynamics of transformers
Most of today's breakthrough AI models are based on the transformer architecture, which is distinguished by its use of an attention mechanism.
amazon.scienceamazon.science
Training Transformer Models: Fundamentals and Memory Challenges
In this guide, we will explore the fundamentals of the training and also look at the challenges and solutions on how we can train a model in a single GPU.
medium.commedium.com
Transformers and Transfer Learning: Leveraging Pre-Trained ...
Transfer learning in Transformers involves two main steps: pre-training and fine-tuning. Step 1: Pre-Training During pre-training, the Transformer model is ...
medium.commedium.com
Learning to reason with LLMs
Our large-scale reinforcement learning algorithm teaches the model how to think productively using its chain of thought in a highly data-efficient training ...
openai.comopenai.com
FACTS Grounding: A new benchmark for evaluating the ...
To accurately evaluate the factuality and grounding of any given LLM, the FACTS Grounding dataset comprises 1,719 examples, each carefully crafted to require ...
deepmind.comdeepmind.com
Why 'Attention is All You Need': A Deep Dive into the Transformer ...
The Transformer model's ability to process sequences in parallel, combined with its powerful self-attention mechanism, makes it far superior to RNNs and LSTMs.
linkedin.comlinkedin.com
A Deep Dive into the Self-Attention Mechanism of Transformers
The Transformer leverages self-attention to model dependencies between tokens in a sequence, regardless of their distance from each other.
medium.commedium.com
Attention in Transformers: A Step-by-Step Deep Dive - Medium
The attention mechanism is a cornerstone of the Transformer architecture, which has powered many state-of-the-art models in NLP, including BERT, GPT, and T5.
medium.commedium.com
調査のまとめ
#### LLMの学習におけるデータ前処理の重要性 大規模言語モデル(LLM)がウェブ上のデータなどから学習する際、そのプロセスにおいて「データ前処理」が非常に重要な役割を担っています。LLMのパイ...

🏷 3. ファインチューニングとRAGの違いと特徴

Using Large Language Models to Converse with Your Data
Retrieval Augmented Generation. LLMs generate a reasonable response based on their training data, which is mostly from the Internet. · Structured Data RAG.
factset.comfactset.com
RAG vs. fine-tuning: LLM learning techniques comparison - Addepto
As a result, fine-tuned LLM is more likely to generate more accurate and relevant responses compared to a generic model.
addepto.comaddepto.com
RAG vs. Fine Tuning: A Complete LLM Technique Comparison
Deskrex AIアシスタントとして、「RAG vs. Fine Tuning: A Complete LLM Technique Comparison」についての読みやすく包括的な要約を提供します。 #### はじめに ビジネスや開発者は、より正確で効率的な言語モデルを構築するための賢い方法を常に模索しています。この文脈でよく議論される人気のアプローチとして、Retrieval-Augmented Generation (RAG) と大規模言語モデル (LLM) のファインチューニングの2つが挙げられます。 両方の手法はモデルの出力を改善することを目指しますが、その到達経路は大きく異なります。RAGは外部ソースからリアルタイムデータを引き出すことで応答を強化する一方、ファインチューニングは特定のデータセットで訓練することでモデルの振る舞いを再構築します。どちらを選択するかは、ユースケース、予算、およびデータの変更頻度によって異なります。 #### Retrieval-Augmented Generation (RAG) とは [Retrieval-Augmented Generation (RAG)](https://www.solulab.com/what-is-retrieval-augmented-generation/) は、Metaが2020年に導入したフレームワークで、大規模言語モデル (LLM) をキュレーションされた動的データベースに接続することで、その性能を向上させるように設計されています。この接続により、LLMは最新かつ信頼性の高い情報で強化された応答を生成し、その精度と文脈的推論能力を向上させます。 #### RAG開発の主要コンポーネント RAGアーキテクチャの構築は、さまざまなツールや技術を統合する多面的なプロセスです。これには、プロンプトエンジニアリング、Pineconeなどのベクトルデータベース、埋め込みベクトル、セマンティックレイヤー、データモデリング、データパイプラインのオーケストレーションが含まれます。各要素はRAGシステムの要件に合わせてカスタマイズされます。 RAG (Retrieval-Augmented Generation) 開発の主要コンポーネントは以下の通りです。 1. **Retriever**: ユーザーのクエリに基づいて、知識ベース(ドキュメントやデータベースなど)を検索し、最も関連性の高い情報を見つけ出すコンポーネントです。AIの「リサーチアシスタント」のような役割を果たします。 2. **Knowledge Base / Vector Store**: ドキュメントやデータチャンクの構造化されたコレクションで、通常、ベクトルデータベース(例:Pinecone、FAISS)に埋め込みを介して高速かつ正確な検索ができる形式で保存されます。 3. **Embedding Model**: ユーザーのクエリとドキュメントを、関連性を比較するためにベクトル形式(数値形式)に変換します。OpenAIのモデルやSentence Transformersなどが人気です。 4. **Generator (LLM)**: GPT-4のような大規模言語モデルが、取得されたドキュメントを受け取り、人間らしい応答を生成します。これにより、回答が文脈に沿っており、取得された情報に基づいていることが保証されます。 5. **Orchestration Layer**: クエリ入力から取得、生成まで、パイプライン全体を調整します。LangChainやLlamaIndexなどのツールが、このフローを効率的に合理化するのに役立ちます。 #### RAGの仕組み RAGのワークフローは以下の手順で進行します。 1. **クエリ処理**: ユーザーがクエリを送信すると、RAGワークフローが開始されます。このクエリがシステムの取得メカニズムの出発点となります。 2. **データ取得**: 入力クエリに基づいて、システムはそのデータベースで関連情報を検索します。このステップでは、洗練されたアルゴリズムを使用して、最も適切で文脈に沿ったデータを識別し、取得します。 3. **LLMとの統合**: 取得された情報はユーザーのクエリと結合され、LLMへの入力として提供されます。これにより、応答生成のための文脈が豊かな基盤が作成されます。 4. **応答生成**: LLMは、文脈データと元のクエリによって強化され、正確でクエリの特定のニーズに合わせた応答を生成します。 #### ファインチューニングとは ファインチューニングは、より小さく、専門的で、ラベル付けされたデータセットで大規模言語モデル (LLM) を訓練することに焦点を当てることで、[生成AI](https://www.solulab.com/generative-ai/) を開発する別の方法を提供します。このプロセスには、新しいデータに適応させるためにモデルのパラメータと埋め込みを変更することが含まれます。 企業向けのAIソリューションに関して、Retrieval-Augmented Generation (RAG) とファインチューニングの両方が、[AIモデル](https://www.solulab.com/generative-ai-models/) から得られるビジネス価値を最大化するという同じ目標を目指します。ただし、独自のデータベースへのアクセスを付与することでLLMを強化するRAGとは異なり、ファインチューニングは特定のドメインに合わせてモデル自体をカスタマイズすることで、より詳細なアプローチを取ります。 ファインチューニングプロセスは、特定の分野に固有のニュアンスや専門用語を反映した、ニッチでラベル付けされたデータセットを使用してLLMを訓練することに焦点を当てています。そうすることで、ファインチューニングはモデルが専門的なタスクをより効果的に実行できるようにし、ドメイン固有のアプリケーションに非常に適したものにします。 #### LLMのファインチューニングの種類 [大規模言語モデル (LLM)](https://www.solulab.com/comparison-of-all-llm/) のファインチューニングは、一概に同じではありません。目的、データサイズ、リソース制約に応じていくつかの異なるアプローチがあります。LLMのファインチューニングには、以下の種類があります。 1. **教師あり調整 (Supervised Adjustment)** ラベル付けされた入出力ペアを持つタスク固有のデータセットを使用し、事前に訓練されたモデルをさらに訓練します。これにより、モデルは提供されたデータセットを使用して入力を出力にマッピングする方法を学習できます。 * **仕組み**: 訓練済みモデルを使用し、入出力ペアを含むデータセットを作成します。ファインチューニング中に事前訓練済み重みを更新し、新しいタスクに適応させます。 * ラベル付きデータセットが利用可能な場合、固有表現認識、テキスト分類、感情分析などのアプリケーションに最適です。[ファインチューニング](https://www.solulab.com/fine-tuning-a-model-for-a-specific-task/) のこの形式は、特定のタスクにモデルを特化させるのに役立ちます。 2. **指示調整 (Instructional Adjustment)** プロンプトテンプレートに詳細なガイダンスを加えて入出力の例を追加します。これにより、モデルは新しいタスク、特に平易な言語での指示を必要とするタスクに対して一般化する能力を向上させます。 * **仕組み**: 訓練済みモデルを使用し、指示と応答のペアを含むデータセットを準備します。ニューラルネットワークの訓練と同様に、指示ファインチューニング手順を使用してモデルを訓練します。 * チャットボット、質問応答システム、および自然言語対話を必要とするその他の活動の構築によく使用されます。 3. **PEFT (Parameter-Efficient Fine-Tuning)** 完全なモデルを訓練するには多くのリソースが必要です。PEFT技術は、モデルのパラメータの一部のみを変更することで、訓練に必要なメモリ量を削減し、メモリと計算の両方を効率的に使用できるようにします。 * **PEFT技術**: * **Selective Method**: モデルのレイヤーの一部のみをファインチューニングし、大部分をフリーズします。 * **LoRA (Reparameterization Method)**: 低ランク行列を使用して、小さく訓練可能なパラメータを追加し、以前の重みをフリーズすることでモデルの重みを再パラメータ化できます。例えば、モデルの次元が512x64の場合、完全なファインチューニングでは32,768パラメータが必要ですが、LoRAでは4,608パラメータに削減できます。 * **Additive Method**: 所与のジョブのためにモデルのエンコーダー側またはデコーダー側に追加のレイヤーを訓練することを含みます。 * **Soft Prompting**: 他のトークンと重みをフリーズし、モデルプロンプトに新しく導入されたトークンのみを訓練します。 * PEFTは訓練コストとリソース要件を削減し、メモリ制限を超える巨大なモデルを扱う場合に役立ちます。 4. **人間からのフィードバックによる強化学習 (RLHF)** RLHFは、強化学習を使用して、洗練されたモデルの出力を人間の好みに合わせます。初期のファインチューニング段階の後、この戦略はモデルの振る舞いを改善します。 * **仕組み**: * **データセットの準備**: プロンプトと完了のペアを作成し、人間評価者が使用するアライメント基準に従ってランク付けすることでデータセットを準備します。 * **報酬モデルの訓練**: 人間のフィードバックを使用して完了スコアを提供する報酬モデルを作成します。 * **モデルの修正**: 通常はPPOアルゴリズムを使用して、強化学習に基づいて報酬モデルに基づいてモデルの重みを更新します。 * RLHFは、倫理基準やユーザーの期待に準拠した言語生成を含む、人間らしい出力を必要とするアプリケーションに最適です。 #### ファインチューニングの仕組み ファインチューニングは、[大規模言語モデル (LLM)](https://www.solulab.com/guide-to-llmops/) を特定のタスクにカスタマイズするための重要なステップです。プロセスを詳細に説明します。 1. **LLMの事前学習**: ファインチューニングは、事前訓練された大規模言語モデルから始まります。事前訓練では、大量のテキストとコードを収集して汎用LLMを開発します。この基盤モデルは基本的な言語パターンと関係性を学習し、汎用的なタスクを実行できるようにします。ただし、ドメイン固有のアプリケーションには、パフォーマンスを向上させるために追加のファインチューニングが必要です。 2. **タスク固有データの準備**: ターゲットタスクに関連する、より小さく、ラベル付けされたデータセットを収集します。このデータセットは、モデルが特定の入出力関係を処理できるように訓練するための基盤となります。収集後、データは訓練、検証、テストセットに分割され、効果的な訓練と正確なパフォーマンス評価が保証されます。 3. **データの再処理**: 初心者向けのRAGのファインチューニングの成功は、タスク固有のデータの品質に依存します。まず、データセットをLLMが処理できる形式に変換します。エラーを修正し、重複を削除し、外れ値に対処してデータをクリーニングし、モデルが正確で構造化された情報から学習できるようにします。 4. **レイヤーの調整**: 事前訓練されたLLMは複数のレイヤーで構成されており、それぞれが入力データの異なる側面を処理します。ファインチューニング中に、モデルをタスク固有のデータセットに適応させるために、最上位または後期のレイヤーのみが更新されます。残りのレイヤー(一般的な知識を保存する)は、基本的な言語理解を保持するために変更されません。 5. **モデルの構成**: 学習率、バッチサイズ、正則化技術、エポック数など、ファインチューニングのパラメータを設定します。これらのハイパーパラメータを適切に構成することで、効率的な訓練と、目的のタスクに対する最適なモデル適応が保証されます。 6. **モデルの訓練**: クリーニングされたタスク固有のデータを事前訓練されたLLMに入力し、訓練を開始します。バックプロパゲーションアルゴリズムを使用してファインチューニングされたレイヤーが調整され、誤差を最小限に抑えることでモデルの出力が洗練されます。ベースモデルは事前訓練されているため、ファインチューニングは通常、スクラッチからの訓練と比較して少ないエポックで済みます。過学習を防ぎ、必要に応じて調整するために、検証セットでのパフォーマンスを監視します。 7. **性能評価**: モデルが訓練されたら、新しいデータに一般化する能力を確認するために、未知のデータセットを使用してその性能をテストします。BLEUスコア、ROUGEスコア、または人間による評価などの指標を使用して、モデルの精度と、目的のタスクを実行する上での有効性を評価します。 8. **反復と展開**: 評価結果に基づいて、モデルを洗練し改善するために以前のステップを見直します。モデルが満足のいくパフォーマンスを達成するまでプロセスを繰り返します。準備ができたら、ファインチューニングされたLLMを、指定されたタスクを効果的に実行できるアプリケーションに展開します。 これらのステップに従うことで、RAGのファインチューニングに不慣れな人も、LLMを専門タスクに効果的に適応させ、高いパフォーマンスと実用的なアプリケーションを確保できます。 #### RAGとLLMファインチューニングの違い 以下の表は、LLMにおけるRAGとファインチューニングの主な違いを強調し、それぞれのアプローチをいつ選択すべきかを理解するのに役立ちます。両方の手法は大規模言語モデル (LLM) を強化する目的を果たしますが、その方法論とアプリケーションは大きく異なります。 | 側面 | Retrieval-Augmented Generation (RAG) | Fine-Tuning | |---|---|---| | 定義 | RAGは事前訓練されたLLMを外部データベースと組み合わせ、リアルタイムで関連情報を取得してモデルの応答を増強します。 | ファインチューニングは、ラベル付けされたデータセットを使用してLLMを再訓練し、特定のタスクに合わせてモデルのパラメータを調整することを含みます。 | | 目的 | リアルタイムデータに基づいて回答を根拠づけることで、正確で文脈的に更新された応答を提供します。 | 特定のタスクまたはドメインでのパフォーマンスを向上させるために、LLM自体をカスタマイズします。 | | データ依存性 | 関連情報を取得するために、キュレーションされ動的に更新される外部データベースに依存します。 | 訓練と検証のためにタスク固有のラベル付けされたデータセットを必要とします。 | | 訓練の労力 | 生成モデルは変更されないため、訓練は最小限で済みます。取得の最適化に焦点を当てます。 | ラベル付けされたデータで事前訓練されたモデルをファインチューニングするために、かなりの計算リソースを必要とします。 | | モデルの適応 | 関連する外部情報を取得することでモデルが動的に適応します。 | ファインチューニング後、モデルは静的で、特定のタスクやドメインに合わせて調整されます。 | | 知識の更新 | 外部知識ベースを単に修正または追加するだけで更新が容易です。 | 新しい情報を取り込むには、再訓練または追加のファインチューニングが必要です。 | | 推論コスト | 取得プロセスがあるため、推論中のコストが高くなります。 | ファインチューニングされたモデルは独立して動作するため、推論コストが低くなります。 | | 例 | PineconeやElasticsearchなどのベクトルデータベースと統合されたGPT-3やChatGPT。 | 契約審査のためにGPT-3を法律文書でファインチューニングしたり、特定のAPIのためにファインチューニングしたりします。 | | カスタマイズレベル | 取得メカニズムと外部知識の調整に限定されます。 | 特定のタスクに対するパラメータ更新を通じて深いカスタマイズが可能です。 | | メンテナンス | 主に知識ベースの更新であるため、メンテナンスが容易です。 | 新しいタスクや更新された知識のために継続的なファインチューニングが必要です。 | #### ファインチューニングとRAGのどちらを選ぶか LLM RAG (Retrieval-Augmented Generation) とファインチューニングのどちらを選択するかは、特定のユースケースと利用可能なリソースによって異なります。RAGは多くのシナリオで選択肢となることが多いですが、RAGとファインチューニングは相互排他的ではないことに注意することが重要です。両方のアプローチは互いを補完し合うことができ、特にリソースが利用可能な場合は、それらを組み合わせて最大のメリットを得ることができます。 * **考慮すべき要素** ファインチューニングは深いカスタマイズを提供しますが、高い計算コスト、時間のかかるプロセス、ラベル付けされたデータの必要性などの課題を伴います。一方、RAGは訓練にはリソースをあまり必要としませんが、効果的な取得システムの構築と管理には複雑さが伴います。 * **RAGとファインチューニングの両方を活用する** リソースが許す場合、両方の方法を組み合わせることは非常に効果的です。非常に特定の文脈を理解するようにモデルをファインチューニングし、RAGを使用してターゲットとする知識ベースから最も関連性の高いデータを取得することで、強力な[AIソリューション](https://www.solulab.com/ai-copilot-development-company/) を作成できます。LLMのファインチューニングとRAGのニーズを慎重に評価し、目標に最も合致するアプローチに焦点を当てることで、ステークホルダーに最大の価値を提供することを目指してください。 * **AI開発におけるデータ品質の役割** ファインチューニングとRAGのどちらを選択するにしても、両方とも堅牢なデータパイプラインに大きく依存します。これらのパイプラインは、AIアプリケーションの有効性を確保するために、信頼できるデータストアを介して正確で信頼性の高い企業データを提供する必要があります。 * **オブザーバビリティによるデータ信頼性の確保** RAGまたはファインチューニングが成功するためには、基盤となるデータが信頼できるものでなければなりません。データオブザーバビリティ(データ信頼性を監視および改善するためのスケーラブルで自動化されたソリューション)の実装は不可欠です。オブザーバビリティは、問題を検出し、その根本原因を特定し、迅速に解決するのに役立ち、このデータに依存するLLMへの悪影響を防ぎます。 高品質なデータを優先し、ステークホルダーのニーズと決定を整合させることで、LLM RAGとファインチューニングのどちらか、または両方の強みを活用しながら、情報に基づいた選択を行うことができます。 #### 最後に Retrieval-Augmented Generation (RAG) とLLMファインチューニングは、AIパフォーマンスを向上させる強力な方法を提供しますが、それぞれ異なる目的を果たします。RAGは、モデル自体を変更することなく、リアルタイムで最新の、またはドメイン固有の情報が必要な場合に理想的です。 一方、ファインチューニングは、キュレーションされたデータで訓練することで、特定のタスクでより良いパフォーマンスを発揮するようにモデルをカスタマイズします。柔軟性と新しい知識が必要な場合はRAGを選択し、深いカスタマイズと長期的な改善を求める場合はファインチューニングが適切な選択肢です。正しい選択は、特定のユースケース、予算、コンテンツまたはデータの変更頻度によって異なります。 SoluLabは、企業がテキスト、画像、ドキュメント、APIからデータをインポート・統合し、インテリジェントでパーソナライズされたアプリケーションを構築できるAIプラットフォームである[InfuseNet](https://www.solulab.com/case-studies/data-empowerment-with-infusenet/)を支援しました。そのドラッグ&ドロップインターフェースは、GPT-4やGPT-NeoXなどの高度なモデルを接続し、プライベートデータを使用したChatGPTのようなアプリの作成を改善し、セキュリティと効率を確保します。MySQL、Google Cloud、CRMなどの多様なサービスをサポートするInfuseNetは、生産性と意思決定の強化のためにデータ駆動型イノベーションを可能にします。 [AI開発企業](https://www.solulab.com/ai-development-company/)であるSoluLabは、動的な情報取得のためのRAGベースのモデルの実装から、ニッチなアプリケーションのためのLLMのファインチューニングまで、お客様を支援できます。 #### よくある質問 (FAQs) **1. AI開発におけるRAGとファインチューニングの違いは何ですか?** RAG (Retrieval-Augmented Generation) は、生成言語モデルと外部データ取得を組み合わせ、最新かつドメイン固有の情報を提供します。ファインチューニングは、事前訓練された言語モデルをカスタムデータセットで訓練し、特定のタスクに合わせてパフォーマンスを最適化することを含みます。RAGは動的なデータニーズに理想的である一方、ファインチューニングは専門的なアプリケーションに優れています。 **2. RAGとファインチューニングは一緒に使用できますか?** はい、RAGとファインチューニングは互いを補完し合うことができます。例えば、特定のタスクのためにモデルをファインチューニングし、RAGを使用して関連する追加情報を動的に取得することで、[AIアプリケーション](https://www.solulab.com/top-artificial-intelligence-applications/) における精度と関連性の両方を確保できます。 **3. RAGとファインチューニング、どちらのアプローチがより費用対効果が高いですか?** RAGはモデルを変更する必要がなく、取得システムの最適化に焦点を当てるため、一般的に費用対効果が高いです。一方、ファインチューニングは、ラベル付けされたデータ、計算能力、再訓練が必要なため、リソースを大量に消費する可能性があります。 **4. データ品質はRAGまたはファインチューニングの成功にどのように影響しますか?** RAGとファインチューニングの両方とも、高品質で信頼性の高いデータに依存します。RAGでは、取得システムは適切にキュレーションされた知識ベースに依存し、ファインチューニングは正確にラベル付けされたデータセットを必要とします。データ品質が低いと、出力の不正確さやモデルのパフォーマンス低下につながる可能性があります。 **5. SoluLabはRAGまたはファインチューニングプロジェクトをどのように支援できますか?** SoluLabは、RAGとファインチューニングの両方のアプローチに特化した、エンドツーエンドの[LLM開発ソリューション](https://www.solulab.com/large-language-model-development-company/) を提供しています。当社のチームは、シームレスな統合、安全なデータ処理、およびビジネスニーズに合わせたスケーラブルなソリューションを保証します。AIプロジェクトを向上させる方法について、ぜひお問い合わせください。
solulab.comsolulab.com
Fine-Tuning LLMs: Overview, Methods, and Best Practices - Turing
Fine-tuning is the process of adjusting the parameters of a pre-trained LLM to a specific task or domain. Learn about the methods and how to fine-tune LLMs.
turing.comturing.com
Fine-Tuning vs. Training LLMs: A Practical Guide - Medium
Here's what I've learned from deploying both fine-tuned and fully trained LLMs. Fine-tuned models are generally lighter, which makes them easier to deploy. I' ...
medium.commedium.com
Fine-Tuning vs. Pre-Training: Their Impact on Language Models
Pre-trained LLMs can generalize well across various applications, making them versatile, whereas fine-tuned models excel in specialized domains.
sapien.iosapien.io
Google DeepMind at NeurIPS 2024
LLM-based AI agents are showing promise in carrying out digital tasks via ... AI agents trained using this dataset showed significant performance gains ...
deepmind.comdeepmind.com
Google AI - Understanding AI: AI tools, training, and skills
#### Google AI - Understanding AI: AIツール、トレーニング、スキル Google AIの「Understanding AI: AI tools, training, and skills」は、世界中の労働者の具体的なニーズに対応するため、AIスキルプログラム、トレーニング、ツールを提供しています。AIが仕事のあり方を再構築する中で、AIスキルを習得することはキャリアの将来性を確保し、生産性を向上させ、新たな機会を創出するために不可欠であると強調しています。多くの組織がAIの可能性を最大限に引き出すための専門知識を欠いている現状に対応することを目指しています。 #### AI基礎の学習 AI初心者向けに、人工知能の基礎概念と、AIを日常業務で効果的に活用する方法を学ぶためのリソースが用意されています。 * **Generative AIの紹介**: 生成AIとは何か、どのように利用されるか、従来の機械学習との違いなど、生成AIの基本を短いビデオコースで学ぶことができます。 * **Google AI Essentials**: AIの機能や、それがどのように役立ち、力を与え、インスピレーションを与えるかを学びます。生成AIツールを使って日常業務を加速させ、新しいアイデアやコンテンツを開発する方法を習得できます。 * **Google Prompting Essentials**: AIをより活用したい人向けに、明確で具体的な指示(プロンプト)を書くことでAIを効果的に利用する方法を学びます。5つの簡単なステップで生産性を向上させ、AIを自分のために活用できるようになります。 #### AIスキルの向上 AIの知識を次のレベルへと進め、仕事にAIスキルを適用し、次世代の大きなものを構築する方法を学ぶことができます。開発者向けのリソースも提供されています。 * **大規模言語モデル(LLM)の紹介**: 大規模言語モデル(LLM)のすべてと、プロンプトチューニングを使用してLLMのパフォーマンスを向上させる方法を学びます。 * **AI画像生成の紹介**: Google Cloudで最先端の画像生成モデルを支える拡散モデルについて、Vertex AIでのトレーニングとデプロイ方法を含めて学習します。 * **Geminiとソフトウェア開発ライフサイクル**: Googleの次世代AIモデルであるGeminiを、ソフトウェア開発ライフサイクルでアプリケーションの開発、テスト、デプロイ、管理に活用する方法を学びます。 Googleの学習者からは、クラウド認定が需要の高い役割に必要なスキルを身につけ、昇進を早め、最終的に専門的な成功に貢献しているという声が寄せられています。意思決定者の86%が、Google Cloudの学習リソースが組織のAI時代での優位性維持に役立っていると回答しています。 #### AIによるビジネス変革 組織に不可欠なAIスキルを装備し、成長、スケーラビリティ、効率性を推進することができます。 * **Google Cloud Artificial Intelligenceによるイノベーション**: リーダー向けに、Google製品を使用してAIとMLで組織を変革する方法の概要を提供します。 * **製品専門家による仮想AIコース**: Google認定インストラクターによるリモートまたは対面式のAIコースで従業員のスキルアップを支援します。 * **AIでビジネスを成長させる**: AIの基礎と、Google AIを活用したツールが中小企業の効率向上、顧客体験の強化、成長促進にどのように役立つかを学びます。 ![](https://storage.googleapis.com/ai-prod-wagtail/original_images/yellow-quotes.original.png) 学習者の一人は、「学んだことを取り入れない日は一日もありません。AIに簡単な序文を書かせたり、ぎこちない文章の改善を提案させたりできるのが大好きです。また、情報の整理やアイデアのブレインストーミングにも役立ちます」と述べています。 #### AIリソースとコミュニティの探索 AIチュートリアル、解説、デモの厳選されたコレクションをYouTubeで発見し、理解を深め、実践的なスキルを構築することができます。 現在のAI知識と学習目標に応じて、Google AI Essentials [https://grow.google/ai-essentials/?utm_source=ai.google&utm_medium=referral](https://grow.google/ai-essentials/?utm_source=ai.google&utm_medium=referral) のような入門リソースから始めるか、[Grow with Google](https://grow.google/?utm_source=ai.google&utm_medium=referral) や [Google Cloud Skills Boost](https://www.cloudskillsboost.google/?utm_source=ai.google&utm_medium=referral) などのプラットフォームでコースを無料で探索できます。これらのリソースはAIの概念の確固たる基盤を提供します。 GoogleはAIスキルを学ぶための多様なリソースを提供しており、一部は有料ですが、一部は学習者に無料で利用可能です。このページで無料のリソースは「no charge」のタグが付いています。[YouTube](https://www.youtube.com/@googlecloudtech) では、役立つ学習コンテンツのライブラリにアクセスできます。 [Google Cloud Innovators](https://cloud.google.com/innovators?hl=en/?utm_source=ai.google&utm_medium=referral) コミュニティに参加すると、[Google Cloud Skills Boost](https://www.cloudskillsboost.google/?utm_source=ai.google&utm_medium=referral) でコースやハンズオンラボに利用できる35クレジットを無料で獲得できます。これらのクレジットは毎月更新されます。非イノベーターは、月額29ドルのサブスクリプションで全学習コンテンツカタログにアクセスできます。高等教育、政府、非営利団体、労働力開発プログラム向けには、コホートベースで教員が指導する無料のオプションが提供されており、[g.co/edu/cloudready](https://g.co/edu/cloudready/?utm_source=ai.google&utm_medium=referral) で詳細を確認できます。 **Grow with Google**: Grow with Googleの様々なトレーニングプログラム、ツール、リソースでAIスキルを開発できます。教育者や中小企業経営者向けの無料ワークショップ、実用的なAIスキルを習得するためのGoogle Prompting Essentialsのようなコース、高成長分野でのGoogle Career Certificatesを探索できます。 **Google Cloud Skills Boost**: このプラットフォームは、Google Cloud製品のハンズオン学習体験を含む、幅広いAI関連コースやラボを提供しています。[スキルバッジ](https://www.cloudskillsboost.google/catalog?keywords=&locale=&solution%5B%5D=any&role%5B%5D=any&skill-badge%5B%5D=skill-badge&format%5B%5D=any&level%5B%5D=any&duration%5B%5D=any&language%5B%5D=any/?utm_source=ai.google&utm_medium=referral) を取得して特定のAIテクノロジーの習熟度を証明したり、[学習パス](https://www.cloudskillsboost.google/paths/?utm_source=ai.google&utm_medium=referral) に沿ってAIユースケースへのアプローチ方法を学ぶことができます。 **証明書と認定**: * **証明書 (Certificates)**: 特定の分野で実践的なスキルを構築することに焦点を当てたプログラムを指します。Google Career Certificates [https://grow.google/certificates/?utm_source=ai.google&utm_medium=referral](https://grow.google/certificates/?utm_source=ai.google&utm_medium=referral) や Google Cloud Certificates [https://cloud.google.com/learn/certificates?e=48754805/?utm_source=ai.google&utm_medium=referral](https://cloud.google.com/learn/certificates?e=48754805/?utm_source=ai.google&utm_medium=referral) のように、仕事に役立つスキルに焦点を当てています。 * **認定 (Certifications)**: [Google Cloud Certifications](https://cloud.google.com/learn/certification?e=48754805/?utm_source=ai.google&utm_medium=referral) を含め、特定のテクノロジーやドメインにおける技術的専門知識を検証するためのより厳格なプロセスを伴います。試験合格が必要であり、特定のツールやプラットフォームの習熟度を証明します。
ai.googleai.google
Privacy-Preserving Large Language Models: Mechanisms ... - arXiv
By integrating privacy mechanisms like differential privacy, federated learning, and cryptographic methods, LLMs can be deployed in high-stakes applications ...
arxiv.orgarxiv.org
How To Preserve Data Privacy In LLMs In 2025 - Protecto AI
Embedding privacy-preserving data principles into LLM architecture strengthens overall LLM data privacy. Implementing techniques such as differential privacy ...
protecto.aiprotecto.ai
RAG Vs. Fine Tuning: Which One Should You Choose?
RAG pulls information from an external data source on the fly, while fine-tuning bakes information into the model's parameters. This fundamental difference ...
montecarlodata.commontecarlodata.com
RAG vs. fine-tuning - Red Hat
RAG and fine-tuning both aim to improve LLMs, but use different methods. RAG avoids altering the model, while fine-tuning requires adjusting its parameters.
redhat.comredhat.com
調査のまとめ
#### LLMの学習におけるデータ前処理の重要性 大規模言語モデル(LLM)がウェブ上のデータなどから学習する際、そのプロセスにおいて「データ前処理」が非常に重要な役割を担っています。LLMのパイ...

🏷 4. 生成AIサービスにおけるユーザーデータの取り扱いとオプトアウト

AI Principles
A guiding framework for our responsible development and use of AI, alongside transparency and accountability in our AI development process.
ai.googleai.google
Does ChatGPT Use My Personal Data for Training? - Medium
The short answer is: No, ChatGPT does not use your personal data to train its underlying models. But to fully understand this, let's explore how ChatGPT is ...
medium.commedium.com
Data Controls FAQ | OpenAI Help Center
If you opted out by contacting support or using our privacy form, your account will represent that request. Are there additional data controls for ChatGPT ...
openai.comopenai.com
Privacy policy - OpenAI
... ChatGPT. Read our instructions⁠(opens in a new window) on how you can opt out of our use of your Content to train our models. 3. Disclosure of Personal Data.
openai.comopenai.com
ChatGPT and Data Privacy - DataNorth AI
Opt-out of data training in ChatGPT using data controls · Log in to ChatGPT · Click on your name in the bottom left corner. · Click on 'Settings. · Click on 'Data ...
datanorth.aidatanorth.ai
Generative AI in Google Workspace Privacy Hub
The strict data access control model for Gemini does not allow for inputs or session content to leak across user boundaries. The model is structured to only ...
google.comgoogle.com
How to stop the AI you're using from training with your data | The Verge
With Gemini, you must turn off chat history to stop your chats from being used to train the AI — there's no option to set these separately, as there is with ...
theverge.comtheverge.com
Gemini 2.5 pro Files Training Privacy Policy - Google AI Studio
Files uploaded image or pdf or docx or other copyrighted content, while using 2.5 pro, that is currently offered for $0 will or will not be used for further ...
google.devgoogle.dev
Gemini Apps Privacy Hub - Google Help
This notice and our Privacy Policy describe how Google handles your data when you interact with Gemini, your personal AI assistant from Google.
google.comgoogle.com
調査のまとめ
#### 回答 LLM(大規模言語モデル)の学習プロセスにおけるユーザーデータの取り扱い、特に「自分のデータが学習されるのではないか」という懸念について、現在までの調査結果に基づいてご説明します。 ...

🏷 5. ユーザーデータ学習懸念の現状と技術的論拠の限界

Nature of Data in Pre-Trained Large Language Models
In this example, the personal data that the LLM uses will likely be from the sources that have been provided by the user and not from the LLM's vocabulary.
fpf.orgfpf.org
An introduction to preparing your own dataset for LLM training - AWS
Text data can come from diverse sources and exist in a wide variety of formats such as PDF, HTML, JSON, and Microsoft Office documents such as Word, Excel, and ...
amazon.comamazon.com
[PDF] Fine-Tuning Language Models with Differential Privacy through ...
In this paper, we introduce ANADP, a novel DP method that adaptively distributes the noise and privacy budget among a language model's parame- ters during fine- ...
aclanthology.orgaclanthology.org
Privacy-Preserving Large Language Models: Mechanisms ... - arXiv
By integrating privacy mechanisms like differential privacy, federated learning, and cryptographic methods, LLMs can be deployed in high-stakes applications ...
arxiv.orgarxiv.org
How To Preserve Data Privacy In LLMs In 2025 - Protecto AI
Embedding privacy-preserving data principles into LLM architecture strengthens overall LLM data privacy. Implementing techniques such as differential privacy ...
protecto.aiprotecto.ai
調査のまとめ
LLM(大規模言語モデル)がウェブ上のデータなどからどのように学習しているのか、その基礎的なプロセスとデータソース、そして生成AIへのデータ学習に関する懸念についてご説明します。 #### LLMの...
調査のまとめ
LLMがウェブ上のデータなどからどのように学習しているのか、そして生成AI利用者のデータが学習に用いられる懸念についてですね。現在の調査結果では、LLMがウェブ上のデータからどのように「事前学習」を行...

🏷 6. 今後の調査課題とプライバシー保護技術の展望

Google DeepMind at NeurIPS 2024
LLM-based AI agents are showing promise in carrying out digital tasks via ... AI agents trained using this dataset showed significant performance gains ...
deepmind.comdeepmind.com
AI Principles
A guiding framework for our responsible development and use of AI, alongside transparency and accountability in our AI development process.
ai.googleai.google
[PDF] Fine-Tuning Language Models with Differential Privacy through ...
In this paper, we introduce ANADP, a novel DP method that adaptively distributes the noise and privacy budget among a language model's parame- ters during fine- ...
aclanthology.orgaclanthology.org
Privacy-Preserving Large Language Models: Mechanisms ... - arXiv
By integrating privacy mechanisms like differential privacy, federated learning, and cryptographic methods, LLMs can be deployed in high-stakes applications ...
arxiv.orgarxiv.org
How To Preserve Data Privacy In LLMs In 2025 - Protecto AI
Embedding privacy-preserving data principles into LLM architecture strengthens overall LLM data privacy. Implementing techniques such as differential privacy ...
protecto.aiprotecto.ai

📖 レポートに利用されていない参考文献

検索結果: 160件追加のソース: 0件チャット: 0件
Data Collection for Building LLMs: Methods, Tools & Challenges
In this blog, we explore different data collection sources and tools, and help you navigate various challenges associated with data sourcing for LLM training.
turing.comturing.com
LLM for data processing : r/dataengineering - Reddit
Is it possible to provide my data model and schema to an llm and then feed the document to the llm to map it to the schema? I am able to provide metadata to the ...
reddit.comreddit.com
A Guide for Debugging LLM Training Data
Most discussions of LLM training focus heavily on models and algorithms. We enjoy experimenting with new frameworks like GRPO and anticipate the release of ...
substack.comsubstack.com
Where to Start Learning LLMs? Any Practical Resources? - Reddit
I'm looking for practical resources to start learning without getting lost in too much theory. My goal is to apply what I learn quickly, not just study endless ...
reddit.comreddit.com
Introduction to Large Language Models | Machine Learning
A language model is a machine learning model that aims to predict and generate plausible language. Autocomplete is a language model, for example.
google.comgoogle.com
The backbone of large language models: understanding training datasets
toloka.aitoloka.ai
LLM Monitoring and Observability | Towards Data Science
towardsdatascience.comtowardsdatascience.com
Building LLM Applications: Data Preparation (Part 2) | by Vipra ...
medium.commedium.com
Industrial applications of large language models | Scientific Reports
nature.comnature.com
Best Resources On Building Datasets to Trian LLMs
substack.comsubstack.com
Why Become an LLM Developer? Launching Towards AI's New One-Stop ...
towardsai.nettowardsai.net
How to Train LLM on Your Own Data in 8 Easy Steps | Airbyte
airbyte.comairbyte.com
Privacy preserving large language models: ChatGPT case study based ...
wiley.comwiley.com
Harnessing large language models for data-scarce learning of ...
nature.comnature.com
Awesome LLM Pre-training - GitHub
Pre-training is the first and most crucial training stage in the development of large language models. As the open-source community continues to improve in ...
github.comgithub.com
The Largest Collection of Ethical Data for LLM Pre-Training - arXiv
In this paper, we introduce Common Corpus, the largest open dataset for language model pre-training. The data assembled in Common Corpus are either ...
arxiv.orgarxiv.org
Pretraining Your Own Large Model from Scratch | SwanLab Docs
This article provides a hands-on guide to pretraining a large language model from scratch using a Wikipedia dataset, along with instructions on how to use ...
swanlab.cnswanlab.cn
New Tools Help LLM Developers Choose Better Pre-Training Data
Ai2 finds that large language model developers can reach 80% accuracy in dataset selection without costly compute.
thenewstack.iothenewstack.io
Characterizing Datasets and Building Better Models with Continued ...
This blog post will explore one method for customizing LLMs — Continued Pre-Training (CPT) — and provide guidance on executing this process effectively ...
databricks.comdatabricks.com
Large Language Models: A Structured Taxonomy and Review of ...
mdpi.commdpi.com
Beginner's Guide to Large Language Models (LLM)
dataaspirant.comdataaspirant.com
Literature Review] Large Language Models are Qualified Benchmark ...
themoonlight.iothemoonlight.io
Large Language Model Training in 2025
aimultiple.comaimultiple.com
New LLM Pre-training and Post-training Paradigms
sebastianraschka.comsebastianraschka.com
Literature Review] Do we really have to filter out random noise in ...
themoonlight.iothemoonlight.io
Large language models (LLMs): survey, technical frameworks, and ...
springer.comspringer.com
Transformer (deep learning architecture) - Wikipedia
Transformer is an architecture based on the multi-head attention mechanism, in which text is converted to numerical representations called tokens.
wikipedia.orgwikipedia.org
[R] Simplified RNNs Achieve Transformer-Like Performance ... - Reddit
This paper systematically examines whether RNNs might have been sufficient for many NLP tasks that are now dominated by transformers.
reddit.comreddit.com
Top 6 Regularization Techniques for Transformer Models
Top 6 Regularization Techniques for Transformer Models · Dropout · Weight Decay · Label Smoothing · Attention Dropout · Stochastic Depth · LayerNorm Dropout (Less ...
apxml.comapxml.com
Transformers in Machine Learning - GeeksforGeeks
Transformer is a neural network architecture used for performing machine learning tasks particularly in natural language processing (NLP) and computer vision.
geeksforgeeks.orggeeksforgeeks.org
6 Types of Useful Transformer Models and their Use Cases
datasciencedojo.comdatasciencedojo.com
What is a Transformer?. An Introduction to Transformers and… | by ...
medium.commedium.com
What is Transformer Architecture and How It Works?
mygreatlearning.commygreatlearning.com
Transformers Explained Visually (Part 1): Overview of ...
towardsdatascience.comtowardsdatascience.com
How to Design Transformer Model for Time-Series Forecasting ...
mathworks.commathworks.com
A Complete Guide to BERT with Code | Towards Data Science
towardsdatascience.comtowardsdatascience.com
Nucleotide Transformer: building and evaluating robust foundation ...
nature.comnature.com
Transformers: Training Methods & Architecture | BotPenguin
botpenguin.combotpenguin.com
This is how I scrape 99% websites via LLM - YouTube
How to do web scraping with LLM in 2024 Use AgentQL to scrape website for ... How to Scrape Data From Any Website Using Deepseek. Instantly•73K views · 24 ...
youtube.comyoutube.com
Web Scraping with LLMs - Analytics Vidhya
This article explores how to implement scraping with LLMs to fetch structured data from webpages effectively.
analyticsvidhya.comanalyticsvidhya.com
Tool for web scraping with LLMs? : r/LocalLLaMA - Reddit
I made a simple version in BASH that uses python to send the LLM requests to the local model. I called mine llm-websearch. I use SearXNG as a search backend.
reddit.comreddit.com
Web Scrapping With AI&LLM. Web scraping is the process of…
It involves fetching a webpage and extracting useful information from it for various purposes like data analysis, machine learning, and market research.
medium.commedium.com
How to Power-Up LLMs with Web Scraping and RAG - Scrapfly
How to use LLM and web scraping for RAG applications using either LlamaIndex or LangChain. In depth step-by-step Python tutorial.
scrapfly.ioscrapfly.io
Seeking Advice: Best LLM for Web Scraping & Social Media Outreach
OpenAI GPT models are solid for parsing and extracting data, but they're not built for scraping itself. Pair them with a scraping tool like socleads or apollo.
reddit.comreddit.com
How to do Web Scraping with LLMs for Your Next AI Project?
Learn how to perform web scraping with LLMs in your AI projects. Discover techniques, tools, and best practices for extracting data efficiently.
projectpro.ioprojectpro.io
RAG 2.0: Supercharging LLMs with Real-Time Web Data and LangGraph ...
towardsai.nettowardsai.net
From Raw Data to AI: Unlocking LLM Potential Through Data Collection
infatica.ioinfatica.io
LLM Development: Effective Data Collection & Processing Tips
botpenguin.combotpenguin.com
Fine-tuning large language models (LLMs) in 2025 - SuperAnnotate
Fine-tuning enables you to adapt a general-purpose LLM to excel in specialized use cases such as customer service, medical diagnosis, or legal analysis.
superannotate.comsuperannotate.com
Fine-Tuning LLMs: A Guide With Examples - DataCamp
The Different Types of Fine-tuning · Supervised fine-tuning · Few-shot learning · Transfer learning · Domain-specific fine-tuning.
datacamp.comdatacamp.com
The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs
This technical report thoroughly examines the process of fine-tuning Large Language Models (LLMs), integrating theoretical insights and practical applications.
arxiv.orgarxiv.org
To fine-tune or not to fine-tune - Meta AI
Fine-tuning an LLM judge to evaluate other LLMs for metrics such as groundedness, compliance, or helpfulness; Fine-tuning an LLM to increase the context window ...
meta.commeta.com
Introduction to LLM FineTuning and different FineTuning methods
Fine-tuning is the process of adapting a pre-trained language model to a specific task or dataset by continuing its training on a smaller, specialized dataset.
medium.commedium.com
Master Fine-Tuning LLMs: Expert Techniques & Best Practices
datasciencedojo.comdatasciencedojo.com
RAG vs finetuning: Which Approach is the Best for LLMs?
datasciencedojo.comdatasciencedojo.com
Base LLM vs. instruction-tuned LLM
toloka.aitoloka.ai
Supervised Fine-Tuning vs. RLHF: How to Choose the Right Approach ...
invisible.coinvisible.co
Fine-Tuning LLMs using PEFT | LearnOpenCV
learnopencv.comlearnopencv.com
5 LLM Fine-tuning Techniques
dailydoseofds.comdailydoseofds.com
LLM Terms Fine Tuning Edition ! . Don't forget to save this post ...
instagram.cominstagram.com
Finetuning LLMs Efficiently with Adapters
sebastianraschka.comsebastianraschka.com
Supervised fine-tuning (SFT) — Klu
klu.aiklu.ai
Using reasoning for routine generation
A routine, in this context, refers to a set of step-by-step instructions designed specifically for the LLM to execute efficiently. Each routine is carefully ...
openai.comopenai.com
Reinforcement fine-tuning - OpenAI API
Reinforcement fine-tuning · Example: LLM-powered security review · Define a grader · Prepare your dataset · Create a fine-tune job · Evaluate the results · Safety ...
openai.comopenai.com
Deliberative alignment: reasoning enables safer language ...
We introduce deliberative alignment, a training paradigm that directly teaches reasoning LLMs the text of human-written and interpretable safety specifications.
openai.comopenai.com
A practical guide to building agents
Agents are LLM-powered systems that independently accomplish tasks, using a model, tools, and instructions. This guide helps build them with best practices.
openai.comopenai.com
LLMs seem to be flawed at the core for real programming
I always run into the same issue: The LLM has been trained on all the versions of the libraries and does not know the difference between the latest and older ...
openai.comopenai.com
How to Train LLM on Your Own Data: A Step-by-Step Guide
signitysolutions.comsignitysolutions.com
LLM Training Data & Services | Appen
appen.comappen.com
New LLM Pre-training and Post-training Paradigms
sebastianraschka.comsebastianraschka.com
Language Model Training and Inference: From Concept to Code
substack.comsubstack.com
Humans in the AI loop: the data labelers behind some of the most ...
privacyinternational.orgprivacyinternational.org
Understanding and Using Supervised Fine-Tuning (SFT) for Language ...
substack.comsubstack.com
How to Build an LLM: A Step-by-Step 2025 Guide | Label Your Data
labelyourdata.comlabelyourdata.com
The Large Language Model Course. How to become an LLM Scientist or ...
medium.commedium.com
AlphaEarth Foundations helps map our planet in ...
New AI model integrates petabytes of Earth observation data to generate a unified data representation that revolutionizes global mapping and monitoring.
deepmind.comdeepmind.com
Google DeepMind
Artificial intelligence could be one of humanity's most useful inventions. We research and build safe artificial intelligence systems.
deepmind.comdeepmind.com
Gemini Robotics brings AI into the physical world
To advance robotics safety research across academia and industry, we are also releasing a new dataset to evaluate and improve semantic safety in embodied AI and ...
deepmind.comdeepmind.com
Gemini
Gemini 2.5 models are capable of reasoning through their thoughts before responding, resulting in enhanced performance and improved accuracy.
deepmind.comdeepmind.com
Genie 2: A large-scale foundation world model
A foundation world model capable of generating an endless variety of action-controllable, playable 3D environments for training and evaluating embodied agents.
deepmind.comdeepmind.com
AlphaGenome: AI for better understanding the genome
A new artificial intelligence (AI) tool that more comprehensively and accurately predicts how single variants or mutations in human DNA sequences impact a wide ...
deepmind.comdeepmind.com
Publications
Title: Prompting with Phonemes: Enhancing LLM Multilinguality for non-Latin Scripts. Authors: Hoang H. Nguyen, Khyati Mahajan, Vikas Yadav, Julian Salazar ...
deepmind.comdeepmind.com
Aeneas transforms how historians connect the past
Introducing the first model for contextualizing ancient inscriptions, designed to help historians better interpret, attribute and restore fragmentary texts.
deepmind.comdeepmind.com
Google AI - Our AI journey and milestones
Google developed Med-PaLM, a medically fine-tuned LLM, which was the first model to attain a passing score on a medical licensing exam-style question benchmark, ...
ai.googleai.google
Sustainability AI
... LLM training efficiency by 39% on Cloud TPU v5e 8 – enabling models that are higher quality, faster, and less compute-intensive to serve. We also help ...
ai.googleai.google
Gemini
Gemini 2.5 models are capable of reasoning through their thoughts before responding, resulting in enhanced performance and improved accuracy.
ai.googleai.google
Disturbing Privacy Gaps in ChatGPT Plus & Google Gemini Advanced
Even after opting out of training, OpenAI may review your chats: For abuse, policy violations, or legal reasons. Possibly via third-party contractors. Only ...
reddit.comreddit.com
Enterprise privacy at OpenAI
What is OpenAI's policy on data retention for ChatGPT Team? Each of your end users controls whether their conversations are retained. Any deleted or unsaved ...
openai.comopenai.com
How to Stop Your Data From Being Used to Train AI | WIRED
You can opt out from new LinkedIn posts being used for AI training by visiting your profile and opening the Settings. Tap on Data Privacy and uncheck the slider ...
wired.comwired.com
How ChatGPT Defaults to “Help Train Everyone” and How to Opt Out
This article will explain what this means, weigh the pros and cons, and provide a step-by-step guide on how to opt out if you choose to do so.
drlee.iodrlee.io
How to stop your data from being used for AI training - PIRG
How to opt-out of LinkedIn using your data for AI training: · Go to Me in the top menu bar and then select Settings & Privacy · Click Data privacy · Select Data ...
pirg.orgpirg.org
How to stop ChatGPT from using your data for training | Tom's Guide
tomsguide.comtomsguide.com
Concerned About ChatGPT Privacy? Here's How to Opt Out
makeuseof.commakeuseof.com
How To Stop OpenAI From Using Your ChatGPT Chats To Train AI In ...
bgr.combgr.com
Change This ChatGPT Setting Immediately To Prevent Your Data From ...
bgr.combgr.com
Prevent ChatGPT from Using Your Data: A Privacy Guide - DEV Community
dev.todev.to
Your ChatGPT privacy questions answered
pirg.orgpirg.org
How to stop LinkedIn, social platforms from using your posts to ...
technical.lytechnical.ly
ChatGPT Privacy Explained: Risks, Data Use, and Security Tips
privateinternetaccess.comprivateinternetaccess.com
Just because you use Gemini Advanced, does not mean your info is ...
I've seen comments that say that if you pay for Gemini Advanced, then your information won't be used for training and is fully protected.
reddit.comreddit.com
Security, privacy, and compliance for Gemini Code Assist Standard ...
Gemini for Google Cloud can meet the privacy and regulatory needs that apply to your business. Learn how Google Cloud protects your data and code integrity.
google.comgoogle.com
Gemini CLI free tier privacy policy - Google AI Developers Forum
One think I'm trying to find and struggle with is the Gemini CLI free tier privacy policy - does anyone have that? I guess since it's free the AI can be trained ...
google.devgoogle.dev
Hope this is helpful, just merged: https://github.com/google-gemini ...
* The first section states "Privacy Notice: The collection and use of your data are described in the Gemini Code Assist Privacy Notice for Individuals.
ycombinator.comycombinator.com
Gemini Code Assist for individuals privacy notice
When you use Gemini Code Assist for individuals, Google collects your prompts, related code, generated output, code edits, related feature usage information, ...
google.comgoogle.com
Comparison of Gen AI Data Security & Privacy Policies - ChatGPT vs ...
linkedin.comlinkedin.com
Google Gemini Security: Risks & Concerns Explained
concentric.aiconcentric.ai
How to Prevent AI Chatbots from Training on Your Data - Make Tech ...
maketecheasier.commaketecheasier.com
AI Assistant Privacy: What Claude, ChatGPT, and Gemini Users ...
medium.commedium.com
3 advantages of Google Gemini for Google Workspace
stackworks.chstackworks.ch
Generative AI Privacy: ChatGPT, Claude, DeepSeek & Gemini
linkedin.comlinkedin.com
Which AI Protects Your Privacy The Best: ChatGPT, Gemini, Or ...
bgr.combgr.com
CI/CD preprocessing pipelines in LLM applications - CircleCI
In this article, you will learn how to automate a simple Python program which uses the Hugging Face API to clean and process datasets.
circleci.comcircleci.com
How to Develop Modular LLM Pipelines? | by Hakeem Abbas
An LLM pipeline typically comprises the following stages: Data Preprocessing: Cleaning and transforming the input text data into a format the model can process.
medium.commedium.com
Data processing for LLMs: Techniques, Challenges & Tips - Turing
In this blog, we cover various data processing techniques, including data cleaning, and explore potential challenges in detail.
turing.comturing.com
LLM-based Data Cleaning Workflow Auto-Generation and Benchmark
AutoDCWorkflow pipeline aims to utilize the existing LLMs as a data cleaning agent to evaluate the data quality and infer the sequence of data operations based ...
arxiv.orgarxiv.org
Build a domain‐aware data preprocessing pipeline: A multi‐agent ...
This post introduces a multi‐agent collaboration pipeline: a set of specialized agents for classification, conversion, metadata extraction, and domain‐specific ...
amazon.comamazon.com
Data Preparation for LLM: The Key To Better Model Performance
In this article, we'll explore practical techniques for defining data standards, ethically scraping data, removing noise, and refining datasets to ensure ...
substack.comsubstack.com
Multimodal LLM Pipelines: From Data Ingestion to Real-Time ...
zenml.iozenml.io
AI/LLM Series] Building a smarter data pipeline for LLM & RAG: The ...
databytego.comdatabytego.com
How to Optimize LLM Pipelines with TextGrad
theaiedge.iotheaiedge.io
Preparing data for fine-tuning LLMs - IBM Developer
ibm.comibm.com
The Importance of Data Preprocessing in Machine Learning (ML ...
couchbase.comcouchbase.com
LLM Engineer's Handbook — RAG Feature Pipeline(part1) | by ...
medium.commedium.com
A Deep Dive into the Transformer Block and Self-Attention - LinkedIn
The Attention Layer: This layer is primarily responsible for incorporating relevant information from other input tokens and their positions within the sequence.
linkedin.comlinkedin.com
Attention May Be All We Need... But Why? - Machine Learning Mastery
This article takes a closer look at the attention mechanism of transformer architectures, explaining in simple terms how they work, how they process and gain ...
machinelearningmastery.commachinelearningmastery.com
Visualizing transformers and attention | Talk for TNG Big Tech Day '24
Based on the 3blue1brown deep learning series: https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi.
youtube.comyoutube.com
11.7. The Transformer Architecture - Dive into Deep Learning
The Transformer is an instance of the encoder–decoder architecture, though either the encoder or the decoder can be used individually in practice.
d2l.aid2l.ai
What is an attention mechanism? | IBM
An attention mechanism is a machine learning technique that directs deep learning models to prioritize (or attend to) the most relevant parts of input data.
ibm.comibm.com
Increasing Transformer Model Efficiency Through Attention Layer ...
In this post, we will explore several tools for optimizing attention in PyTorch. Our focus will be on methods that maintain the accuracy of the attention layer.
towardsdatascience.comtowardsdatascience.com
Deep Dive into the Transformer Architecture: Pioneering Advances ...
medium.commedium.com
Deep Dive into Attention Mechanisms: Python Code Included | by ...
plainenglish.ioplainenglish.io
Large Language Models (LLMs) and the Transformer Architecture: A ...
gitconnected.comgitconnected.com
Transformers in Action: Attention Is All You Need | Towards Data ...
towardsdatascience.comtowardsdatascience.com
A deep dive into Transformer models like GPT and BERT (English ...
omseeth.github.ioomseeth.github.io
The Complete Transformer Architecture: A Deep Dive – Tejas Kamble
tejaskamble.comtejaskamble.com
Deep Dive into Self-Attention by Hand✍︎ | Towards Data Science
towardsdatascience.comtowardsdatascience.com
SafeSynthDP: Leveraging Large Language Models for Privacy ...
In this paper, we investigate the capability of Large Language Models (LLMs) to generate synthetic datasets integrated with Differential Privacy (DP) mechanisms ...
arxiv.orgarxiv.org
No free lunch theorem for privacy-preserving LLM inference
The current study develops a framework for inferring privacy-protected Large Language Models (LLMs) and lays down a solid theoretical basis.
sciencedirect.comsciencedirect.com
Privacy preserving strategies for electronic health records in the era ...
Risks can be reduced by using strategies like privacy-preserving locally deployed LLMs, synthetic data generation, differential privacy, and deidentification.
nature.comnature.com
Enhancing Privacy in AI Systems with Differential Privacy - Charan H U
To protect privacy, we can apply differential privacy by introducing noise to the few-shot prompts. This can be done in a few ways: 1. Anonymizing Data: Replace ...
medium.commedium.com
Differential Privacy: How It Works, Benefits & Use Cases - AIMultiple
Differential privacy is a mathematical technique of adding a controlled amount of randomness to a dataset to prevent anyone from obtaining information about ...
aimultiple.comaimultiple.com
Privacy-Preserving Techniques in Generative AI and Large Language ...
mdpi.commdpi.com
Confidential Data Protection in LLM Systems Enters Maturity Phase ...
medium.commedium.com
Day 64/100: Privacy-Preserving Machine Learning — Learning Without ...
medium.commedium.com
Privacy-Preserving LLM Development Pipeline with Integrated GDPR ...
researchgate.netresearchgate.net
On protecting the data privacy of Large Language Models (LLMs) and ...
sciencedirect.comsciencedirect.com
Fine-tuning vs. RAG: Understanding the Difference - FinetuneDB
Fine-tuning customizes the model to excel in specific tasks, while RAG provides access to real-time data or external information during interactions. This ...
finetunedb.comfinetunedb.com
RAG vs. Fine Tuning - YouTube
... Retrieval Augmented Generation (RAG) and fine-tuning in enhancing large language models. This video covers the strengths, weaknesses, and common ...
youtube.comyoutube.com
Fine-tuning vs. RAG: Understanding the Difference : r/OpenAI - Reddit
Here's what the article covers: Fine-Tuning vs. RAG: A clear comparison of how each method works and what sets them apart. Practical Applications: ...
reddit.comreddit.com
RAG vs fine-tuning vs. prompt engineering - IBM
Retrieval augmented generation works by locating data that is relevant to the user's query, then using that data to create more informative prompts. An ...
ibm.comibm.com
RAG vs. Fine-Tuning: How to Choose - Oracle
Want to help an LLM work smarter for your business? There are two paths: Fine-tune it, or augment it with retrieval-augmented generation (RAG).
oracle.comoracle.com
Fine-Tuning vs. Retrieval Augmented Generation for LLMs - Neo4j
Explore the pros and cons of fine-tuning versus retrieval-augmented generation (RAG) for overcoming large language model (LLM) limitations.
neo4j.comneo4j.com
Supervised Fine-Tuning (SFT) vs. Retrieval-Augmented Generation ...
Supervised Fine-Tuning (SFT) and Retrieval-Augmented Generation (RAG) offer distinct advantages for enhancing language models.
medium.commedium.com
Fine-Tuning vs. RAG – Which Reigns Supreme?
nb-data.comnb-data.com
RAG vs. Fine Tuning | B EYE
b-eye.comb-eye.com
RAG Vs. Fine-Tuning: What's the Difference? Both help improve ...
instagram.cominstagram.com
RAG vs. Fine-Tuning: Which Is the Better Option? | Astera
astera.comastera.com
RAG vs. Fine-Tunning: When to Choose Each Method
chatbase.cochatbase.co
RAG vs. Fine-Tuning: Choosing the Right Approach for Your LLM
signitysolutions.comsignitysolutions.com
RAG vs Fine-Tuning for Enterprise LLMs: A Practical Guide to ...
clearlead.aiclearlead.ai

📊 ドメイン統計

参照ドメイン数: 108引用済み: 36総文献数: 266
1
Favicon for https://medium.commedium.com
引用: 6件/ 総数: 23件
引用率: 26.1%
2
Favicon for https://openai.comopenai.com
引用: 6件/ 総数: 12件
引用率: 50.0%
3
Favicon for https://deepmind.comdeepmind.com
引用: 2件/ 総数: 20件
引用率: 10.0%
4
Favicon for https://ai.googleai.google
引用: 2件/ 総数: 14件
引用率: 14.3%
5
Favicon for https://google.comgoogle.com
引用: 2件/ 総数: 7件
引用率: 28.6%
6
Favicon for https://huggingface.cohuggingface.co
引用: 2件/ 総数: 2件
引用率: 100.0%
7
Favicon for https://towardsdatascience.comtowardsdatascience.com
引用: 1件/ 総数: 7件
引用率: 14.3%
8
Favicon for https://linkedin.comlinkedin.com
引用: 1件/ 総数: 6件
引用率: 16.7%
9
Favicon for https://arxiv.orgarxiv.org
引用: 1件/ 総数: 5件
引用率: 20.0%
10
Favicon for https://nvidia.comnvidia.com
引用: 1件/ 総数: 4件
引用率: 25.0%
11
Favicon for https://amazon.comamazon.com
引用: 1件/ 総数: 4件
引用率: 25.0%
12
Favicon for https://ibm.comibm.com
引用: 1件/ 総数: 4件
引用率: 25.0%
13
Favicon for https://promptcloud.compromptcloud.com
引用: 1件/ 総数: 4件
引用率: 25.0%
14
Favicon for https://apify.comapify.com
引用: 1件/ 総数: 4件
引用率: 25.0%
15
Favicon for https://turing.comturing.com
引用: 1件/ 総数: 3件
引用率: 33.3%
16
Favicon for https://wikipedia.orgwikipedia.org
引用: 1件/ 総数: 3件
引用率: 33.3%
17
Favicon for https://projectpro.ioprojectpro.io
引用: 1件/ 総数: 3件
引用率: 33.3%
18
Favicon for https://analyticsvidhya.comanalyticsvidhya.com
引用: 1件/ 総数: 2件
引用率: 50.0%
19
Favicon for https://addepto.comaddepto.com
引用: 1件/ 総数: 2件
引用率: 50.0%
20
Favicon for https://solulab.comsolulab.com
引用: 1件/ 総数: 2件
引用率: 50.0%
21
Favicon for https://google.devgoogle.dev
引用: 1件/ 総数: 2件
引用率: 50.0%
22
Favicon for https://thealliance.aithealliance.ai
引用: 1件/ 総数: 2件
引用率: 50.0%
23
Favicon for https://factset.comfactset.com
引用: 1件/ 総数: 1件
引用率: 100.0%
24
Favicon for https://oxylabs.iooxylabs.io
引用: 1件/ 総数: 1件
引用率: 100.0%
25
Favicon for https://fpf.orgfpf.org
引用: 1件/ 総数: 1件
引用率: 100.0%
26
Favicon for https://ankursnewsletter.comankursnewsletter.com
引用: 1件/ 総数: 1件
引用率: 100.0%
27
Favicon for https://amazon.scienceamazon.science
引用: 1件/ 総数: 1件
引用率: 100.0%
28
Favicon for https://scraperapi.comscraperapi.com
引用: 1件/ 総数: 1件
引用率: 100.0%
29
Favicon for https://sapien.iosapien.io
引用: 1件/ 総数: 1件
引用率: 100.0%
30
Favicon for https://datanorth.aidatanorth.ai
引用: 1件/ 総数: 1件
引用率: 100.0%
31
Favicon for https://theverge.comtheverge.com
引用: 1件/ 総数: 1件
引用率: 100.0%
32
Favicon for https://labellerr.comlabellerr.com
引用: 1件/ 総数: 1件
引用率: 100.0%
33
Favicon for https://aclanthology.orgaclanthology.org
引用: 1件/ 総数: 1件
引用率: 100.0%
34
Favicon for https://protecto.aiprotecto.ai
引用: 1件/ 総数: 1件
引用率: 100.0%
35
Favicon for https://montecarlodata.commontecarlodata.com
引用: 1件/ 総数: 1件
引用率: 100.0%
36
Favicon for https://redhat.comredhat.com
引用: 1件/ 総数: 1件
引用率: 100.0%
37
Favicon for https://reddit.comreddit.com
引用: 0件/ 総数: 9件
引用率: 0.0%
38
Favicon for https://substack.comsubstack.com
引用: 0件/ 総数: 5件
引用率: 0.0%
39
Favicon for https://nature.comnature.com
引用: 0件/ 総数: 5件
引用率: 0.0%
40
Favicon for https://sebastianraschka.comsebastianraschka.com
引用: 0件/ 総数: 5件
引用率: 0.0%
41
Favicon for https://mdpi.commdpi.com
引用: 0件/ 総数: 4件
引用率: 0.0%
42
Favicon for https://wiley.comwiley.com
引用: 0件/ 総数: 3件
引用率: 0.0%
43
Favicon for https://datasciencedojo.comdatasciencedojo.com
引用: 0件/ 総数: 3件
引用率: 0.0%
44
Favicon for https://youtube.comyoutube.com
引用: 0件/ 総数: 3件
引用率: 0.0%
45
Favicon for https://bgr.combgr.com
引用: 0件/ 総数: 3件
引用率: 0.0%
46
Favicon for https://toloka.aitoloka.ai
引用: 0件/ 総数: 2件
引用率: 0.0%
47
Favicon for https://towardsai.nettowardsai.net
引用: 0件/ 総数: 2件
引用率: 0.0%
48
Favicon for https://airbyte.comairbyte.com
引用: 0件/ 総数: 2件
引用率: 0.0%
49
Favicon for https://themoonlight.iothemoonlight.io
引用: 0件/ 総数: 2件
引用率: 0.0%
50
Favicon for https://aimultiple.comaimultiple.com
引用: 0件/ 総数: 2件
引用率: 0.0%
51
Favicon for https://geeksforgeeks.orggeeksforgeeks.org
引用: 0件/ 総数: 2件
引用率: 0.0%
52
Favicon for https://botpenguin.combotpenguin.com
引用: 0件/ 総数: 2件
引用率: 0.0%
53
Favicon for https://instagram.cominstagram.com
引用: 0件/ 総数: 2件
引用率: 0.0%
54
Favicon for https://signitysolutions.comsignitysolutions.com
引用: 0件/ 総数: 2件
引用率: 0.0%
55
Favicon for https://wired.comwired.com
引用: 0件/ 総数: 2件
引用率: 0.0%
56
Favicon for https://pirg.orgpirg.org
引用: 0件/ 総数: 2件
引用率: 0.0%
57
Favicon for https://tomsguide.comtomsguide.com
引用: 0件/ 総数: 2件
引用率: 0.0%
58
Favicon for https://sciencedirect.comsciencedirect.com
引用: 0件/ 総数: 2件
引用率: 0.0%
59
Favicon for https://finetunedb.comfinetunedb.com
引用: 0件/ 総数: 2件
引用率: 0.0%
60
Favicon for https://github.comgithub.com
引用: 0件/ 総数: 1件
引用率: 0.0%
61
Favicon for https://swanlab.cnswanlab.cn
引用: 0件/ 総数: 1件
引用率: 0.0%
62
Favicon for https://thenewstack.iothenewstack.io
引用: 0件/ 総数: 1件
引用率: 0.0%
63
Favicon for https://databricks.comdatabricks.com
引用: 0件/ 総数: 1件
引用率: 0.0%
64
Favicon for https://dataaspirant.comdataaspirant.com
引用: 0件/ 総数: 1件
引用率: 0.0%
65
Favicon for https://springer.comspringer.com
引用: 0件/ 総数: 1件
引用率: 0.0%
66
Favicon for https://apxml.comapxml.com
引用: 0件/ 総数: 1件
引用率: 0.0%
67
Favicon for https://mygreatlearning.commygreatlearning.com
引用: 0件/ 総数: 1件
引用率: 0.0%
68
Favicon for https://mathworks.commathworks.com
引用: 0件/ 総数: 1件
引用率: 0.0%
69
Favicon for https://scrapfly.ioscrapfly.io
引用: 0件/ 総数: 1件
引用率: 0.0%
70
Favicon for https://infatica.ioinfatica.io
引用: 0件/ 総数: 1件
引用率: 0.0%
71
Favicon for https://superannotate.comsuperannotate.com
引用: 0件/ 総数: 1件
引用率: 0.0%
72
Favicon for https://datacamp.comdatacamp.com
引用: 0件/ 総数: 1件
引用率: 0.0%
73
Favicon for https://meta.commeta.com
引用: 0件/ 総数: 1件
引用率: 0.0%
74
Favicon for https://invisible.coinvisible.co
引用: 0件/ 総数: 1件
引用率: 0.0%
75
Favicon for https://learnopencv.comlearnopencv.com
引用: 0件/ 総数: 1件
引用率: 0.0%
76
Favicon for https://dailydoseofds.comdailydoseofds.com
引用: 0件/ 総数: 1件
引用率: 0.0%
77
Favicon for https://klu.aiklu.ai
引用: 0件/ 総数: 1件
引用率: 0.0%
78
Favicon for https://appen.comappen.com
引用: 0件/ 総数: 1件
引用率: 0.0%
79
Favicon for https://privacyinternational.orgprivacyinternational.org
引用: 0件/ 総数: 1件
引用率: 0.0%
80
Favicon for https://labelyourdata.comlabelyourdata.com
引用: 0件/ 総数: 1件
引用率: 0.0%
81
Favicon for https://drlee.iodrlee.io
引用: 0件/ 総数: 1件
引用率: 0.0%
82
Favicon for https://makeuseof.commakeuseof.com
引用: 0件/ 総数: 1件
引用率: 0.0%
83
Favicon for https://dev.todev.to
引用: 0件/ 総数: 1件
引用率: 0.0%
84
Favicon for https://technical.lytechnical.ly
引用: 0件/ 総数: 1件
引用率: 0.0%
85
Favicon for https://privateinternetaccess.comprivateinternetaccess.com
引用: 0件/ 総数: 1件
引用率: 0.0%
86
Favicon for https://ycombinator.comycombinator.com
引用: 0件/ 総数: 1件
引用率: 0.0%
87
Favicon for https://concentric.aiconcentric.ai
引用: 0件/ 総数: 1件
引用率: 0.0%
88
Favicon for https://maketecheasier.commaketecheasier.com
引用: 0件/ 総数: 1件
引用率: 0.0%
89
Favicon for https://stackworks.chstackworks.ch
引用: 0件/ 総数: 1件
引用率: 0.0%
90
Favicon for https://circleci.comcircleci.com
引用: 0件/ 総数: 1件
引用率: 0.0%
91
Favicon for https://zenml.iozenml.io
引用: 0件/ 総数: 1件
引用率: 0.0%
92
Favicon for https://databytego.comdatabytego.com
引用: 0件/ 総数: 1件
引用率: 0.0%
93
Favicon for https://theaiedge.iotheaiedge.io
引用: 0件/ 総数: 1件
引用率: 0.0%
94
Favicon for https://couchbase.comcouchbase.com
引用: 0件/ 総数: 1件
引用率: 0.0%
95
Favicon for https://machinelearningmastery.commachinelearningmastery.com
引用: 0件/ 総数: 1件
引用率: 0.0%
96
Favicon for https://d2l.aid2l.ai
引用: 0件/ 総数: 1件
引用率: 0.0%
97
Favicon for https://plainenglish.ioplainenglish.io
引用: 0件/ 総数: 1件
引用率: 0.0%
98
Favicon for https://gitconnected.comgitconnected.com
引用: 0件/ 総数: 1件
引用率: 0.0%
99
Favicon for https://omseeth.github.ioomseeth.github.io
引用: 0件/ 総数: 1件
引用率: 0.0%
100
Favicon for https://tejaskamble.comtejaskamble.com
引用: 0件/ 総数: 1件
引用率: 0.0%
101
Favicon for https://researchgate.netresearchgate.net
引用: 0件/ 総数: 1件
引用率: 0.0%
102
Favicon for https://oracle.comoracle.com
引用: 0件/ 総数: 1件
引用率: 0.0%
103
Favicon for https://neo4j.comneo4j.com
引用: 0件/ 総数: 1件
引用率: 0.0%
104
Favicon for https://nb-data.comnb-data.com
引用: 0件/ 総数: 1件
引用率: 0.0%
105
Favicon for https://b-eye.comb-eye.com
引用: 0件/ 総数: 1件
引用率: 0.0%
106
Favicon for https://astera.comastera.com
引用: 0件/ 総数: 1件
引用率: 0.0%
107
Favicon for https://chatbase.cochatbase.co
引用: 0件/ 総数: 1件
引用率: 0.0%
108
Favicon for https://clearlead.aiclearlead.ai
引用: 0件/ 総数: 1件
引用率: 0.0%

このレポートが参考になりましたか?

あなたの仕事の調査業務をワンボタンでレポートにできます。

無料でリサーチ

新しいテーマを調査する

運営会社サービス概要メディア
  • 📜要約
  • 📊ビジュアライズ
  • 🖼関連する画像
  • 🔍詳細
    • 🏷1. LLMの基礎学習プロセスとデータ収集の概要
    • 🏷2. Transformerモデルと自己アテンションの役割
    • 🏷3. ファインチューニングとRAGの違いと特徴
    • 🏷4. 生成AIサービスにおけるユーザーデータの取り扱いとオプトアウト
    • 🏷5. ユーザーデータ学習懸念の現状と技術的論拠の限界
    • 🏷6. 今後の調査課題とプライバシー保護技術の展望
  • 🖍考察
  • 📚参考文献
    • 📖利用された参考文献
    • 📖未使用の参考文献
    • 📊ドメイン統計