データベース

自動化

発見

レポートの一覧に戻る

精度の高いRAG実装のためのテックスタックとSupabaseの評価

🗓 Created on 5/30/2024

📜 要約

主題と目的の要約

今回の調査は、精度の高いRAG（Retrieval-Augmented Generation）を実装するための推奨テックスタックとVector DBについての情報を提供することを目的としています。具体的には、RAGの実装に適した技術スタックの各要素を詳細に解説し、さらにSupabaseのVector DBに対するRedditでの評判についても調査しました。この調査は、RAGの実装に関心を持つ開発者や企業が、最適な技術選定を行うための参考資料として役立つことを目指しています。

主要な内容と発見

推奨テックスタック

データベース: MongoDBとPrismaが推奨されます。これらはデータの効率的な管理とクエリ処理に優れています。
LLMとモデル: ChaGPTとHuggingface Sentence Transformerが推奨されます。これらは高精度な自然言語処理を実現します。
API: FastAPIが推奨されます。これは高速で柔軟なAPI開発を可能にします。
フロントエンド: Next.jsとReactが推奨されます。これらはモダンでスケーラブルなフロントエンド開発を支援します。
UI: Material UI、Semantic UI、Radix UIが推奨されます。これらは美しいユーザーインターフェースを簡単に構築できます。
クラウド: Google Cloud PlatformとVercelが推奨されます。これらは高い信頼性とスケーラビリティを提供します。
ツール: LlamaIndexが推奨されます。これはデータのインジェストとリトリーバルジェネレーションを効率化します。

SupabaseのVector DBに対するRedditでの評判

RedditでのSupabaseのVector DBに対する評価は概ねポジティブです。特にPGVectorの機能が高く評価されており、以下の点が挙げられます：

性能と信頼性: 多くのユーザーがSupabaseのVector DBの性能と信頼性を高く評価しています。
アセット管理: フィルターに頼らずにアセットをソートおよび検索できる点が時間の節約に寄与しています。
他のベクターデータベースとの比較: SupabaseのVector Storeは他のベクターデータベースと比較しても信頼性が高いとされています。
IDベースのRAG: 特にIDベースのRAGにおいて有用であるとされています。
LangChainとOpenAI Embeddings: ユーザーはLangChainを使用してドキュメントを処理し、OpenAI Embeddingsを生成してSupabase Vector Storeに保存することで、効率的なデータ管理を実現しています。

結果と結論のまとめ

調査の結果、精度の高いRAGを実装するためには、各要素において最適な技術を選定することが重要であることが分かりました。特に、データベース、LLMとモデル、API、フロントエンド、UI、クラウド、ツールの各要素において推奨される技術を組み合わせることで、効率的かつ高性能なRAGアプリケーションを構築することが可能です。また、SupabaseのVector DBに対するRedditでの評価も非常に高く、特にPGVectorの機能や信頼性が評価されています。これらの情報を基に、RAGの実装における技術選定を行うことで、より高精度で効率的なシステムを構築することが期待されます。

このレポートが参考になりましたか？

あなたの仕事の調査業務をワンボタンでレポートにできます。

詳細を見る

🔍 詳細

🏷精度の高いRAG実装のための推奨テックスタック

精度の高いRAG実装のための推奨テックスタック

精度の高いRAG実装のための推奨テックスタックは、データベース、LLMとモデル、API、フロントエンド、UI、クラウド、ツールの各要素から構成されています。具体的には、データベースにはMongoDBとPrisma、LLMとモデルにはChaGPTとHuggingface Sentence Transformer、APIにはFastAPI、フロントエンドにはNext.jsとReact、UIにはMaterial UI、Semantic UI、Radix UI、クラウドにはGoogle Cloud PlatformとVercel、ツールにはLlamaIndexが使用されます。これらの技術を組み合わせることで、RAGアプリケーションのインジェストとリトリーバルジェネレーションのプロセスを効率的に実装できます。

精度の高いRAG実装のためのテックスタック選定の考察

RAGアーキテクチャの実装において、精度を高めるためのテックスタック選定は重要です。まず、データベースとしてMongoDBとPrismaを選ぶことで、ベクトル検索とORMの機能を活用できます。次に、LLMとモデルにはChaGPTとHuggingface Sentence Transformerを使用することで、高度な自然言語処理能力を持つモデルを利用できます。APIにはFastAPIを選ぶことで、高速かつスケーラブルなAPIを構築できます。フロントエンドにはNext.jsとReactを使用し、ユーザーインターフェースにはMaterial UI、Semantic UI、Radix UIを組み合わせることで、直感的で使いやすいUIを提供できます。クラウドにはGoogle Cloud PlatformとVercelを利用し、スケーラビリティと信頼性を確保します。最後に、ツールとしてLlamaIndexを使用することで、PDF文書の読み取りとチャンク作成、エンベディングの生成と保存を効率的に行えます。これらの技術を組み合わせることで、RAGアーキテクチャの精度と効率を最大化できます。

RAG（Retrieval Augmented Generation）アプリケーションのフルスタック実装

medium.com

概要

Retrieval-Augmented Generation（RAG）は、大規模言語モデル（LLM）アプリケーションの効果を高めるためのアーキテクチャ手法です。具体的には、特定の質問やタスクに関連するデータや文書を取得し、それをLLMのコンテキスト情報として利用します。このブログでは、以下の技術スタックを使用してRAGアプリケーションを開発するための包括的なソリューションを紹介します。

技術スタック

データベース: MongoDB（Atlasベクトル検索）、Prisma（ORM）
LLMとモデル: ChaGPT、Huggingface Sentence Transformer
API: FastAPI
フロントエンド: Next.js（React）
UI: Material UI、Semantic UI、Radix UI
クラウド: Google Cloud Platform、Vercel
ツール: LlamaIndex

アーキテクチャ概要

バックエンドGitHub: https://github.com/Nelsonlin0321/webdev-rag-backend-api
フロントエンドGitHub: https://github.com/Nelsonlin0321/webdev-nextjs-rag

バックエンド

バックエンドでは、インジェストとリトリーバルジェネレーションがRAGアプリケーションの主要な部分です。

インジェスト

インジェストの目的は、PDF文書から関連情報を効果的に取得するために、テキストを意味のあるチャンクに変換し、それを数値表現（エンベディング）にエンコードしてベクトル検索データベースに保存することです。

PDFの読み取りとチャンク作成: LlamaIndexを使用してPDFを読み取り、抽出されたテキストを小さな意味のあるセグメントに分割します。
文のエンベディングへのエンコード: Sentence Transformersを使用して文を固定長の数値表現（エンベディング）に変換します。
ベクトル検索データベースへのエンベディングのロード: MongoDB Atlas Vector Searchを使用してエンベディングを効率的に保存および検索します。

@app.post(f"{PREFIX}/ingest")
async def ingest_file(file: UploadFile = File(...)):
    try:
        if not mongo_db_engine.file_exist(file_name=file.filename):
            save_file_path = utils.save_file(file=file)
            doc_meta_list = embedding_generator(save_file_path)
            mongo_db_engine.insert_embedding(doc_meta_list)
            mongo_db_engine.insert_document(file_name=file.filename)
            os.remove(save_file_path)
        return {"message": f"The file: {file.filename} has been successfully ingested and processed!"}
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e)) from e

リトリーバルジェネレーション

リトリーバルジェネレーションは、情報検索と言語生成モデルの能力を組み合わせて、会話や質問応答システムでの応答生成を強化します。

ユーザークエリのエンベディング: テキストクエリを固定長の数値表現に変換します。
ベクトル検索による情報検索: MongoDB Atlas Searchを使用して類似アイテムを効率的に検索します。
プロンプト生成: 取得した文書からプロンプトを生成し、質問応答ステップのコンテキストとして使用します。
質問応答: OpenAI GPT-3.5 Turboモデルを使用して、生成されたプロンプトとユーザーの質問に基づいて回答を生成します。

@app.post(f"{PREFIX}/retrieval_generate")
async def retrieval_generate(pay_load: PayLoad):
    query_vector = embedding_generator.model.encode(pay_load.question).tolist()
    retrieved_results = mongo_db_engine.vector_search(query_vector=query_vector, file_name=pay_load.file_name)
    prompt = utils.generate_prompt(retrieved_results)
    completion = client.chat.completions.create(
        model='gpt-3.5-turbo',
        messages=[
            {'role': 'system', 'content': prompt},
            {"role": "user", "content": pay_load.question}
        ],
        temperature=0,
        stream=False
    )
    return {"question": pay_load.question, "file_name": pay_load.file_name, "answer": completion.choices[0](https://thenewstack.io/freshen-up-llms-with-retrieval-augmented-generation/).message.content, "uuid": str(uuid4())}

フロントエンド

フロントエンドは、Next.jsとReactを使用して実装され、RadixとSemantic UIに基づいています。主要なコンポーネントは以下の通りです。

1. ファイルアップロード

ファイルアップロードコンポーネントは、API

api/ingest

をトリガーしてファイルをインジェストし、処理し、文書チャンクのエンベディングをベクトルデータベースにロードします。

const FileUploader = () => {
    const [file, setFile] = useState<File>();
    const [isSubmitting, setSubmitting] = useState(false);
    const router = useRouter();
    const onSubmit = async (e: React.FormEvent<HTMLFormElement>) => {
        e.preventDefault();
        if (!file) return;
        if (!file.name.endsWith(".pdf")) {
            toast.error("Only PDF document supported", { duration: 1000 });
            return;
        }
        setSubmitting(true);
        try {
            const data = new FormData();
            data.set("file", file);
            await apiClient.post("/api/ingest", data, {
                headers: { "Content-Type": "multipart/form-data" },
            });
            router.refresh();
            toast.success("File uploaded successfully!", { duration: 1000 });
        } catch (error) {
            const response = (error as AxiosError).response?.data;
            const message = (response as { message: string }).message;
            const errorMessage = message || "File Uploading Failed!";
            toast.error(errorMessage, { duration: 1000 });
        } finally {
            setSubmitting(false);
        }
    };
    return (
        <div className="w-full">
            <form onSubmit={onSubmit}>
                <input
                    className="mb-2 block w-full cursor-pointer rounded-lg border dark:border-gray-300"
                    type="file"
                    name="file"
                    onChange={(e) => {
                        if (e.target.files !== null) {
                            setFile(e.target.files[0](https://thenewstack.io/freshen-up-llms-with-retrieval-augmented-generation/));
                        }
                    }}
                />
                <Button type="submit" className="cursor-pointer" color="blue">
                    {isSubmitting ? "Processing File" : "Upload and Process File"}
                    {isSubmitting && <Spinner />}
                </Button>
            </form>
            <Toaster />
        </div>
    );
};
export default FileUploader;

2. ファイル検索

ファイル検索コンポーネントは、ユーザーが質問する文書を選択するための重要なコンポーネントです。Material UIのオートコンプリートコンポーネントを使用して、文書を迅速に検索できます。

const FileSearcher = ({ fileNames, setFileName }: Props) => {
    const [value, setValue] = useState<string | null>(fileNames[0](https://thenewstack.io/freshen-up-llms-with-retrieval-augmented-generation/));
    const [inputValue, setInputValue] = useState<string | undefined>(fileNames[0](https://thenewstack.io/freshen-up-llms-with-retrieval-augmented-generation/));
    return (
        <Autocomplete
            value={value}
            onChange={(event: any, newValue: string | null) => {
                setValue(newValue);
            }}
            inputValue={inputValue}
            onInputChange={(event: any, newInputValue) => {
                setInputValue(newInputValue);
                setFileName(newInputValue);
            }}
            className="rounded-lg border w-full"
            disablePortal
            id="combo-box-demo"
            options={fileNames}
            renderInput={(params) => (
                <TextField
                    size="small"
                    InputLabelProps={params.InputLabelProps}
                    InputProps={{
                        ...params.InputProps,
                        startAdornment: (
                            <InputAdornment position="start">
                                <SearchIcon />
                                Search PDF
                            </InputAdornment>
                        ),
                    }}
                    id={params.id}
                    inputProps={params.inputProps}
                    fullWidth={params.fullWidth}
                />
            )}
        />
    );
};
export default FileSearcher;

3. 質問と回答

このコンポーネントは、質問の入力とチャット履歴の管理を行います。質問入力コンポーネントでは、

api/retrieval-generate

APIをトリガーしてチャット記録の状態を更新します。

const QuestionField = ({ fileName, fileNames, chatRecords, setChatRecords }: Props) => {
    const questionRef = useRef<HTMLInputElement>(null);
    const [isLoading, setLoading] = useState(false);
    const submitData = { question: "", file_name: fileName };
    return (
        <div className="w-full">
            <form
                onSubmit={async (event) => {
                    event.preventDefault();
                    if (questionRef.current != null) {
                        if (questionRef.current.value.split(" ").length < 3) {
                            toast.error("The question requires at least 3 words");
                            return;
                        }
                        if (!fileNames.includes(fileName)) {
                            toast.error("The selected PDF document doesn't exist!");
                            return;
                        }
                        submitData.question = questionRef.current.value;
                        setLoading(true);
                        try {
                            await apiClient.post<chatRecord>("/api/retrieval_generate", submitData).then((res) => {
                                setChatRecords([res.data, ...chatRecords]);
                                setLoading(false);
                            });
                        } catch (error) {
                            const errorMessage = "Unexpected Error";
                            toast.error(errorMessage, { duration: 1000 });
                        } finally {
                            setLoading(false);
                        }
                    }
                }}
            >
                <div>
                    <span>Please write down your question related to selected PDF Document</span>
                    <TextField.Root className="mb-2">
                        <TextField.Input
                            placeholder="Example Question: What are steps to take when finding projects to build your AI experience ?"
                            ref={questionRef}
                        />
                    </TextField.Root>
                    <Button type="submit" className="cursor-pointer" color="blue">
                        Ask
                        {isLoading && <Spinner />}
                    </Button>
                </div>
            </form>
            <Toaster />
        </div>
    );
};
export default QuestionField;

チャット履歴を表示するために、Semantic UIのアコーディオンコンポーネントを使用します。これにより、長い回答を折りたたんで表示できます。

const ChatHistory = ({ chatRecords }: Props) => {
    const [activeIndex, setActiveIndex] = useState(0);
    useEffect(() => {
        setActiveIndex(0);
    }, [chatRecords]);
    return (
        <Accordion fluid styled>
            {chatRecords.map((message, index) => (
                <div key={index}>
                    <Accordion.Title
                        active={activeIndex === index}
                        onClick={() => {
                            if (activeIndex == index) {
                                setActiveIndex(-1);
                            } else {
                                setActiveIndex(index);
                            }
                        }}
                    >
                        <Icon name="dropdown" />
                        {message.question}
                        <div>
                            <Label color="orange" ribbon="right">
                                <p style={{ maxWidth: 256 }} className="truncate">
                                    {message.file_name}
                                </p>
                            </Label>
                        </div>
                    </Accordion.Title>
                    <Accordion.Content active={activeIndex === index}>
                        <Text className="text-gray-800 mb-4 whitespace-pre-line">
                            {message.answer}
                        </Text>
                    </Accordion.Content>
                </div>
            ))}
        </Accordion>
    );
};
export default ChatHistory;

このブログでは、RAGアプリケーションの開発に必要な技術スタックと具体的な実装方法を詳細に説明しています。詳細なコードや実装手順については、バックエンドGitHubリポジトリおよびフロントエンドGitHubリポジトリを参照してください。

medium.com

https://github.com/llmware-ai/llmware

https://huggingface.co/llmware

towardsdatascience.com

medium.com

biggest business use-case of LLMs

2023 Retool Report

https://gradientflow.com/techniques-challenges-and-future-of-augmented-language-models/

Anyscale

legal, customer service, and financial services

https://www.rungalileo.io/blog/optimizing-llm-performance-rag-vs-finetune-vs-both

https://www.researchgate.net/figure/Answering-a-multi-hop-question-over-the-relation-graph-The-relations-are-constrained_fig1_350892243

team@whyhow.ai](mailto:team@whyhow.ai), or follow our newsletter at [WhyHow.AI

newly-created Discord

shabarish033.medium.com

https://docs.aws.amazon.com/kendra/latest/dg/data-source-s3.html

https://repost.aws/articles/ARixmsXALpSWuxI02zHgv1YA/bedrock-unveiled-a-quick-lambda-example

https://aws.amazon.com/getting-started/guides/deploy-webapp-amplify/#:~:text=Amplify%20is%20a%20framework%20with,stack%20applications%2C%20powered%20by%20AWS

Web Application Architecture

AWS architecture for processing real-time and batch processing data and dashboards

Cloud Computing: An Overview

Amazon Web Services [AWS]: An Overview

Amazon Simple Storage Service S3

Route 53 — The highly available and scalable cloud Domain Name System (DNS) web service.

Understanding DevOps and DevOps pipeline | by Shabarish PILKUN RAVI | Jul, 2022 | Medium

Understanding MlOps and MlOps Pipeline | by Shabarish PILKUN RAVI | Aug, 2022 | Medium

OpenCV Background Subtraction and Music in Background of Video | by Shabarish PILKUN RAVI | Medium

Artificial Neural Networks Simplified: From Perceptrons to BackPropagation | by Shabarish PILKUN RAVI | The Startup | Medium

medium.com

https://github.com/Nelsonlin0321/webdev-rag-backend-api

https://github.com/Nelsonlin0321/webdev-nextjs-rag

🏷SupabaseのVector DBに対するRedditでの評価

SupabaseのVector DBに対するRedditでの評価

SupabaseのVector DBに対するRedditでの評価は、主にその性能と信頼性に関するポジティブな意見が多いです。特にPGVectorの機能が高く評価されており、アセット管理プラットフォームでの使用例では、フィルターに頼らずにアセットをソートおよび検索できる点が時間の節約に大きく寄与しています。また、他のベクターデータベースと比較しても、SupabaseのVector Storeは信頼性が高く、特にIDベースのRAG（Retrieval-Augmented Generation）においても有用であるとされています。ユーザーはLangChainを使用してドキュメントを処理し、OpenAI Embeddingsを生成してSupabase Vector Storeに保存することで、効率的なデータ管理を実現しています。

SupabaseのVector DBに対する評価の考察

SupabaseのVector DBに対する評価を考察すると、いくつかの重要なポイントが浮かび上がります。まず、PGVectorの性能と信頼性が高く評価されている点です。特にアセット管理プラットフォームでの使用例では、フィルターに頼らずにアセットをソートおよび検索できる機能が時間の節約に大きく寄与しています。これは、他のベクターデータベースと比較しても優れた特徴です。次に、IDベースのRAGにおけるSupabase Vector Storeの有用性です。ユーザーはLangChainを使用してドキュメントを処理し、OpenAI Embeddingsを生成してSupabase Vector Storeに保存することで、効率的なデータ管理を実現しています。しかし、メタデータにすべてのIDを入れる方法がSQLベースのデータベースには適していないという課題もあります。この問題に対する適切なSQLベースの解決策を見つけることが今後の課題となります。総じて、SupabaseのVector DBは高い性能と信頼性を持ち、特にPGVectorの機能が評価されていますが、SQLベースのデータベースにおけるメタデータ管理の課題を解決する必要があります。

PGVectorは信じられないほど優れています : r/Supabase - Reddit

Redditの投稿によると、PGVectorは非常に優れた機能を持っているようです。投稿者は、自身のアセット管理プラットフォーム(shelf.nu)にPGVectorを統合したことで、フィルターに頼ることなくアセットをソートおよび検索できるようになり、時間を大幅に節約できるようになったと述べています。この機能は彼らにとってゲームチェンジャーとなったそうです。

他のプロジェクトでPGVectorを使用していますか？また、Supabaseの他の拡張機能をどのように活用していますか？自身の製品に活用できる可能性がある拡張機能を探しているとのことです。

業界で広く使用されているベクターデータベースとその適用例

現在、私はChroma DBをベクターデータベースとしてプロダクション環境で使用しています。しかし、APIからの応答が遅延する問題や、セマンティック検索の結果が期待に沿わない問題に直面しています。プロダクション環境に適した堅牢なデータベースを提案していただけませんか？また、専門知識に基づく追加の洞察や推奨事項があれば教えてください。

LangChainについて

LangChainは、オープンソースのフレームワークおよび開発者ツールキットであり、プロトタイプからプロダクションまでLLM（大規模言語モデル）アプリケーションを開発者が迅速に進めることを支援します。PythonおよびJavaScriptで利用可能です。

PgvectorとSupabase

PgvectorとSupabaseの組み合わせは非常に優れた選択肢とされています。特に、ベクターデータベースとしての性能や信頼性において高い評価を受けています。

その他のリソース

この情報が、適切なベクターデータベースの選定に役立つことを願っています。

Supabase Vector StoreにおけるIDベースのRAG

SupabaseはオープンソースのFirebase代替として知られています。詳細は以下のリンクから確認できます：

ドキュメント処理とOpenAI Embeddings

ユーザーはLangChainを使用してドキュメントを処理し、その後OpenAI Embeddingsを生成してSupabase Vector Storeに保存しています。以下の画像はその例です：

ドキュメントの分離とID管理

各行は特定のドキュメントからのチャンクを示しています。ユーザーは、各ドキュメントが他のドキュメントと混ざらないようにしたいと考えています。そのために、各行にuser_idとdocument_idを追加し、LLM（大規模言語モデル）が特定のIDを持つドキュメントからのみ応答を生成するようにしたいと考えています。

メタデータの使用とSQLベースの解決策

ユーザーは多くの検索を行った結果、最も一般的な解決策としてメタデータにすべてのIDを入れる方法を見つけましたが、これはSQLベースのデータベースには適していないと考えています。以下の画像はその例です：

ユーザーはこの問題に対する適切なSQLベースの解決策を探しています。

www.reddit.com

https://preview.redd.it/id-based-rag-with-supabase-vector-store-v0-yn8fs68ohubc1.png?width=2096&format=png&auto=webp&s=283a57e7c839f8110f43d1743f8db56da056e5cd

https://preview.redd.it/id-based-rag-with-supabase-vector-store-v0-qvonjitshubc1.png?width=1440&format=png&auto=webp&s=397145eefc03cebab68f7ca4f3b1eac1e058c957

reddit.com

https://supabase.com/docs/guides/database/extensions/pgvector

shelf.nu

🏷RAGの高度な実装と最適化

RAGの高度な実装と最適化の概要

RAG（Retrieval Augmented Generation）の高度な実装と最適化に関する議論では、基本的なRAGの実装を超えて、より高度な機能や最適化手法が求められています。Redditのr/LocalLLaMAコミュニティでは、RAGを使用した質問応答ツールを次のレベルに引き上げるための具体的な機能やリソースについて議論されています。例えば、より高度な機能として、ユーザーのクエリに対する応答の精度を向上させるためのベストプラクティスや、ベクトルの作成と保存のコスト削減方法が挙げられます。また、LinkedInの記事では、RAGパターンを使用して本番用アプリを構築する際の品質、拡張性、信頼性、コストなどの考慮事項について詳しく説明されています。

RAGの高度な実装と最適化に関する考察

RAGの高度な実装と最適化における主要な問題は、応答速度、ベクトルの作成と保存のコスト、そして結果の精度です。これらの問題を解決するためには、まず応答速度を向上させるためのキャッシュ機能や並列処理の導入が考えられます。次に、ベクトルの作成と保存のコスト削減には、効率的なデータ構造や圧縮技術の利用が有効です。最後に、結果の精度を向上させるためには、トレーニングデータの品質向上やフィードバックループの導入が重要です。これらの手法を組み合わせることで、RAGの実装はより高度で最適化されたものとなり、ユーザー体験の向上が期待できます。今後の意思決定においては、これらの最適化手法を段階的に導入し、効果を検証しながら進めることが推奨されます。

Advanced RAG implementations : r/LocalLLaMA - Reddit

Redditのr/LocalLLaMAにおける

reddit.com

についての議論が行われています。具体的には、RAGを使用した'自分の文書に基づく質問応答ツール'を次のレベルに引き上げるための高度な機能についての質問があります。

Advanced RAGの実装にはどのような高度な機能がありますか？
基本的なYouTubeチュートリアルに基づいて1日で動作させることができるRAGを超えた次のレベルに質問応答ツールを進化させるための機能は何ですか？
良いリソースやGithubの実装例はありますか？

Redditコミュニティによる有益な情報交換が行われています。興味のある方はr/LocalLLaMAをご覧ください。

Secrets to Optimizing RAG LLM Apps for Better Performance ...

medium.com

が紹介されています。RAG（Retrieval Augmented Generation）が導入されてから数か月が経ちました。このパターンは、大規模言語モデル（LLM）アプリを構築するためのパターンとして紹介されています。RAGについて詳しく知りたい場合は、まずこの記事を読むことをお勧めします。RAGは、コーパスデータ（例：ファイアウォールの背後にある企業データのコーパス）をクエリし、ユーザークエリに関連する一致を見つけ、これらの結果をLLMに渡すことでコンテキストを豊かにすることができます。

RAGパターンを使用してアプリを構築する企業や開発者が増えるにつれ、本番用アプリを構築するためのいくつかのベストプラクティスが登場し、RAGが本番アプリを構築するためのより成熟したフレームワークに進化しています。この記事では、他の開発者やチームとの対話から得た情報や、RAGパターンを使用して本番用アプリを構築する際の私自身の経験に基づいて、これらのベストプラクティスとツールについて議論します。

アプリを概念を証明するために構築することと、複数のユーザーが使用するための本番用サービスやアプリを開発することは異なる取り組みです。本番用アプリを作成する際には、品質、拡張性、信頼性、コストなどの考慮事項があります。

RAGパターンにおいて考慮すべき質問は次のとおりです：

アプリ全体の応答速度はどの程度か？つまり、ユーザーが入力クエリを入力してからアプリが応答するまでの時間はどのくらいか？
ベクトルの作成と保存のコストと複雑さをどのように削減できるか？
RAGパイプラインからLLMに供給される結果の精度はどの程度か？この品質をさらに向上させる方法はあるか？

...

medium.com

article

SingleStore

steps to generate synthetic queries and responses from your data, and then use it to fine-tune a model

reddit.com

🖍 考察

調査の結果

調査の結果、精度の高いRAG（Retrieval-Augmented Generation）を実装するためのおすすめのテックスタックとVector DBについて以下の主要なポイントが明らかになりました。

テックスタックの選定:
- データベース: MongoDBとPrismaを選ぶことで、ベクトル検索とORMの機能を活用できます。
- LLMとモデル: ChaGPTとHuggingface Sentence Transformerを使用することで、高度な自然言語処理能力を持つモデルを利用できます。
- API: FastAPIを選ぶことで、高速かつスケーラブルなAPIを構築できます。
- フロントエンド: Next.jsとReactを使用し、ユーザーインターフェースにはMaterial UI、Semantic UI、Radix UIを組み合わせることで、直感的で使いやすいUIを提供できます。
- クラウド: Google Cloud PlatformとVercelを利用し、スケーラビリティと信頼性を確保します。
- ツール: LlamaIndexを使用することで、PDF文書の読み取りとチャンク作成、エンベディングの生成と保存を効率的に行えます。
SupabaseのVector DBの評判:
- 性能と信頼性: PGVectorの性能と信頼性が高く評価されています。特にアセット管理プラットフォームでの使用例では、フィルターに頼らずにアセットをソートおよび検索できる機能が時間の節約に大きく寄与しています。
- IDベースのRAG: Supabase Vector Storeの有用性が評価されていますが、メタデータにすべてのIDを入れる方法がSQLベースのデータベースには適していないという課題もあります。

これらの結果から、RAGの高度な実装と最適化における主要な問題は、応答速度、ベクトルの作成と保存のコスト、そして結果の精度であることが分かりました。

新たな推定

「調査の結果」が不十分であることを想定し、以下の推定を行います。

問題の細分化:
- 応答速度: キャッシュ機能や並列処理の導入が必要。
- ベクトルの作成と保存のコスト: 効率的なデータ構造や圧縮技術の利用が有効。
- 結果の精度: トレーニングデータの品質向上やフィードバックループの導入が重要。
合理的な仮定:
- キャッシュ機能: RedisやMemcachedを使用することで、応答速度を向上させる。
- 並列処理: マルチスレッドや分散処理を導入することで、処理速度を向上させる。
- 効率的なデータ構造: ハッシュマップやツリーデータ構造を利用することで、データの検索と保存を効率化する。
- 圧縮技術: データ圧縮アルゴリズムを使用することで、ストレージコストを削減する。
- トレーニングデータの品質向上: データクリーニングやデータ拡張技術を使用することで、モデルの精度を向上させる。
- フィードバックループ: ユーザーからのフィードバックを収集し、モデルの改善に役立てる。

未来への分析

「調査の結果」と「新たな推定」から、今後の意思決定へ活かせる分析を行います。

多角的な視点からの分析:
- 技術的視点: キャッシュ機能や並列処理の導入は、システムの応答速度を大幅に向上させる可能性があります。また、効率的なデータ構造や圧縮技術の利用は、ストレージコストの削減に寄与します。
- ビジネス視点: トレーニングデータの品質向上やフィードバックループの導入は、ユーザー体験の向上に直結します。これにより、顧客満足度が向上し、ビジネスの成長が期待できます。
統合的な洞察:
- 技術とビジネスのバランス: 技術的な最適化とビジネス的な価値提供のバランスを取ることが重要です。例えば、キャッシュ機能や並列処理の導入は初期コストがかかるものの、長期的には応答速度の向上と顧客満足度の向上に寄与します。

課題と疑問点

「未来への分析」から生じた疑問点や未解決の課題について考察します。

構造的要因:
- SQLベースのメタデータ管理の課題: SQLベースのデータベースにおけるメタデータ管理の課題は、データベースの設計やクエリの最適化に依存します。
解決策:
- データベース設計の見直し: メタデータ管理の効率化を図るために、データベース設計を見直し、適切なインデックスやパーティショニングを導入することが考えられます。

今後の調査の方向性

今回の調査における限界点を振り返り、今後さらに調査すべき新しいテーマをリストアップします。

title A: SQLベースのデータベースにおけるメタデータ管理の最適化手法
title B: キャッシュ機能と並列処理を用いたRAGの応答速度向上の実証研究
title C: トレーニングデータの品質向上とフィードバックループの効果分析
title D: ベクトルデータの圧縮技術とその実装例
title E: RAGアーキテクチャにおけるユーザー体験の向上策

これらのテーマをもとに、さらなる調査を進めることで、RAGの実装と最適化に関する理解を深めることが期待されます。

このレポートが参考になりましたか？

あなたの仕事の調査業務をワンボタンでレポートにできます。

詳細を見る

📖 レポートに利用された参考文献

検索結果: 10件追加のソース: 0件チャット: 0件

40件の参考文献から10件の情報を精査し、約50,000語の情報を整理しました。あなたは約5時間の調査時間を削減したことになります🎉

調査された文献

40件

精査された情報

10件

整理された情報量

約50,000語

削減された時間

約5時間

🏷 精度の高いRAG実装のための推奨テックスタック

Retrieval Augmented Generation (RAG) Architecture based on ...

#### RAGアーキテクチャとは Retrieval Augmented Generation（RAG）アーキテクチャは、自然言語処理（NLP）および情報検索タスクで使用されるニューラルネットワークアーキテクチャです。この革新的なモデルには、Retrieval PartとGeneration Partの2つの重要なコンポーネントがあり、これらの要素のシナジーがその機能の中心です。Retrieval Partは、広範囲のデータリポジトリから関連情報を抽出するのに優れており、Generation Partはこの取得した知識を活用してユーザーの入力に合わせた応答を生成します。 #### RAGアーキテクチャの利点 1. **幻想や誤情報を減らす**：RetrievalとGenerationの力を組み合わせることで、幻想や誤情報を減らします。RAGは、応答生成に使用されたリソースを引用する能力により、生成された応答への信頼をさらに高めます。 2. **モデルの微調整に対する費用対効果の高い代替手段**：RAGは既存のモデルを活用し、検索メカニズムを追加してモデルを拡張することができるため、企業の時間とリソースを節約します。 3. **ドメイン固有の応答を生成する能力**：RAGは、ユーザーがドメイン固有の知識ベースにアクセスできるため、ドメイン固有の応答を抽出することができます。 4. **クラウド上にRAGアーキテクチャを構築すること**：クラウド上にRAGアーキテクチャを構築することで、使用される情報がアカウント内に留まり、提供される応答が提供された情報に特化することができます。 #### RAGアーキテクチャのAWSへの実装 RAGアーキテクチャをAWS上で実装するために使用できるさまざまなサービスがあります。具体的には以下のサービスを利用することができます： - [AWS Kendra](https://aws.amazon.com/kendra/): 機械学習によって強化された正確で使いやすいエンタープライズ検索サービス。 - [AWS Bedrock](https://aws.amazon.com/bedrock/), [Antropic Claude](https://aws.amazon.com/bedrock/claude/): 高性能なファウンデーションモデル（FMs）を提供するサーバーレスサービス。 - [AWS S3](https://aws.amazon.com/s3/): AWSが提供するクラウドストレージ（オブジェクトストレージ）サービス。 - [AWS Amplify](https://aws.amazon.com/amplify/): ウェブアプリケーションのフロントエンドを迅速に展開するためのサーバーレスサービス。 - [Langchain](https://www.langchain.com/): 大規模な言語モデルを活用するためのフレームワーク。 - [DynamoDB](https://aws.amazon.com/dynamodb/): AWSが提供する完全に管理されたサーバーレスNoSQLデータベース。これらのサービスを組み合わせてRAGアーキテクチャをAWS上で構築する手順は以下の通りです。

medium.com

Full Stack Implementation to Build a RAG (Retrieval Augmented ...

In this blog, we will present a comprehensive solution for developing an RAG application using the following technology stack.

medium.com

An introduction to RAG and simple/ complex RAG | by Chia ...

#### RAGとシンプル/複雑なRAGの紹介 **RAGとは** - Language Learning Models（LLMs）の最も適用範囲の広い用途の1つであるRetrieval Augmented Generation（RAG）について議論します。 - RAGは、企業のユースケースでLLMsを活用するためのフレームワークであり、企業文書をベクトルデータベースにドラッグ＆ドロップすることで、LLMがこれらの文書に関する質問に効率的に回答できるようにします。 - 2023年には、LLMsの使用が企業アプリケーションで大幅に成長し、特にRAGと情報検索の領域で36.2%の企業がRAG技術を採用しています。 **RAGの仕組み** - RAGプロセスは、LLM、企業文書のコレクション、情報検索と回答構築のためのインフラを使用して、情報検索と回答生成を向上させます。 - RAGは、企業が既存のデータリポジトリを活用して意思決定と情報アクセスを強化するための強力なツールです。 **RAG vs ファインチューニング** - LLMsを使用してデータと対話する2つの競合するソリューションは、RAGとLLMモデルのファインチューニングです。 - ファインチューニングは、企業データを再トレーニングしてモデル構成を調整し、使用事例に合わせるプロセスです。 - 一方、RAGは、外部に保存された企業文書からデータを取得し、それをLLMに供給して回答生成をガイドします。 [参照URL](https://gradientflow.com/techniques-challenges-and-future-of-augmented-language-models/) [参照URL](https://www.researchgate.net/figure/Answering-a-multi-hop-question-over-the-relation-graph-The-relations-are-constrained_fig1_350892243)

medium.com

Retrieval-Augmented Generation (RAG): From Theory to ...

#### Retrieval-Augmented Generation (RAG): From Theory to LangChain Implementation RAG（Retrieval-Augmented Generation）は、LLM（Large Language Models）に外部知識源から追加情報を提供する概念です。これにより、より正確で文脈に即した回答を生成し、幻覚を減らすことができます。 RAGは、一般的な知識とは異なる知識を必要とする完了を生成するためにLLMを促すことが重要です。このため、外部コンテキストとLLMの一般的な知識とのギャップを埋めることが重要です。 Lewisらは2020年に、知識集約的なNLPタスクのためのRetrieval-Augmented Generationを提案しました。この手法は、生成モデルとリトリーバーモジュールを組み合わせ、より柔軟な技術を提供します。 RAGのワークフローは、以下のステップで構成されます： - **Retrieve:** ユーザークエリを使用して、外部知識源から関連するコンテキストを取得します。 - **Augment:** ユーザークエリと取得した追加コンテキストをプロンプトテンプレートに組み込みます。 - **Generate:** 最後に、取得増強プロンプトをLLMに供給します。 RAGパイプラインを構築する際には、リトリーバー、プロンプトテンプレート、LLMを連結して定義し、それを呼び出すことができます。この記事では、RAGの概念を紹介し、2020年の論文「Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks」での理論をカバーしました。Pythonでの実装も行い、[OpenAI](https://openai.com/) LLM、[Weaviate](https://weaviate.io/)ベクトルデータベース、[LangChain](https://www.langchain.com/)を使用しました。LangChainはオーケストレーションに使用されました。

towardsdatascience.com

The Emerging LLM Stack for RAG - Medium

In an open source, API-first, cloud era, is there a need for an enterprise software stack around the LLM? In other words, where is the 'ware (e.g., software or ...

medium.com

🏷 SupabaseのVector DBに対するRedditでの評価

Which vector databases are widely used in the industry and ... - Reddit

Currently, I am using Chroma DB in production as a vector database. ... Pgvector with Supabase is an absolute GOAT. ... I scraped and ranked AI courses, here are ...

reddit.com

ID-based RAG with Supabase Vector Store : r/Supabase

#### Supabase Vector StoreにおけるIDベースのRAG SupabaseはオープンソースのFirebase代替として知られています。詳細は以下のリンクから確認できます： - [Supabase公式サイト](https://supabase.com/) - [GitHubリポジトリ](https://github.com/supabase/supabase) - [Discordコミュニティ](https://discord.supabase.com) - [Twitterアカウント](https://twitter.com/supabase) #### ドキュメント処理とOpenAI Embeddings ユーザーはLangChainを使用してドキュメントを処理し、その後OpenAI Embeddingsを生成してSupabase Vector Storeに保存しています。以下の画像はその例です： ![](https://preview.redd.it/id-based-rag-with-supabase-vector-store-v0-yn8fs68ohubc1.png?width=2096&format=png&auto=webp&s=283a57e7c839f8110f43d1743f8db56da056e5cd) #### ドキュメントの分離とID管理各行は特定のドキュメントからのチャンクを示しています。ユーザーは、各ドキュメントが他のドキュメントと混ざらないようにしたいと考えています。そのために、各行にuser_idとdocument_idを追加し、LLM（大規模言語モデル）が特定のIDを持つドキュメントからのみ応答を生成するようにしたいと考えています。 #### メタデータの使用とSQLベースの解決策ユーザーは多くの検索を行った結果、最も一般的な解決策としてメタデータにすべてのIDを入れる方法を見つけましたが、これはSQLベースのデータベースには適していないと考えています。以下の画像はその例です： ![](https://preview.redd.it/id-based-rag-with-supabase-vector-store-v0-qvonjitshubc1.png?width=1440&format=png&auto=webp&s=397145eefc03cebab68f7ca4f3b1eac1e058c957) ユーザーはこの問題に対する適切なSQLベースの解決策を探しています。

reddit.com

PGVector is INSANELY Good : r/Supabase - Reddit

I'm in the research phase and debating creating a FTS or going with a vector approach, I'd be interested to know more about your implementation details.

reddit.com

🏷 RAGの高度な実装と最適化

Advanced RAG implementations : r/LocalLLaMA - Reddit

Which are some advanced features that can be implemented with RAG to take your 'Question-answering based on own documents tool' to the next level, beyond the ...

reddit.com

Secrets to Optimizing RAG LLM Apps for Better Performance ...

#### Secrets to Optimizing RAG LLM Apps for Better Performance ... [RAG LLMアプリの最適化の秘訣...](https://www.linkedin.com/pulse/comprehensive-guide-building-custom-generative-ai-enterprise-kumar) RAG（Retrieval Augmented Generation）が導入されてから数か月が経ちました。このパターンは、大規模言語モデル（LLM）アプリを構築するためのパターンとして紹介されています。RAGについて詳しく知りたい場合は、まずこの[記事](https://www.linkedin.com/pulse/comprehensive-guide-building-custom-generative-ai-enterprise-kumar)を読むことをお勧めします。RAGは、コーパスデータ（例：ファイアウォールの背後にある企業データのコーパス）をクエリし、ユーザークエリに関連する一致を見つけ、これらの結果をLLMに渡すことでコンテキストを豊かにすることができます。 RAGパターンを使用してアプリを構築する企業や開発者が増えるにつれ、本番用アプリを構築するためのいくつかのベストプラクティスが登場し、RAGが本番アプリを構築するためのより成熟したフレームワークに進化しています。この記事では、他の開発者やチームとの対話から得た情報や、RAGパターンを使用して本番用アプリを構築する際の私自身の経験に基づいて、これらのベストプラクティスとツールについて議論します。アプリを概念を証明するために構築することと、複数のユーザーが使用するための本番用サービスやアプリを開発することは異なる取り組みです。本番用アプリを作成する際には、品質、拡張性、信頼性、コストなどの考慮事項があります。 RAGパターンにおいて考慮すべき質問は次のとおりです： 1. アプリ全体の応答速度はどの程度か？つまり、ユーザーが入力クエリを入力してからアプリが応答するまでの時間はどのくらいか？ 2. ベクトルの作成と保存のコストと複雑さをどのように削減できるか？ 3. RAGパイプラインからLLMに供給される結果の精度はどの程度か？この品質をさらに向上させる方法はあるか？ ...

medium.com

📖 レポートに利用されていない参考文献

検索結果: 27件追加のソース: 0件チャット: 0件

Freshen up LLMs 'Retrieval Augmented Generation' - The New Stack

thenewstack.io

How to Connect LLM to External Sources Using RAG?

markovate.com

Retrieval augmented generation: Keeping LLMs relevant and current

Retrieval augmented generation (RAG) is a strategy that helps address both LLM hallucinations and out-of-date training data. ... Generative AI technologies are ...

stackoverflow.blog

Latest Advancements in RAG Every Developer Should Know!

Latest Advancements in RAG Every Developer Should Know! · Pavan Belagatti · An Ideal RAG Pipeline · Taxonomy of RAG Foundations · Sentence Window Retrieval · Tree ...

linkedin.com

A Guide to RAG Evaluation and Monitoring (2024)

kili-technology.com

Navigating Retrieval Augmented Generation (RAG) Challenges ...

substack.com

RAG Microservices: Getting to "AI Everywhere" | NUX.ai

nux.ai

RAG for college course catelog - DeepLearning.AI

So far, I've been considering various tools and frameworks like Flowise AI, Langchain, Pinecone, Colbert.

deeplearning.ai

RAGStack - DataStax

RagStack simplifies RAG with a streamlined, opinionated stack for Gen AI leveraging LangChain.

datastax.com

Technical Considerations for Complex RAG (Retrieval Augmented ...

In this article, we discuss various technical considerations when implementing RAG, exploring the concepts of chunking, query augmentation, hierarchies, multi- ...

substack.com

Introducing RAGStack: The new stack for production Generative AI ...

Curated software components RAGStack includes a selection of the best open-source software for implementing RAG from DataStax and LangChain, reducing the ...

datastax.com

10 Considerations: Building a Retrieval Augmented Generation ...

Building a perfect RAG stack involves considering aspects from data management to continuous operation, enterprise integration, costs, and more.

squirro.com

Will pgvector make vector databases obsolete? : r/LangChain - Reddit

With pgvector being offered via Supabase, my understanding is that traditional postgresDB can now store and search vector embeddings. Initially I saw adding ...

reddit.com

Are third party PaaS vector databases (Pinecone, Milvus, Weaviate ...

Vector database cloud services such as Pinecone, Milvus, Weaviate etc are widely recommended to use with RAG apps. The initial setup is easy, ...

reddit.com

What vector database do you use? : r/LangChain - Reddit

Supabase seems like a great solution, I'm thinking of using it, wince it's open-source as well. They have a free tier which allows you to use it for free ...

reddit.com

What do you want to know about Supabase? For real. - Reddit

You using vectors to find similiar matches is indeed a good approach so in my answer I'll just assume you wanna stick with that whilst referring back to an ...

reddit.com

PostgreSQL Vector DB vs. Native DBs : r/vectordatabase - Reddit

My question is, are there any downsides, cons, or missing features to using it as a vector db compared to native vector db such as Pinecone, Weaviate, and ...

reddit.com

I cannot (fully) recommend Supabase (yet) - Reddit

The nice part of Supabase is that it is Open Source. In the case of the database, it's almost all PostgreSQL so you can migrate your schema and even some ...