什麼是擷取增強生成 (RAG)？

了解擷取增強生成 (RAG) 技術如何改善大型語言模型 (LLM) 所生成之回應的正確性和相關性。

組建智慧型應用程式開始使用 Azure

擷取增強生成的意義

擷取增強生成是一種 AI 架構，會從外部來源擷取相關資訊，以指導和增強回應的生成。相較於單純使用生成式模型，這個雙重功能可讓 RAG 系統產生包含廣泛知識且更細微的輸出。

重要心得

RAG 結構能透過將預先訓練的生成集與擷取的外部知識接地，來讓 AI 系統產生包含廣泛知識且可靠的內容。

RAG 的優勢使其成為一種強大的技術，可用於建立更精準、更可靠、功能更多的 AI 系統，並在跨領域、產業和工作有廣泛的應用。

開發人員會使用 RAG 來組建 AI 系統，該系統可以產生與正確資訊接地的内容，從而產生更可靠、內容感知和以使用者為中心的應用程式。

RAG 系統結合了擷取和生成，因此是個功能強大、適用於各種應用程式、產業及使用案例的工具。

隨著 RAG 模型的不斷發展，無論是在客戶服務還是研究和內容創建的各種應用程式中，RAG 都預期會扮演至關重要的角色。

由於 RAG 加强了擷取和生成之間的整合，它在 LLM 的未來中肯定會扮演重要的角色。

RAG：運作方式與重要性

RAG 的運作方式

擷取增強生成結合兩種技術。第一，它會從資料庫、文件或網路等來源擷取資訊。收集這些資訊之後，便會使用這些資訊來指導回應的生成。這個方法善用了擷取和生成技術的優勢，確保回應的正確、相關，並透過可用的最新和特定資訊豐富內容。

RAG 對 AI 的重要性

在提升 AI 功能方面，RAG 扮演了重要的角色，反映了對於更智慧和內容感知系統的趨勢，可有效地將大量資訊與複雜的生成功能結合。以下是 RAG 成為 AI 基礎的關鍵原因:

增強正確性：透過整合外部知識來源，RAG 大幅提高 LLM 產生的回應的正確性和相關性。

內容相關性：RAG 允許 AI 系統擷取與要求相關的特定資訊，產生內容相關性更適當的回應。
成本效益：相較於使用新資料持續重新訓練 LLM，實作 RAG 更有效率。
透明度：透過提供回應中使用資訊的來源，RAG 增強了可信度和信任。
多樣性：RAG 可以套用至各種領域 (例如醫療保健、教育與財務部門) 並用於客戶服務、研究及內容建立等目的。
改善體驗：RAG 技術透過提供更精準及相關的回應，為使用者帶來更滿足且更有效率的互動。

RAG 結構

RAG 系統的結構是兩個主要模組加上熔斷機制的組合，它們一起合作並產生正確且內容相關的輸出。RAG 模組可以端對端訓練，讓演算法能夠共同最佳化擷取和生成，產生更多包含廣泛知識且可靠的結果。

以下是 RAG 結構的運作方式:

擷取模組會搜尋大型資料集，以根據查詢尋找最相關的資訊。

擷取之後，產生器模組會使用所擷取的資訊做為額外內容，以產生一致且相關的回應。一般來說，產生器模組是預先訓練的語言模型，例如生成式預先訓練轉換器 (GPT) 或雙向和自動迴歸轉換器 (BART)，這些模型已經過微調以根據輸入和所擷取的資訊產生文字。

融合機制確保所擷取的資訊在生成流程中有效地合併在一起。模組之間的這種互動可讓 RAG 系統藉由讓生成集與擷取的知識接地，來產生包含廣泛知識且可靠的內容。

RAG 有哪些優點？

改善 AI 的強大結構

開發人員使用 RAG 結構來建立更準確、可靠且多功能的 AI 系統，可在各個產業和工作有廣泛的應用。RAG 的優點包括:

提高正確性、相關性和內容精確度：透過擷取相關文件或資料，RAG 會確保產生的輸出與實際和相關資訊接地，改善回應的整體正確性和相關性。
透過基於事實的生成來減少幻覺：RAG 降低了產生人工幻覺的可能性 - 產生看似合理但不正確的資訊 - 讓生成式模型的輸出基於實際擷取的內容，進而產生更值得信賴的結果。
在具有廣泛知識獲取能力的開放領域工作中表現較佳：RAG 在開放領域問題解答和類似工作方面表現出色，能夠有效地從大量多樣的來源擷取資訊，使其能夠有深度和廣度地處理各式各樣的主題。
可擴縮性和處理大型知識庫的能力：RAG 能夠有效率地從大型資料集搜尋和擷取相關的資訊，使其可調整並適用於需要大量知識存取的應用程式。NOSQL 資料庫讓 RAG 模型利用大量資料來產生內容豐富的回應。
自訂與特定領域應用：RAG 模型適應性強且可針對特定領域微調，讓開發人員能夠建立專為特定產業或工作量身打造的特殊 AI 系統，例如法律建議、醫療診斷或財務分析。
互動與適應性學習：透過以使用者為中心的調整，RAG 系統可以從使用者互動中學習、隨著時間擷取更相關的資訊，並調整其回應以更符合使用者需求、改善使用者體驗和參與度。
多樣性與多模態整合：您也可擴充 RAG，使其能與多模態資料 (文字、影像、結構化資料) 搭配使用，強化生成時所使用資訊的豐富性和多樣性，並擴大模型的應用。
以資訊支撐的寫作，提升內容創作效率：RAG 提供了功能強大的工具，透過擷取相關事實和參考資料，確保產生的內容不僅具有創意，還能正確且包含廣泛的知識。

RAG 最常見的應用有哪些？

多樣的不同應用

擷取增強生成是一種適應性強、功能多樣的 AI 結構，具有跨領域和產業的一系列使用案例。以下是 RAG 主要的應用:

開放領域問題解答 (ODQA)
使用案例：RAG 在 ODININ 系統中十分有效，使用者幾乎可以詢問任何主題的問題。
範例：客戶支援聊天機器人會使用 RAG 從大型知識庫或常見問題中擷取資訊，以提供正確的答案。
特定領域的特殊查詢
使用案例：就法律產業來說，RAG 可以透過擷取相關文件，協助分析和產生判例法、先例和法規的摘要。
範例：法律助理工具針對特定用途擷取和摘要文件。
内容摘要
使用案例：RAG 可透過擷取相關資訊並將資訊整合至生成的文字中，以協助產生高品質的內容，例如虛擬助理會議記錄，或文章、報告或部落格文章的摘要。
範例：記者使用 RAG 從各種來源提取關鍵詳細資料以產生最近新聞文章的摘要。
個人化建議
使用案例：RAG 可透過擷取使用者特定的資訊，並產生個人化建議來增强建議系統。
範例：電子商務平台使用 RAG 以根據使用者的瀏覽歷程記錄與喜好設定建議產品，提供從相關產品評論或描述中產生的說明。
複雜案例分析和內容建立
使用案例：混合式 RAG 模型可從多個複雜來源擷取相關的資料、文件或新聞，以產生並合成詳細的報告或分析。
範例：財務分析工具擷取並摘要最近的市場趨勢、歷史財務資料、股票績效、專家評論及經濟指數，以產生投資預測、分析或報告。
研究資訊和合成
使用案例：研究人員可以使用 RAG 從學術論文、報告或資料庫擷取和合成資訊，促進評論和研究專案。
範例：學術工具透過提取各種研究的重要發現，產生相關研究論文的摘要。
多語言和跨語言應用
使用案例：RAG 可部署在多語言環境中，以擷取不同語言的資訊並產生跨語言內容。
範例：翻譯工具翻譯文字，同時也會擷取文化相關的資訊，以確保翻譯內容相關適當。

RAG 將為明日的 AI 提供動力

增強 AI 輸出的精確度

透過加强擷取和生成流程之間的整合，擷取增強生成在 LLM 的未來中肯定會扮演重要的角色。此領域的預期進展將會導致這些元件更順暢且複雜地融合，讓 LLM 在更廣泛的應用程式和產業之間提供高度精確且內容相關的輸出。

隨著 RAG 持續演進，我們可以預期它在個人化教育等新領域中的採用，其中它可以根據個別需求量身打造學習體驗，並利用先進的研究工具，為複雜的查詢提供精確且全面的資訊擷取。

解決目前的限制 (例如改善擷取正確性和減少偏差) 對於 RAG 系統發揮最大潛力來說十分關鍵。RAG 的未來反覆項目可能會提供更具互動性與內容感知的系統，透過動態適應使用者輸入，增強使用者體驗。

此外，開發使用電腦視覺整合文字、影像及其他資料類型的多模式 RAG 模型，將擴大並開啟更多可能性，讓 LLM 更具功能性且更強大。

資源 

使用 Azure AI 服務組建

開始使用

Azure 資源

導覽 Azure 資源中心

觀看使用方法影片、檢視白皮書和分析師報告、探索訓練與活動，以及取得案例研究、程式碼範例和解決方案結構。

了解 Azure

Microsoft Learn

探索 AI 學習中樞

透過自定進度的教學、虛擬培訓活動以及專為您的特定角色設計的面對面課程來培養您的 AI 技能。

開始學習

學生開發人員

快速開啟您的科技職涯

透過學生專屬工具和計畫來達成更多目標。存取影片、教學課程、免費工具及社群計劃。

探索學生資源

常見問題集

擷取增強生成 (RAG) 是一種 AI 技術，結合了擷取模型與生成模型。它會從資料庫或文件組擷取相關資訊，並使用資訊產生更準確且內容更相關的回應。此方法可強化 AI 產生之文字的品質，方法是將 AI 產生的文字與現實世界的資料接地，讓它對於回答問題、摘要及內容創建等工作更爲實用。
RAG 會透過納入外部資料來改善 AI 生成的內容。它會從資料庫擷取相關資訊，然後使用該資料產生更準確且內容感知的回應。此流程可確保 AI 系統的輸出包含廣泛知識且更可靠。
RAG 會將大型語言模型 (LLM) 與擷取機制結合。LLM 會根據預先訓練的資料產生文字，而 RAG 則透過從外部來源即時擷取相關資訊來增強這一點，從而提高正確性和相關性。基本來說，LLM 會依賴學習的模式，而 RAG 則會主動提取最新資訊來為其回應提供知識。

探索 Azure 入口網站