跳到主要內容區塊


圖說:廖洲棚副教授分析RAG技術應用於政府服務的優點與挑戰,圖左為AI的吉卜力風格(Studio Ghibli)特效顯示。


想了解政府單位如何用AI協助工作,同時又能兼顧資料安全嗎?政大數位治理研究中心(TEG)舉辦的「AI衝擊下的數位治理演進」研討會中,邀請到國立空中大學公共行政學系廖洲棚副教授帶大家認識超實用的「檢索擴增生成」(Retrieval Augmented Generation, RAG)技術,聊聊RAG的應用與價值,以及研究團隊在政府場域推動上的一些經驗。用最輕鬆的方式,聊最前沿的技術,一次搞懂幻覺、資安、建置成本問題,還有未來的應用趨勢!


為什麼政府需要RAG?

生成式AI(例如ChatGPT)很熱門,但當這類技術應用在政府部門時,會馬上面臨幾個重大問題:

  • 幻覺問題(Hallucination):AI有時會「胡說八道」,生成虛構或錯誤的內容。政府文件或回覆如果出現錯誤資訊,容易引發輿論質疑與信任危機。
  • 資安與機密風險:使用商業大型語言模型(LLM)時,若直接上傳內部資料,存在資料外洩風險。這是政府單位非常敏感、不能妥協的一點。
  • 技術與硬體門檻:自建像ChatGPT那樣的大模型,開發與維運成本極高,不是一般單位能負擔的。

基於這些現實考量,RAG成為一種折衷而務實的解法,它讓我們不需要自己訓練大型模型,又可以保有資料掌控權,同時提升生成內容的可信度。我們在最近的研究中,也針對RAG做了實際評估,其主要優點如下:

  • 生成內容有所本,降低幻覺風險:RAG系統生成答案時會標註「本答案參考了某文件第幾段」,大幅提高AI生成內容的可信度。惟使用者仍須留意引用片段可能誤導、過度簡化或與原意不符的情況。
  • 資料留在組織內部,保障機密性:外部大型模型只根據RAG的檢索結果拿到片段的「提示補強資料」(prompt augmentation data),不會洩露完整文件內容。
  • 建置門檻降低,可開源導入:大量的RAG相關技術已開源,技術與建置成本比自行訓練大型模型低非常多。


RAG技術簡介

RAG的直譯是「檢索擴增生成」(Retrieval Augmented Generation),RAG系統由檢索器(retriever)和生成器(generator)兩個部分組成,檢索器負責從知識庫找出相關資料,生成器則根據檢索結果與問題生成回應,這樣的雙階段設計在確保生成內容具備來源依據與語境精準性。當使用者透過RAG系統查詢問題時,系統不是直接憑空生成答案,而是先到指定資料庫「檢索」出相關內容,再根據檢索結果將最相關的內容段落(語塊),以純文字形式(text format)直接嵌入在提示(prompt)中傳給系統介接的外部生成式AI(如ChatGPT)來「生成」答案後回傳給系統。RAG技術讓AI生成的內容有所本,可有效降低語意偏離與虛構內容的風險。同時,可以控制資料來源與外傳的內容,以降低資安風險。所以,組織導入RAG系統可以靈活結合現有的內部知識,提升知識管理的實用性。RAG系統的資料庫建置及資料分析流程大致如下:

  • 建置內部資料庫:把政府機關內的大量文件收集起來,存入傳統的文件資料庫,同時另建一個「向量資料庫」(Vector Database)。向量資料庫跟傳統關聯式資料庫不同,系統會利用自然語言分析技術分析文本資料,並另行「語意切割」成語塊(chunk)且轉換為向量數值存入資料庫,向量資料通常會與對應的原始文字內容一同儲存,以便在檢索後提供可讀結果。查詢時,使用語塊向量的「餘弦相似度」(Cosine Similarity)來比對問題語意和資料庫語塊的語意接近程度。
  • 語塊(chunk)分割:將文件依token數(如256或512 tokens)切割成小段,每段之間略有重疊,以確保語意連貫。以256 tokens為例,約等於 128 個中文字。
  • 向量化處理:每個語塊會被轉換成一個「向量」,這是AI理解語意的數學表達方式。之後查詢時,就用「向量相似度」來快速找到最相關的資料。
  • 提示工程(Prompt Engineering):系統會將使用者的問題,搭配檢索到的語塊,組合成最適合丟給大型語言模型的提示,生成最合適的回答。


RAG的三大應用場景

目前RAG技術已經在業界和政府推動,主要有三個典型應用場景:

  • 企業知識管理:企業或政府部門內部,文件、規範、作業流程非常繁雜。用RAG可以快速檢索這些知識,讓新進人員或現有員工在遇到問題時,能夠快速得到正確、權威的指引。例如我參與的研究團隊在國發會的研究案中,就是以RAG技術協助建置內部知識庫。
  • 客服機器人升級版:傳統的聊天機器人(Chatbot)常常只能回答非常固定的問題,一旦使用者問得稍微靈活一點,系統就掛掉了。但用RAG的話,客服機器人能「理解問題、搜尋文件、給出精準答案」。例如捷運公司維修人員現場遇到設備故障時,可以直接問AI:「這個閥門漏氣是什麼原因?」系統就會從維修手冊中找到對應資料,直接引用,給出正確處理建議。
  • 專業知識問答與報告輔助:不只回答問題,RAG技術也能幫助快速產出專業報告、彙整資料。這對政府各單位需要快速整理政策資料、寫簡報時,非常有幫助。


政府導入RAG的挑戰

即使技術準備好了,實際推動時還是遇到一個很現實的問題,就是多數公務員或員工,對於改變作業方式的意願並不高。我們在質化訪談中發現,很多人即使知道有這樣的工具,也未必會積極使用。所以政府部門除了技術建置外,建議同時推動以下配套措施:

  • 加強教育訓練,提升使用動機。
  • 讓工具真正融入日常作業流程,降低使用門檻。
  • 持續更新系統資料,並淘汰過時資料,確保回應的正確性與時效性。

如果政府要真正有效導入生成式AI,還需要注意兩個重要的管理概念:

  • 資料治理與生命週期管理:確保知識庫資料持續更新、清理過時資料,避免系統產生「使用舊資料、產生舊答案」的問題。
  • 建構可信任的AI環境:參考國際ISO相關標準,如ISO/IEC 42001標準,促進可信賴、透明和負責的AI系統,幫助機關識別與減輕實施AI有關的風險,確保人類福祉及使用者權益,建立對AI管理的更大信心。


RAG技術的出現,為政府單位導入生成式AI帶來了更安全、更務實的選項。但RAG不是萬靈丹,必須搭配正確的資料管理策略與人員推動機制,才能在未來政府數位轉型中,扮演舉足輕重的角色。


附加檔案