當前位置：首頁 > 元宇宙 > AI

整合海量公共數據，谷歌開源 AI 統計學專家 DataGemma

來源：責編：時間：2024-10-06 09:27:05 164觀看

導讀準確的統計數據、時效性強的信息，一直是大語言模型產生幻覺的重災區。知識是現成的，但學是不可能學的。并非此身惰怠，只因現實太多阻礙。對于這個問題，谷歌在近日推出了自己籌劃已久的大型數據庫 Data Commons，以

準確的統計數據、時效性強的信息，一直是大語言模型產生幻覺的重災區。

知識是現成的，但學是不可能學的。并非此身惰怠，只因現實太多阻礙。

對于這個問題，谷歌在近日推出了自己籌劃已久的大型數據庫 Data Commons，以及在此基礎上誕生的大模型 DataGemma。

論文地址：https://docs.datacommons.org/papers/DataGemma-FullPaper.pdf

Data Commons 是一個龐大的開源公共統計數據存儲庫，包含來自聯合國（UN）、疾病控制與預防中心（CDC）、人口普查局、衛生部、環境機構、經濟部門、非政府組織和學術機構等可信來源的大量統計數據。

目前，整個語料庫包含超過 2500 億個數據點和超過 2.5 萬億個三元組。

數據有了，模型要怎么處理？本文提出了一種將 LLM 橋接到數據的通用架構，并探討了需要解決的三個問題。

首先，LLM 必須學會在適當的時機選擇，是使用存儲在模型參數中的知識，還是從外部獲取信息。

當然了，關于何時查詢外部源這件事，需要 LLM 學到自己的參數里，這可以采用多種機制來實現。

其次，需要決定應該從哪個外部源查詢所需的信息，因為可用的信息源可能很多而且是動態的。在本文中，作者直接使用單一外部信息源來包含大量數據源。

最后，一旦明確了需要哪些外部數據，LLM 就需要生成一個或多個查詢來獲取這些數據。

一般來說，不同的來源會產生不同類型的數據，如果 LLM 還要專門去學習各種 API 就有點麻煩了。因此，作者開發了用于外部數據和服務的單一通用 API。

API 的靈感來自于 Robert McCool 在 1993 年設計的 URL 參數編碼接口，雖然簡單，卻經受住了時間的考驗，是目前在網絡上最接近通用 API 的接口。

作者使用自然語言來表達查詢，返回的答案可以用 mime-type 來增強，以允許非文本答案。

搞定了這些，一個能夠充分利用最新最全外部數據的「AI 統計學家」（或者叫統計學魔術師）就誕生了。

DataGemma

對于 Data Commons 這么龐大的數據源，想要被 LLM 正常使用，需要面對一些現實的挑戰：

1. 與統計事實相關的用戶查詢可能涉及一系列邏輯、算術或比較運算。

比如「世界上排名前 5 的二氧化碳排放國是哪些國家？」；更復雜一點的比如「加利福尼亞州是世界上最大的經濟體嗎？」（這里面暗含了所比較的實體 —— 加利福尼亞州與其他國家 / 地區相比，而不是美國各州）；或者「煤發電量高的美國各州，慢性阻塞性肺病發病率也很高嗎？」（這涉及到實體和指標之間的比較）。

2. 公共統計數據包含多種模式和格式，通常需要相當多的背景上下文才能正確解釋。

之前的工作利用了兩種方法來緩解這些問題：使用工具和檢索增強生成（RAG）。

前一種方法會調整 LLM 來生成一種標記語言，能夠將自然文本與對外部工具的函數調用穿插在一起。為了對抗幻覺，工具可能會查詢數據庫或搜索引擎。

而在 RAG 中，輔助檢索系統從大型語料庫中識別與用戶查詢相關的背景知識，然后用這些知識來增強用戶的查詢。

本文作者以谷歌開源的 Gemma 和 Gemma-2 模型為基礎，分別利用檢索交錯生成（RIG）和 RAG 微調出兩個新的版本。

開源模型：https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

數據共享

Data Commons 的數據共享涉及兩項創新。

首先，研究人員花了數年時間訪問大量公開可用的數據集，追蹤數據背后的假設，并使用 Schema.org（一種用于編碼結構化數據的開放詞匯表）對它們進行規范化，最終形成了一個包含所有數據的通用知識圖譜。

其次，研究人員使用 LLM 創建一個自然語言界面，允許用戶用通用語言提出問題，并通過圖表等方式來探索龐大的數據庫。

需要明確的是，LLM 只是將查詢轉換為 Data Commons 中的詞匯表，不會與底層數據交互，也不會生成輸出，因此不必擔心出現幻覺之類的問題。

當前的方法是利用這個自然語言接口，教導 LLM 何時以及如何與 Data Commons 的接口進行通信。

對齊方面，作者采用 LIMA（一種指令調整和強化學習方法），遵循少即是多的原則，利用數量少但質量很高的一組示例，使最終任務與用戶偏好保持一致。

RIG 與 RAG

接下來介紹將 LLM 與 Data Commons 連接的兩種不同方法：

RIG

檢索交錯生成 (RIG)，是一種受使用工具啟發的方法，將 LLM 進行微調以生成自然語言數據共享查詢，然后，多模型管道將此查詢轉換為結構化數據查詢，用于從 Data Commons 數據庫檢索答案。

如上圖所示，這里擴展了 RIG 管道的步驟。首先是經過微調以生成自然語言查詢的模型；接著是后處理器，將自然語言查詢轉換為結構化數據查詢；最后一個組件是查詢機制，從 Data Commons 檢索統計答案并使用 LLM 生成。

當向 LLM 提出統計查詢時，通常會生成包含數字答案的文本（如下圖所示）。這時可以根據數字（LLM-SV）相關的上下文，在 Data Commons 數據庫中匹配最相關的值（DC-SV），作為事實檢查機制一起返回給用戶。

研究人員選擇了大約 700 個用戶查詢（對應不同的統計問題）。

對于每個問題，都會從基本模型中選擇帶有統計數據的答案（約 400 個），然后將這些響應提供給功能更強大的 LLM（Gemini 1.5 Pro），指示它圍繞統計數據點引入自然語言數據共享調用。

所使用的提示包含三個示例作為指導，要求注釋出統計值和單位，還要指示數據共享調用包括地名、指標和日期等。最后會進行人工審查，并手動重寫不符合要求的數據共享調用。

為了評估單個測試查詢響應，這里需要子字符串級別的詳細反饋。研究人員采用了上圖所示的可視化工具。

人工評估人員能夠瀏覽所有查詢，并檢查每個查詢響應中的所有 Data Commons 調用，首先快速檢查是否存在任何明顯的事實不準確之處，然后對響應中存在的每項統計數據進行評估。

上表顯示了 RIG 方法的事實準確性指標（Data Commons 中的統計數據與 101 個查詢中的 LLM 響應進行比較的情況）?？傮w而言，RIG 方法提高了真實性，從 5-17% 提高到約 58%。

RAG

RAG 管道同樣包含多個組件。首先，用戶查詢被傳遞到一個小型的、經過微調的 LLM，它會生成與用戶查詢相關的自然語言查詢；然后，通過 Data Commons 的自然語言接口來獲取相關的表；最后，將原始用戶查詢和檢索到的表交給長上下文 LLM（Gemini 1.5 Pro）。

原始用戶查詢以及結果表可能會相當長。例如，比較查詢可能包括來自美國所有 50 個州或全球 194 個國家的多個表的多年數據。

在綜合查詢集中，平均輸入長度為 38,000 個 token，最大輸入長度為 348,000 個 token。由于輸入量很大，因此必須使用長上下文 LLM，用戶響應如上圖所示。

對于 RAG 方法，人類評估者評估 LLM 生成的細粒度問題及其相應的數據共享響應的質量。首先驗證是否生成了足夠且相關的問題來解決用戶查詢（上圖）；然后評估每個單獨問題的質量及其相應的數據共享響應（下圖）。

下表的結果表明，LLM 在引用數字時通常是準確的 (99%)，當根據這些說法進行推論時，準確性會下降，在 6-20% 的時間內得出錯誤的推論。

參考資料：

https://venturebeat.com/ai/datagemma-googles-open-ai-models-mitigate-hallucination-on-statistical-queries/

本文鏈接：http://www.rrqrq.com/showinfo-45-8033-0.html整合海量公共數據，谷歌開源 AI 統計學專家 DataGemma

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：[email protected]

上一篇： macOS 原生版 Perplexity 本月 15 日上線：AI 顛覆搜索體驗，重塑蘋果 Mac 用戶知識管理

下一篇： OpenAI 推出全新寫作、編碼工具 ChatGPT Canvas，將免費開放

標簽：

熱門焦點

數字人的新革命，BAT的“沖高”戰場

來源：劉曠ChatGPT橫空出世，讓人們看到了數字人的另一種可能，將ChatGPT與虛擬數字人融合，研發出更加智能化、擬人化的虛擬數字人成為數字人廠商的新命題、新方向。2月份，嶺南股份
“任何國產元宇宙都是假元宇宙”

上個月，華語樂壇的優質偶像之一，DOTA2資深玩家林俊杰，在國外元宇宙產品分布式大陸(Decentraland)上買了三塊虛擬地產，花了12.3萬美元（也就是人民幣接近80萬）。截至目
Niantic與索尼在音頻AR領域達成合作；?蘋果為Apple Park申請形象化商標

今日熱點：迪士尼任命新高管負責元宇宙業務；iFixit成為Valve Index VR頭顯和Steam Deck首家零件銷售商；Niantic與索尼達成合作，將為AR游戲《Ingress》帶來音頻體驗；V
2022年中國元宇宙系列報告：底層架構研究：虛擬引擎，擎動未來

“虛擬引擎是元宇宙平臺搭建的基本工具。在這樣的條件下，虛擬引擎擁有了廣闊的市場空間。也需要虛擬引擎擁有擁有強大的處理能力，能夠高效快速的實現大量交互場
從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

對于大部分年輕人來說，剛剛過去的春節有一個詞語突然成為了品牌宣傳的流行語，作為從NFT中衍生出來的“數字藏品”一時間獲得了不少品牌青睞，他們紛紛推出自己的數
Meta公布AI概念“Builder Bot”；銀保監發布元宇宙相關風險提示

概述自從Meta在2月初公布財報后，其負責元宇宙的核心部門Reality Labs表現不佳，凈虧損超100億美元，隨后股價斷崖式下跌。如今，Meta開始繼續發力元宇宙，想要挽回頹勢，
NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

Hayley Rincon是一位令人印象深刻才華橫溢的創作者，她的作品呈現出迷幻的氣息。今天就來聊聊她的藝術作品，和她自己的數字藝術之路。Hayley是加利福尼亞灣區的有
量子計算在未來能否提高區塊鏈技術的效率

區塊鏈技術的主要成功之處在于對不透明的金融流程進行了去中心化的訪問量子計算機的內在目標是解決傳統計算機不可能解決的問題隨著區塊鏈技術的使用案例逐漸
以太坊面臨來自Fantom的巨大挑戰

眾所周知，區塊鏈和加密貨幣項目經常因其對環境的影響而受到批評。但是有一個非營利性的加密貨幣和區塊鏈項目說它比其他的更環保。今天老雅痞就給大家聊一聊加

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

整合海量公共數據，谷歌開源 AI 統計學專家 DataGemma

數字人的新革命，BAT的“沖高”戰場

“任何國產元宇宙都是假元宇宙”

Niantic與索尼在音頻AR領域達成合作；?蘋果為Apple Park申請形象化商標

2022年中國元宇宙系列報告：底層架構研究：虛擬引擎，擎動未來

從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

Meta公布AI概念“Builder Bot”；銀保監發布元宇宙相關風險提示

NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

量子計算在未來能否提高區塊鏈技術的效率

以太坊面臨來自Fantom的巨大挑戰

最新推薦

搶先推出“元宇宙”飲料，可口可樂贏麻了

一個視頻漲粉百萬，柳夜熙們能成為元宇宙的“船票”嗎？

【申萬宏源】必然的碎片化AI落地，哪種路徑可能勝出？ | 元宇宙Meta洞見

“元宇宙”里過大年，《迷你世界》在做一場怎樣的實驗？

Niantic與索尼在音頻AR領域達成合作；?蘋果為Apple Park申請形象化商標

紐約證券交易所母公司ICE收購tZero股份以探索代幣化股票

猜你喜歡

熱門推薦

相關資訊

整合海量公共數據，谷歌開源 AI 統計學專家 DataGemma

最新推薦

猜你喜歡

熱門推薦

相關資訊

整合海量公共數據，谷歌開源 AI 統計學專家 DataGemma