1 月 15 日消息,周二,在一場涉及 Meta 的人工智能版權案件(Kadrey 訴 Meta 案)中,法院公開了 Meta 高管和研究人員的內(nèi)部通信記錄。這些文件顯示,Meta 在開發(fā)其最新 AI 模型 Llama 3 的過程中,高管和研究人員將超越 OpenAI 的 GPT-4 視為核心目標,并在內(nèi)部討論中表現(xiàn)出極強的競爭意識。

Meta 生成式 AI 副總裁 Ahmad Al-Dahle 在 2023 年 10 月發(fā)給研究員 Hugo Touvron 的消息中表示:“說實話…… 我們的目標必須是 GPT-4。我們即將擁有 64,000 個 GPU!我們必須學會如何構建前沿技術并贏得這場競賽。”
盡管 Meta 一直以開源 AI 模型著稱,但其 AI 團隊顯然更關注如何超越那些不公開模型權重的競爭對手,例如 Anthropic 和 OpenAI。Meta 的高管和研究人員將 Anthropic 的 Claude 和 OpenAI 的 GPT-4 視為行業(yè)標桿,并以此為目標努力。
在內(nèi)部討論中,Meta 對法國 AI 初創(chuàng)公司 Mistral 的態(tài)度顯得不屑一顧。Mistral 是 Meta 在開源領域的主要競爭對手之一,但 Al-Dahle 在消息中直言:“Mistral 對我們來說不值一提。我們應該能做得更好?!?span style="display:none">4aU28資訊網(wǎng)——每日最新資訊28at.com
當前,科技公司正競相推出尖端 AI 模型,而 Meta 的內(nèi)部通信進一步揭示了其 AI 領導層的高度競爭心態(tài)。在多次交流中,Meta 的 AI 負責人提到,他們在獲取訓練 Llama 模型所需數(shù)據(jù)時表現(xiàn)得“非常激進”。一位高管甚至在一封內(nèi)部郵件中表示:“Llama 3 幾乎是我唯一關心的事情。”
然而,這種激進的競爭策略也引發(fā)了法律問題。本案檢察官指控 Meta 高管在匆忙推出 AI 模型的過程中,存在使用受版權保護的書籍進行訓練的行為。Touvron 在一份消息中指出,用于訓練 Llama 2 的數(shù)據(jù)集“質(zhì)量不佳”,并討論了如何通過優(yōu)化數(shù)據(jù)源來提升 Llama 3 的表現(xiàn)。隨后,Touvron 和 Al-Dahle 討論了使用 LibGen 數(shù)據(jù)集的可能性,該數(shù)據(jù)集包含 Cengage Learning、Macmillan Learning、McGraw Hill 和 Pearson Education 等出版商的受版權保護作品。Al-Dahle 在消息中問道:“我們是否有合適的數(shù)據(jù)集?有沒有什么數(shù)據(jù)是你想用卻因為某些愚蠢的原因無法使用的?”
注意到,Meta 首席執(zhí)行官馬克?扎克伯格此前曾表示,他正致力于縮小 Llama 模型與 OpenAI、谷歌等公司的閉源模型之間的性能差距。內(nèi)部消息顯示,公司內(nèi)部為實現(xiàn)這一目標承受了巨大壓力。扎克伯格在 2024 年 7 月的一封信中寫道:“今年,Llama 3 已經(jīng)能夠與最先進的模型競爭,并在某些領域處于領先地位。從明年開始,我們預計未來的 Llama 模型將成為行業(yè)中最先進的?!?span style="display:none">4aU28資訊網(wǎng)——每日最新資訊28at.com
2024 年 4 月,Meta 正式發(fā)布了 Llama 3。這款開源 AI 模型在性能上與谷歌、OpenAI 和 Anthropic 的閉源模型不相上下,并超越了 Mistral 的開源模型。然而,Meta 用于訓練模型的數(shù)據(jù) —— 盡管扎克伯格據(jù)稱批準使用這些數(shù)據(jù),但其版權狀態(tài)存疑,正在多起訴訟中面臨審查。
本文鏈接:http://www.rrqrq.com/showinfo-45-9478-0.html為超越 OpenAI GPT-4,Meta 不惜使用爭議數(shù)據(jù)訓練 Llama 3
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:[email protected]