国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

陶哲軒提前實測滿血版 OpenAI o1:能當研究生使喚

來源: 責編: 時間:2024-09-19 16:23:32 130觀看
導讀 原來早在 8 月份,陶哲軒就已經用上了 OpenAI o1。還是現在大家都用不上的滿血版本(眼淚不爭氣地從嘴角流出來)。提前批大佬是怎么玩最新天花板的呢?他向 o1 模型提出一個措辭模糊的數學問題,發現它竟然能成功識別

原來早在 8 月份,陶哲軒就已經用上了 OpenAI o1。還是現在大家都用不上的滿血版本(眼淚不爭氣地從嘴角流出來)。Uc128資訊網——每日最新資訊28at.com

提前批大佬是怎么玩最新天花板的呢?Uc128資訊網——每日最新資訊28at.com

他向 o1 模型提出一個措辭模糊的數學問題,發現它竟然能成功識別出克萊姆定理。Uc128資訊網——每日最新資訊28at.com

而且答案是“完全令人滿意的”那種。Uc128資訊網——每日最新資訊28at.com

當然,陶哲軒還做了一些其它測試,測下來總體體驗就是:Uc128資訊網——每日最新資訊28at.com

比以前的模型更牛,多堆點提示詞表現還不錯,但仍然會犯不小的錯誤,也沒有產生啥自己的思想。Uc128資訊網——每日最新資訊28at.com

陶哲軒是這樣形容的:Uc128資訊網——每日最新資訊28at.com

這種感覺,就像給一個平庸無奇但又有點小能力的研究生提供建議。Uc128資訊網——每日最新資訊28at.com

不過,這已經比以前的模型有所改進,因為以前的模型的能力更接近于實際上不稱職的研究生。Uc128資訊網——每日最新資訊28at.com

但如果給以前的模型加點助力,比如計算機代數包和證明輔助工具啥的,改進一兩次,就能實現進一步迭代,搖身一變,成為“有能力的研究生”。Uc128資訊網——每日最新資訊28at.com

Uc128資訊網——每日最新資訊28at.com

陶哲軒對使用體驗的這個神奇比喻在 HackerNews 等多個平臺引起了激烈討論。Uc128資訊網——每日最新資訊28at.com

有網友憤憤:GPT 是什么 **!我承認 LLMs 對寫代碼有很大幫助,但事實上有一些非常好的工具可以幫助解決這一問題,例如代碼片段、模板和代碼生成器。Uc128資訊網——每日最新資訊28at.com

有人就用陶哲軒的話回應了他:Uc128資訊網——每日最新資訊28at.com

“任何聰明到足以以編程為生的人,智商都足以成為一個平平無奇但又小有能力的數學研究生。”Uc128資訊網——每日最新資訊28at.com

Uc128資訊網——每日最新資訊28at.com

陶哲軒實測 ChatGPT vs o1

陶哲軒展示了他自己的三輪測試。Uc128資訊網——每日最新資訊28at.com

第一輪,用去年 3 月份測試 ChatGPT 的題目,要求大模型回答一個措辭含糊的數學問題,只要從文獻中找出一個合適的定理(克萊姆法則)就能解決。Uc128資訊網——每日最新資訊28at.com

Say I have a positive measure whose closure(support) = some compact convex subset S. I convolve n times to get a measure on nS. Scale down by n, take log, divide by n, take the limit to get some rounded thing on S. Does it depend on the original measure?Uc128資訊網——每日最新資訊28at.com

Uc128資訊網——每日最新資訊28at.com

當時,ChatGPT 倒是有模有樣地回答了,期間還提到了一個高度相關的術語:對數矩生成函數,甚至在給出的答案中還討論了一個具體的例子。不過不能注意細節,全是幻覺,而且答案也是錯的。Uc128資訊網——每日最新資訊28at.com

這一次,同樣有模有樣,但相較之下更有條理(更長還有大小標題區分度)。Uc128資訊網——每日最新資訊28at.com

最重要的是,o1 成功找到了克萊姆定理,并給出了完全令人滿意的答案。Uc128資訊網——每日最新資訊28at.com

Uc128資訊網——每日最新資訊28at.com

ps,看記錄,早在 8 月份陶哲軒就用上了 o1。Uc128資訊網——每日最新資訊28at.com

Uc128資訊網——每日最新資訊28at.com

第二輪,上一點難度,挑戰復雜分析研究生課程的一個問題。Uc128資訊網——每日最新資訊28at.com

(之前他用來測試 GPT-4 的,要求他來協助編寫一個證明)Uc128資訊網——每日最新資訊28at.com

Uc128資訊網——每日最新資訊28at.com

結果這次陶哲軒的結論是,是要比之前 GPT-4 好些,但仍有點失望。Uc128資訊網——每日最新資訊28at.com

如果提供大量的提示和鼓勵,新模型可以通過自己的努力得到一個正確的(而且寫得很好的)解決方案,但它自己并沒有產生關鍵的概念想法,而且確實犯了一些非同小可的錯誤。Uc128資訊網——每日最新資訊28at.com

光看到這幾輪提示交互,確實是有點不滿意的。Uc128資訊網——每日最新資訊28at.com

也難怪陶哲軒代入自己,把調教 o1 像是在教一個平庸、但又不是完全不稱職的研究生。Uc128資訊網——每日最新資訊28at.com

Uc128資訊網——每日最新資訊28at.com

Uc128資訊網——每日最新資訊28at.com

Uc128資訊網——每日最新資訊28at.com

緊接著來第三輪測試,這一次是要求將質數定理的一種形式轉化為 Lean 中的定理形式,方法是將其分解為若干個子問題分別描述,但不給出證明。Uc128資訊網——每日最新資訊28at.com

Uc128資訊網——每日最新資訊28at.com

結果模型很好地理解了這個任務,并進行了合理的初步分解,不過代碼中出現了幾個小錯誤。Uc128資訊網——每日最新資訊28at.com

Uc128資訊網——每日最新資訊28at.com

陶哲軒解釋道,這是由于訓練時缺乏有關 Lean 及其數學庫的最新信息。Uc128資訊網——每日最新資訊28at.com

并表示,如果能專門針對 Lean 和 Mathlib 進行微調,并集成到一個 IDE 中,那應該會對公式化項目很有用。Uc128資訊網——每日最新資訊28at.com

在研究數學層面的實用性在增加

用大模型來搞研究,其實已經飛入尋常百姓家了。Uc128資訊網——每日最新資訊28at.com

一位賬號名為 wenc 的網友分享了 ta 使用大模型來做研究的經歷。Uc128資訊網——每日最新資訊28at.com

wenc 從事著運籌學相關的工作,而 OpenAI 的模型們,從 GPT 4o 開始,就吸收了足夠多的運籌學數據,能夠輸出很多非常有用的混合整數規劃(MIP)公式。Uc128資訊網——每日最新資訊28at.com

舉個栗子:Uc128資訊網——每日最新資訊28at.com

給 4o 一個邏輯問題,如“我需要根據分數將 i 個項目放入 n 個桶中,但我想按順序填充每個桶”,4o 會輸出一個非常有用的數學公式。Uc128資訊網——每日最新資訊28at.com

通常情況下,只需要把公式微調一下就能完全搞定問題了。Uc128資訊網——每日最新資訊28at.com

此外,一些 prompt 太弱了的時候,4o 還會預警:這可能導致輸出不盡如人意 —— 可以說對避免無效回答非常有用了。Uc128資訊網——每日最新資訊28at.com

回過頭看咱還用不上大模型的時候,傳統方法是需要大家在周末絞盡腦汁,試圖找出有關 MIP 優化問題的無懈可擊的公式。Uc128資訊網——每日最新資訊28at.com

對于非直觀問題來說,這一點通常都令人頭禿。Uc128資訊網——每日最新資訊28at.com

wenc 很堅定地表示,每月從 ChatGPT 上獲得的價值,遠遠超出了 20 美元(每月訂閱費用)。Uc128資訊網——每日最新資訊28at.com

一旦 GPT 在 Lean 上得到更多調整 —— 就像在 Python 上一樣 —— 我預計它在研究數學層面的實用性會有提升。Uc128資訊網——每日最新資訊28at.com

wenc 還對那些抱怨 Claude 和 GPT 最新模型不好用的網友進行了分析:Uc128資訊網——每日最新資訊28at.com

不知道如何最大化自己的優勢來使用大模型們;Uc128資訊網——每日最新資訊28at.com

把大模型想得無所不能,抱著“這玩意兒是解決一切的靈丹妙藥”的期待;Uc128資訊網——每日最新資訊28at.com

大模型確實在他們的領域不適用。Uc128資訊網——每日最新資訊28at.com

wenc 在最后弱弱補了一句,很多抱怨的人,其實都是屬于前兩種啦~~~Uc128資訊網——每日最新資訊28at.com

陶哲軒回應爭議

盡管大多數網友都覺得大模型能幫助自己省下許多功夫,還是有人對陶哲軒“調教大模型如同調教不咋靠譜的研究生”的言論,充滿了疑惑和不解。Uc128資訊網——每日最新資訊28at.com

有網友在陶哲軒的 mathstodon 底下留言:Uc128資訊網——每日最新資訊28at.com

親,也許你可以展開說說“研究生”這塊不?Uc128資訊網——每日最新資訊28at.com

我理解一下子,你的意思是 o1 之前大模型放在 Lean 微調,再結合計算機代數包,那輸出效果就可以媲美研究生水平?Uc128資訊網——每日最新資訊28at.com

簡單點來說,這種情況下的大模型能夠解決一些新發現的重要課題?Uc128資訊網——每日最新資訊28at.com

Uc128資訊網——每日最新資訊28at.com

陶哲軒倒是很及時地回復了這條評論。Uc128資訊網——每日最新資訊28at.com

他表示,他正在考慮一個具體的指標,即“助手能夠在專家數學家的指導下,協助完成復雜數學研究項目中的一個或多個具體任務”的程度。Uc128資訊網——每日最新資訊28at.com

一個有能力的研究生可以為這樣的項目作出貢獻,且這種貢獻比“讓學生加快項目進度并監督他們出了幾成力”更有價值。Uc128資訊網——每日最新資訊28at.com

不過,即使使用最新的工具,讓大模型輸出正確且有用的回答,其實比輸入精準 prompt 和驗證結果都要難多了 —— 當然,這之間的差距并不是特別巨大,前者大概要難個 2-5 倍的樣子。Uc128資訊網——每日最新資訊28at.com

陶哲軒表示自己有理由相信,未來幾年內,這個差距會降低到 1 倍以內(其實有些特定子任務,比如語義搜索、數據格式化或生成數字代碼以協助數學研究探索,這個比率已經低于 1 了)。Uc128資訊網——每日最新資訊28at.com

他視“差距降到 1 倍以內”為數學領域將更廣泛采用這些的轉折點。Uc128資訊網——每日最新資訊28at.com

至于“研究生水平”嘛 ——Uc128資訊網——每日最新資訊28at.com

陶哲軒表示,自己這么說,只是為了方便大家感知啦!Uc128資訊網——每日最新資訊28at.com

雖然大模型可以協助研究人員完成當前的項目,但培養研究生的目的,是為了以后有更多的下一代獨立研究者。Uc128資訊網——每日最新資訊28at.com

“我無意暗示研究生學習的各個方面,與數學中 AI 輔助的各個方面之間存在一一對應的關系。”Uc128資訊網——每日最新資訊28at.com

Uc128資訊網——每日最新資訊28at.com

One More Thing

最后,分享一則陶哲軒這個話題下,我們發現網友討論出的、呼聲挺高的一個結論 ——Uc128資訊網——每日最新資訊28at.com

雖然很難量化學會用大模型到底省了多少時間,但隨著一個人提示詞工程能力的提升,大伙兒能用更少的時間得到更好的效果。Uc128資訊網——每日最新資訊28at.com

但是!Uc128資訊網——每日最新資訊28at.com

顯而易見,大模型的價值是因人而異的,它幾乎取決于每個人的提示詞水平。Uc128資訊網——每日最新資訊28at.com

呃,羞愧中……Uc128資訊網——每日最新資訊28at.com

不說了,過什么中秋節假期,咱這就去精進自己的 prompt 技巧去!Uc128資訊網——每日最新資訊28at.com

參考鏈接:Uc128資訊網——每日最新資訊28at.com

[1]https://mathstodon.xyz/@tao/113132502735585408Uc128資訊網——每日最新資訊28at.com

[2]https://news.ycombinator.com/item?id=41540902Uc128資訊網——每日最新資訊28at.com

[3]https://mathstodon.xyz/@tao/109948249160170335Uc128資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:白小交衡宇Uc128資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-7486-0.html陶哲軒提前實測滿血版 OpenAI o1:能當研究生使喚

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: 消息稱字節跳動計劃與臺積電合作,2026 年前量產兩款自主設計 AI 芯片

下一篇: 專家警告:AI 能耗巨大,加劇氣候危機

標簽:
  • 熱門焦點
  • 比特幣的價格越高,使用價值越大

    隔夜比特幣還是在精準地橫盤在42k上方。空頭昨日試圖發起一波小的攻勢,但是晚上就被多頭掰了回來。以太坊的鏈上gas price降到了60 gwei以下,彰顯著市場活躍度的
  • Layer1的新以太坊,更好的以太坊?

    以太坊作為區塊鏈基礎設施地位看起來已不可動搖,但也面臨著費用高、效率低、偏離去中心化初衷等問題。平臺上既得利益群體的形成和固化也逐漸讓革新變得困難。
  • 智能人機交互技術的春晚大考

    1月初的一個早晨,京東智能客戶服務產品部緊急開會,進行關于尚未對外公布的“X項目”的初討論。1月5日,這個神秘的X項目對外公布,京東成為央視2022年春晚獨家互動合
  • 從虛擬餐廳到虛擬時裝秀,行業巨頭掀起元宇宙商標注冊潮

    自從 Facebook 更名為 Meta 后,關于元宇宙的討論愈發激烈,這一詞匯也越來越多的出現在我們的視野里。這是一個非常有趣的話題。伴隨著爭論,有些人認為是馬克·扎
  • 吸金31億美元,誰在催火2021年的鏈游?

    2021年究竟發生了什么,才使得鏈游領域在這年一飛沖天?作者:廖羽2022年2月16日,Invest Game發布《2021年全球游戲投資報告》,報告顯示,游戲行業的投資重點正在向區塊
  • 用戶可以把自己的醫療健康數據做成NFT出售給醫藥公司掙錢

    你可能聽說過不可偽造的代幣,或NFTs。NFTs是數字代幣,代表完全獨特的項目的所有權;存儲在區塊鏈中并可追蹤,它們不能被修改、替換或復制。作為NFT鑄造的資產在數字
  • NFT世界的藝術家名單

    我們匯編了以下藝術家的名單,它包括每個藝術家的簡短概述。當然,這份名單肯定不全面,還有很多很多藝術家、哲學家和商業領袖為世界貢獻了不可估量的價值。而他們
  • 從4個方面解析2022年加密行業趨勢

    作者:去月球基礎設施瓶頸仍然存在盡管2021年公鏈基礎設施之間的競爭顯著升溫,但關鍵瓶頸仍需解決。例如,以太坊作為DApp開發的頂級公鏈,仍然遭受網絡擁塞和高額交
  • 頂級NFT收藏家Gary Vaynerchuk 與百威推出NFT

    特別聲明,我們的文章不作為投資建議,請各位讀者獨立思考,還是那句話:投資要慎之又慎,誰也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
欧美久久久久久| 欧美性猛交xxxx乱大交退制版| 成人av在线网站| 国产黑丝在线一区二区三区| 精品一区二区三区日韩| 免费看精品久久片| 久热成人在线视频| 国产一区二区福利| 高清国产一区二区三区| 国产成人亚洲综合a∨婷婷| 国产精品88av| 99国产一区二区三精品乱码| 91片黄在线观看| 亚洲二区视频| 欧美亚洲三级| 欧美特级限制片免费在线观看| 欧美日韩你懂得| 日韩免费视频一区二区| 国产日韩av一区二区| 中文字幕一区二区三中文字幕| 亚洲欧美一区二区三区极速播放| 亚洲精品自拍动漫在线| 日韩和欧美一区二区三区| 久久99精品国产麻豆婷婷洗澡| 久久不见久久见中文字幕免费| 国产成人精品免费视频网站| 97久久超碰国产精品| 尤物精品在线| 色乱码一区二区三区88 | 久久综合久久综合久久综合| 国产日本欧美一区二区| 亚洲综合男人的天堂| 日本aⅴ亚洲精品中文乱码| 国产成人精品亚洲午夜麻豆| 欧美一区二区| 国产精品视频| 欧美一级二级三级乱码| 日韩一区日韩二区| 老司机精品视频线观看86| 国产成a人亚洲精| 在线高清一区| 欧美日本高清视频在线观看| 久久久九九九九| 天天爽夜夜爽夜夜爽精品视频| 国产麻豆精品95视频| 在线精品亚洲| 欧美精品第1页| 亚洲欧美日韩在线不卡| 精品一二三四在线| 在线精品在线| 制服丝袜亚洲色图| 亚洲品质自拍视频网站| 国产成人在线影院| 国产精品一卡| 精品粉嫩超白一线天av| 亚洲成av人片在线| 91污在线观看| 欧美亚洲一区二区在线| 亚洲欧美一区二区视频| 国产电影精品久久禁18| 亚洲一区二区三区精品动漫| 欧美xxxx在线观看| 天天色天天爱天天射综合| 欧美一区亚洲| 欧美精品国产精品| 日韩激情一区二区| 91久久精品www人人做人人爽| 6080国产精品一区二区| 亚洲成人www| 亚洲动漫精品| 国产日韩综合av| 国产福利一区二区三区在线视频| 免费在线亚洲| 成人免费一区二区三区视频| 成人午夜电影网站| 欧美日韩黄色一区二区| 天堂一区二区在线免费观看| 亚洲激情av| 欧美国产激情一区二区三区蜜月 | 99精品欧美| 国产精品午夜久久| 91在线精品一区二区三区| 精品视频一区三区九区| 婷婷一区二区三区| 国产欧美日韩亚洲| 亚洲欧洲精品一区二区三区| 99久久99久久精品免费看蜜桃| 欧美精品v国产精品v日韩精品| 日韩成人免费在线| 久久久久国产精品一区二区| 亚洲精品日韩专区silk| 亚洲网友自拍| 国产精品久久久久一区| 牛牛国产精品| 国产精品欧美一区二区三区| 91蜜桃传媒精品久久久一区二区 | 国产美女视频一区| 日本韩国欧美一区| 免费精品99久久国产综合精品| 亚洲欧美日韩精品在线| 亚洲成人av中文| 男人的天堂亚洲| 丝瓜av网站精品一区二区 | 欧美一区二区三区视频免费 | 亚洲一区二区三区高清不卡| 亚洲电影在线免费观看| 亚洲欧美大片| 老鸭窝一区二区久久精品| 欧美三区在线观看| 国产成人一级电影| 亚洲精品在线免费观看视频| jlzzjlzz欧美大全| 国产日韩欧美激情| 黑人一区二区| 香蕉成人啪国产精品视频综合网| 免费亚洲婷婷| 免费三级欧美电影| 日韩一区二区三免费高清| 成人国产精品免费网站| 欧美国产精品一区二区三区| 亚洲裸体视频| 日本午夜精品视频在线观看 | 91精品国产高清一区二区三区蜜臀| 成人亚洲一区二区一| 国产亚洲精品资源在线26u| 黄色国产精品一区二区三区| 一区二区三区 在线观看视频| 久久综合网络一区二区| 国模少妇一区二区三区| 欧美精品一区二| 中文久久精品| 国内精品在线播放| 国产亚洲欧美中文| 国产一区二区高清视频| 精品一区二区三区av| 亚洲精品一区二区三区福利| 欧美日韩视频一区二区三区| 亚洲成人av中文| 日韩欧美亚洲国产另类| 亚洲精品黄色| 国内精品久久久久影院一蜜桃| 国产亚洲精品中文字幕| 麻豆亚洲精品| 91免费观看视频在线| 香蕉乱码成人久久天堂爱免费| 91精品婷婷国产综合久久性色| 欧美日韩在线不卡一区| 日本视频在线一区| 国产视频一区不卡| 久久久久久穴| 91麻豆swag| 麻豆精品在线观看| 国产精品不卡视频| 欧美一区二区免费| 国产精品区一区| 99国产精品久| 蜜臀a∨国产成人精品| 国产精品久久久久久久久晋中| 欧美亚洲禁片免费| 亚洲国产网站| 99久久久久免费精品国产 | av男人天堂一区| 日本亚洲视频在线| 成人免费一区二区三区视频 | 久久久九九九九| 精品视频免费看| 在线亚洲国产精品网站| 99精品视频在线播放观看| 欧美aaa在线| 亚洲美女屁股眼交3| 久久久99精品免费观看不卡| 色噜噜狠狠成人网p站| 99pao成人国产永久免费视频| 成人av电影在线网| 精品一区免费av| 午夜av区久久| 亚洲精品大片www| 中文字幕av在线一区二区三区| 538在线一区二区精品国产| 性欧美videos另类喷潮| 亚洲国产美女| 欧美精品九九| 91麻豆swag| av成人免费在线观看| 国产精品亚洲一区二区三区妖精| 香蕉久久夜色精品国产使用方法| 亚洲美女视频在线观看| 国产日产欧美一区二区三区| 欧美大黄免费观看| 欧美日韩在线播放| 欧美少妇bbb| 色狠狠一区二区| 六月天综合网| 久久久久天天天天| 久久婷婷人人澡人人喊人人爽| 国产欧美一区二区三区另类精品| 亚洲高清在线| 亚洲一二三区在线| 亚洲高清免费| 国产日韩一区欧美|