国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 科技  > 網絡

豆包文科成績超了一本線:為什么理科不行

來源: 責編: 時間:2024-07-01 17:11:20 202觀看
導讀 什么?好多大模型的文科成績超一本線,還是卷的河南省???△圖源:極客公園沒錯,近就有這么一項大模型“高考大摸底”評測走紅了。河南高考文科今年的一本線是521分,根據這項評測,共計四個大模型大于或等于這

什么?好多大模型的文科成績超一本線,還是卷的河南省???nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行△圖源:極客公園nCq28資訊網——每日最新資訊28at.com

沒錯,近就有這么一項大模型“高考大摸底”評測走紅了。nCq28資訊網——每日最新資訊28at.com

河南高考文科今年的一本線是521分,根據這項評測,共計四個大模型大于或等于這個分數,其中頭兩名值得關注:nCq28資訊網——每日最新資訊28at.com

GPT-4o:562分nCq28資訊網——每日最新資訊28at.com

字節豆包:542.5分nCq28資訊網——每日最新資訊28at.com

……nCq28資訊網——每日最新資訊28at.com

從結果中來看,GPT-4o的表現依舊是處于領先狀態,而在國產大模型這邊,比較亮眼的成績便屬于豆包了。nCq28資訊網——每日最新資訊28at.com

并且在語文和歷史等科目的成績甚至還超越了GPT-4o。nCq28資訊網——每日最新資訊28at.com

這也讓不少網友紛紛感慨:nCq28資訊網——每日最新資訊28at.com

AI文科成績這么好,看來在處理語言和邏輯上還是很有優勢的。nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行nCq28資訊網——每日最新資訊28at.com

不過有一說一,畢竟國產大模型的競爭是如此之激烈,這份評測的排名真的靠譜嗎?發布僅數月的豆包,真具備此等實力嗎?以及這數學……又是怎么一回事兒?nCq28資訊網——每日最新資訊28at.com

先看評測榜單nCq28資訊網——每日最新資訊28at.com

要回答上述的問題,我們不妨先來查一查豆包在新的權威評測榜單中的表現是否一致。nCq28資訊網——每日最新資訊28at.com

首先有請由智源研究院發布的FlagEval(天秤)。nCq28資訊網——每日最新資訊28at.com

它的評測方式是這樣的:nCq28資訊網——每日最新資訊28at.com

對于開源模型, FlagEval會綜合概率選擇和自由生成兩種方式來評測,對于閉源模型, FlagEval只采用自由生成的方式來評測,兩種評測方式區別參照。nCq28資訊網——每日最新資訊28at.com

主觀評測時部分閉源模型對極小部分題目有拒絕回答的情形,這部分題目并沒有計入能力分數的計算。nCq28資訊網——每日最新資訊28at.com

在“客觀評測”這個維度上,榜單成績如下:nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行nCq28資訊網——每日最新資訊28at.com

不難看出,這一維度下的FlagEval中,前四名的成績是與“高考大摸底”的名次一致。nCq28資訊網——每日最新資訊28at.com

大模型依舊分別來自OpenAI、字節跳動、百度和百川智能。nCq28資訊網——每日最新資訊28at.com

并且豆包在“知識運用”和“數學能力”兩個維度上成績還高于第一名的GPT-4。nCq28資訊網——每日最新資訊28at.com

若是將評測方式調節至“主觀評測”,那么結果是這樣的:nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行nCq28資訊網——每日最新資訊28at.com

此時,百度的大模型躍居到了第一名,而字節的豆包依舊是穩居第二的成績。nCq28資訊網——每日最新資訊28at.com

由此可見,不論是主觀還是客觀維度上,前幾位的名次都是與“高考大摸底”的成績是比較接近的。nCq28資訊網——每日最新資訊28at.com

接下來,我們再來有請另一個權威測評——OpenCompass(司南)。nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行nCq28資訊網——每日最新資訊28at.com

在新的5月榜單中,豆包的成績也是僅次于OpenA家的大模型。nCq28資訊網——每日最新資訊28at.com

同樣的,在細分的“語言”和“推理”兩個維度中,豆包還是超越了GPT-4o和GPT-4 Turbo。nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行nCq28資訊網——每日最新資訊28at.com

但與專業評測冷冰冰的分數相比,人們都對高考有著更深刻的體驗和記憶。nCq28資訊網——每日最新資訊28at.com

那么接下來我們就通過豆包回答高考題,來看看大模型在應對人類考試時的具體表現。nCq28資訊網——每日最新資訊28at.com

再看實際效果nCq28資訊網——每日最新資訊28at.com

既然目前許多試卷的題目都已經流出,我們不妨親測一下豆包的實力。nCq28資訊網——每日最新資訊28at.com

例如讓它先寫一篇新課標I卷語文的作文題目:nCq28資訊網——每日最新資訊28at.com

隨著互聯網的普及、人工智能的應用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少?nCq28資訊網——每日最新資訊28at.com

以上材料引發了你怎樣的聯想和思考?請寫一篇文章。nCq28資訊網——每日最新資訊28at.com

要求:選準角度,確定立意,明確文體,自擬標題;不要套作,不得抄襲;不得泄露個人信息;不少于800字。nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行△結果由豆包PC端對話生成nCq28資訊網——每日最新資訊28at.com

從豆包的作答上來看,是已經擺脫了AI寫作文經常犯的“首先-其次-以及-后”這種模板式的寫法,也擅長引經據典來做論證。nCq28資訊網——每日最新資訊28at.com

但畢竟每個人對于文筆的審美標準不同,因此豆包高考作文寫得如何,評價就交給你們了(歡迎在留言區討論)。nCq28資訊網——每日最新資訊28at.com

值得一提的是,在量子位向豆包團隊詢問后得知,原來豆包PC端對話和手機端“拍題答疑”是兩種截然不同的招式——nCq28資訊網——每日最新資訊28at.com

前者走的是LLM鏈路,后者走的則是RAG鏈路(若是用豆包手機端“拍題答疑”功能,高考數理化成績也能接近滿分)。nCq28資訊網——每日最新資訊28at.com

加上在這次“高考大摸底”評測出爐之后,很多網友們都將關注的重點聚焦到了數學成績上:nCq28資訊網——每日最新資訊28at.com

AI也怕數學。nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行nCq28資訊網——每日最新資訊28at.com

因此,接下來的實際效果測試,我們就將以“LLM鏈路+數學”的方式來展開。nCq28資訊網——每日最新資訊28at.com

先拿這次的選擇題來小試牛刀一下:nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行nCq28資訊網——每日最新資訊28at.com

當我們把題目在PC端“喂”豆包之后,它的作答如下:nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行nCq28資訊網——每日最新資訊28at.com

因此,豆包給出的答案是:nCq28資訊網——每日最新資訊28at.com

A、C、D、D、B、B、A、AnCq28資訊網——每日最新資訊28at.com

這里我們再來引入排名第一選手GPT-4o的作答:nCq28資訊網——每日最新資訊28at.com

A、D、B、D、C、A、C、BnCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行nCq28資訊網——每日最新資訊28at.com

而根據網上目前多個信源得到的標準答案是:A、C、D、A、B、B、C、B。nCq28資訊網——每日最新資訊28at.com

對比來看,豆包對5道,GPT-4o答對4道。nCq28資訊網——每日最新資訊28at.com

而對于更多的數學題的作答,其實復旦大學自然語言處理實驗室在高考試卷曝光后第一時間做了更加全面的測試(所有大模型只能依靠LLM推理答題,不能通過RAG檢索答案):nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行△圖源:復旦大學自然語言處理實驗室nCq28資訊網——每日最新資訊28at.com

由此可見,大模型并不能完全hold住高考數學題目,并且不同人生成答案的結果也會出現偏差。nCq28資訊網——每日最新資訊28at.com

并且量子位在反復測試后發現,豆包對話答題時有一定隨機性,多輪測試時的結果并不完全一樣。上文只取樣其中一輪的結果。nCq28資訊網——每日最新資訊28at.com

這也正如廣大網友所反饋的那般——大模型文科強、理科弱。nCq28資訊網——每日最新資訊28at.com

對此,技術圈也已經有一些討論和解釋:nCq28資訊網——每日最新資訊28at.com

大語言模型的基本原理是“文字接龍”,通過預測下一個token來生成內容,每次預測都有隨機性和概率分布。nCq28資訊網——每日最新資訊28at.com

當大語言模型學習了海量知識數據,天然就適應考驗記憶能力和語言運用的文科考試。nCq28資訊網——每日最新資訊28at.com

但理科考試主要考驗推理和計算,比如一道數學題包含5步推理和5步計算,假設大語言模型每一步預測準確的概率都有90%,綜合下來的準確率就只有35%。nCq28資訊網——每日最新資訊28at.com

另一方面,理科語料比較稀缺。大模型的訓練數據中,文科語料要遠遠大于理科語料。這也是大模型更擅長文科的一個原因。nCq28資訊網——每日最新資訊28at.com

大模型都在努力提升智能水平,主要目標就是提高推理和計算能力。目前學界對此存在爭議,有觀點認為,“預測下一個token”本身就包含了推理,計算也是一種推理。nCq28資訊網——每日最新資訊28at.com

只要Scaling Law生效,大模型性能持續提升,推理和計算能力就能夠提升;但也有反對者(如Yann LeCun)認為,大語言模型缺乏真正的規劃推理能力,其涌現能力實際上是上下文學習的結果,主要體現在簡單任務和事先知道答案的情境中。大語言模型未來是否能夠真正實現AGI,目前還沒有定論。nCq28資訊網——每日最新資訊28at.com

那是不是大模型就不適合用戶來解數學題了呢?nCq28資訊網——每日最新資訊28at.com

也并不全是。nCq28資訊網——每日最新資訊28at.com

正如剛才所說,如果用豆包手機端的“拍題答疑”,也就是RAG鏈路的方式,那么結果的“打開方式”就截然不同了。nCq28資訊網——每日最新資訊28at.com

我們可以先用豆包APP對著題目拍照,讓它先進行識別:nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行nCq28資訊網——每日最新資訊28at.com

結果就是——全對!nCq28資訊網——每日最新資訊28at.com

豆包文科成績超了一本線:為什么理科不行nCq28資訊網——每日最新資訊28at.com

至于更多類型題目大模型們的表現會如何,友友們可以拿著感興趣的題目自行測試一番了。nCq28資訊網——每日最新資訊28at.com

如何評價?nCq28資訊網——每日最新資訊28at.com

從“高考大摸底”和智源FlagEval、上海AI Lab OpenCompass等評測上可以看到,豆包大模型已經穩穩進入國產第一梯隊。nCq28資訊網——每日最新資訊28at.com

但隨即而來的一個問題便是,過去一年多異常低調的豆包,是如何在短短一個月內就開始爆發的?nCq28資訊網——每日最新資訊28at.com

其實早在發布之際,豆包與其它大模型廠商截然不同的路徑就已經有所體現,歸結其背后的邏輯就是:nCq28資訊網——每日最新資訊28at.com

只有大的使用量,才能打磨出好的大模型。nCq28資訊網——每日最新資訊28at.com

據了解,豆包大模型在5月15日正式發布時,其每天平均處理的token數量高達1200億,相當于1800億的漢字;每天生成圖片的數量為3000萬張。nCq28資訊網——每日最新資訊28at.com

不僅如此,豆包大模型家族還會在包括抖音、今日頭條等在內的50多個場景中進行實踐和驗證。nCq28資訊網——每日最新資訊28at.com

因此,我們可以把豆包在大模型性能上的路數,視為用“左手使用量,右手多場景”的方式反復打磨而來。nCq28資訊網——每日最新資訊28at.com

一言蔽之,大模型好不好,用一下就知道了。nCq28資訊網——每日最新資訊28at.com

并且基于豆包大模型打造的同名產品豆包APP,已成為國內受歡迎的AIGC類應用。nCq28資訊網——每日最新資訊28at.com

這一點上,從量子位智庫所匯總的智能助手“APP下載總量”和“APP月新增下載總量”便可一目了然——nCq28資訊網——每日最新資訊28at.com

豆包,均拿下第一。nCq28資訊網——每日最新資訊28at.com


文章出處:量子位

本文鏈接:http://www.rrqrq.com/showinfo-17-97821-0.html豆包文科成績超了一本線:為什么理科不行

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: 微軟回應關閉所有線下授權門店:已決定對中國大陸市場渠道進行整合

下一篇: 中國地鐵站有廁所讓老外破防:美國網友感嘆干凈 里面的水能直接喝

標簽:
  • 熱門焦點
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
成人免费小视频| 免费一级欧美片在线播放| 国产成人aaaa| 国产一区二区三区四区五区入口| 久久99国产精品久久99果冻传媒| 日本网站在线观看一区二区三区 | 国产在线观看一区二区| 美女视频网站久久| 麻豆精品一区二区三区| 日本欧美久久久久免费播放网| 午夜精品福利一区二区三区av| 亚洲电影你懂得| 亚洲成人精品在线观看| 欧美成人在线直播| 日韩丝袜美女视频| 精品成人在线观看| 国产婷婷色一区二区三区四区 | 九一久久久久久| 狠狠色丁香久久婷婷综合_中| 精品在线你懂的| 国产黑丝在线一区二区三区| 成人免费视频视频在线观看免费| 成人av网站在线| 欧美人牲a欧美精品| 日本成人中文字幕在线视频| 精品久久久久久综合日本欧美| 精品乱码亚洲一区二区不卡| 精品日韩一区二区| 国产日韩高清在线| 裸体丰满少妇做受久久99精品| 国产精品视频久久一区| 久久久夜夜夜| 欧美日韩视频在线第一区| 91精品欧美久久久久久动漫| 欧美不卡一区二区三区四区| 久久久电影一区二区三区| 综合电影一区二区三区| 亚洲成人精品一区二区| 精品一区二区三区日韩| 成人av动漫在线| 亚洲午夜精品久久久久久浪潮| 一本色道久久综合亚洲精品不卡| 午夜精品婷婷| 国产欧美午夜| 欧美三级午夜理伦三级中视频| 欧美一区二区日韩一区二区| 国产日产精品1区| 亚洲精品水蜜桃| 裸体在线国模精品偷拍| 成人性生交大片免费看视频在线| 国产主播一区| 久久久国产亚洲精品| 欧美久久高跟鞋激| 国产婷婷色一区二区三区在线| 自拍av一区二区三区| 亚洲精品一级| 欧美日韩中字一区| 久久久精品影视| 一级精品视频在线观看宜春院| 理论电影国产精品| 午夜亚洲国产au精品一区二区| 精品一区二区在线观看| 91麻豆6部合集magnet| 国产精品夜夜夜一区二区三区尤| 欧美三级资源在线| 中文在线免费一区三区高中清不卡| 亚洲成人综合在线| 国产a区久久久| 日韩亚洲国产欧美| 欧美精品 日韩| 专区另类欧美日韩| 国内外精品视频| 黄色亚洲在线| 欧美老肥妇做.爰bbww视频| 国产日韩欧美制服另类| 日韩电影一区二区三区四区| 日韩精品成人一区二区三区| 不卡av电影在线播放| 亚洲一区二区三区四区中文| 宅男在线国产精品| 亚洲欧美电影一区二区| 国产一本一道久久香蕉| 亚洲伦伦在线| 日韩欧美国产wwwww| 亚洲曰韩产成在线| 成人一区二区视频| 另类av一区二区| 国产日韩影视精品| 捆绑调教一区二区三区| 亚洲视频免费| 91精品国产全国免费观看| 亚洲精品国产无套在线观 | 国产一区二区三区四区老人| 欧美午夜一区二区三区免费大片| 欧美视频你懂的| 中文字幕一区二区三区视频| 国产一区二区调教| 99亚洲一区二区| 精品美女在线播放| 天天操天天干天天综合网| 91免费精品国自产拍在线不卡| 欧洲精品中文字幕| 亚洲欧洲一区二区三区| 粉嫩av亚洲一区二区图片| 午夜亚洲福利在线老司机| 国产无一区二区| 国产乱一区二区| 久久久久网站| 中文字幕亚洲一区二区va在线| 高清在线不卡av| 欧美区高清在线| 91精品国产综合久久久蜜臀图片| 亚洲一区二区免费视频| 欧美一区三区二区在线观看| 欧美另类z0zxhd电影| 亚洲小说欧美激情另类| 欧美日韩视频在线一区二区观看视频| 欧美猛男超大videosgay| 一区二区三区国产豹纹内裤在线| 91同城在线观看| 日韩一级片网站| 玖玖九九国产精品| 久久黄色影院| 亚洲综合色自拍一区| 在线成人h网| 欧美高清在线视频| 99精品久久只有精品| 欧美一区国产二区| 中文字幕在线观看不卡| av成人老司机| 欧美一级专区免费大片| 久久精品国产在热久久| 久久国产精品一区二区三区| 亚洲另类在线制服丝袜| 国产一区二区中文| 国产欧美一区二区精品性色 | 久久久久久久综合日本| 国内成人自拍视频| 亚洲在线视频| 在线电影院国产精品| 免费xxxx性欧美18vr| 在线视频免费在线观看一区二区| 久久久久高清精品| 蜜桃91丨九色丨蝌蚪91桃色| 欧美一区二区三区在线播放| 欧美高清www午色夜在线视频| 日本视频中文字幕一区二区三区| 亚洲精品欧美| 亚洲欧美日韩人成在线播放| 午夜欧美理论片| 精品电影一区二区三区| 国产高清精品在线| 欧美一区二区播放| 狠狠色丁香久久婷婷综合_中| 麻豆久久婷婷| 一二三四区精品视频| 国产亚洲一区在线播放| 中文字幕人成不卡一区| 欧美jizzhd精品欧美喷水| 精品国产三级a在线观看| 国产91色综合久久免费分享| 欧美日韩大陆在线| 麻豆精品久久精品色综合| 久久青青草原一区二区| 亚洲一区二区黄色| 亚洲激情网站| 亚洲欧洲综合另类在线| 好吊色欧美一区二区三区四区| 国产欧美视频一区二区| 91视频精品在这里| 久久久一区二区三区捆绑**| www.性欧美| 正在播放亚洲一区| av一区二区久久| 久久蜜桃av一区精品变态类天堂 | 午夜精品短视频| 国产精品电影院| 亚洲午夜av| 亚洲乱码国产乱码精品精可以看 | 中文字幕一区二区三区在线不卡 | 美国十次了思思久久精品导航| 91.麻豆视频| 成人免费视频一区| 欧美精品一区二区三区蜜臀| 91啪九色porn原创视频在线观看| 国产精品麻豆网站| 亚洲日本激情| 亚洲一二三四在线| 国产日韩欧美在线播放不卡| 亚洲va欧美va国产va天堂影院| 久久一区二区精品| 免播放器亚洲一区| 在线亚洲+欧美+日本专区| 国产成人免费xxxxxxxx| 欧美精品一区二区高清在线观看| 成人黄色在线视频| 精品国产乱子伦一区| 91久久精品国产91久久性色tv | 色婷婷av一区| 国产一区二区三区四区五区美女 |