一年一度高考季,高考試題是大眾關(guān)注的焦點,也成為了AI能力的試金石。AI大模型數(shù)學功底到底如何?比人類“聰明”嗎?搜狐科技使用五款AI大模型對2023高考上海數(shù)學試卷進行了同題測試。
(相關(guān)資料圖)
在測試中,搜狐科技選取了高考試卷前10道填空題,讓百度文心一言、阿里通義千問、科大訊飛星火認知大模型、360智腦、ChatGPT進行回答。
測試結(jié)果顯示,這五款大模型在答數(shù)學題的能力上差異顯著。
最“聰明”的訊飛星火答對了5題,正確率50%。百度文心一言和ChatGPT“緊跟其后”,答對了4題,正確率為40%。
360智腦和通義千問則“全軍覆沒”,一道題也沒答對,交了白卷。
值得一提的是,昨天搜狐科技也用五款大語言模型產(chǎn)品,對高考作文全國卷(甲)進行了測試,并邀請了5位語文名師打分。
打分結(jié)果顯示,ChatGPT高考作文得分最高,文心一言、訊飛星火得分稍低,但跟ChatGPT處于同一水平。360智腦和通義千問得分最低。
雖然語文作文題和數(shù)學計算題,對大模型能力考察的維度并不盡相同。但巧合的是,不擅長寫作文的360智腦和通義千問,似乎也不擅長做數(shù)學題。
通過這兩次高考題測試,也能從側(cè)面反應出各家大模型的能力確實是“參差不齊”。如果ChatGPT、文心一言、訊飛星火是“學霸”,那么360智腦和通義千問則是妥妥的“學渣”。
附測試中使用的高考數(shù)學題題目:
1.不等式|x-2|<1的解集為__
2.a=(2,3),b=(-1,2),則a·b=__
3.首項為3,公比為2的等比數(shù)列的前六項和S6=__
4.tanA=3,tan2A=__
5.f(x)={2^xx>0;1,x≤0}的值域為__
6.復數(shù)z=1-i,則|1+iz|=__
7.圓的方程x^2+y^2-4y-m=0的面積為π,則m=__
8.三角形的三邊長為a=4,b=5,c=6,則sinA=__
9.某地一年四個季度的GDP(億元),第一季度GDP為232,第四季度GDP為241,且四個季度的GDP逐季度增長,中位數(shù)、平均數(shù)相等。則該地一年的GDP為__
10.(1+2023x)^100+(2023-x)^100=a0+a1x+a2x^2+…+a100x^100。若ak<0,正數(shù)k的最大值為__
責任編輯:
凡本網(wǎng)注明“XXX(非汪清新聞網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和其真實性負責。
夫妻靠收廢品為生,丈夫去世后婚外情暴露:多年來給“表妹”花了70多萬
2023-06-08 21:52
榮盛發(fā)展:關(guān)于發(fā)行股份購買資產(chǎn)并募集配套資金暨關(guān)聯(lián)交易的一般風險提
2023-06-08 21:19
央行官網(wǎng)6月7日更新數(shù)據(jù)顯示,截至5月末,央行黃金儲備報6727萬盎司,
2023-06-08 21:02
2022年7月,中證協(xié)發(fā)布了2022年第三批首發(fā)申請企業(yè)現(xiàn)場檢查抽查名單,
2023-06-08 21:06
圖靈看市6 8晚-白銀多頭強勢,回踩低多介入白銀白銀短期強于黃金所以這
2023-06-08 20:56
1、1986年是農(nóng)歷丙寅年,也就是虎年。這年出生的人屬相為虎。2、第一種
2023-06-08 21:02
我們的居住環(huán)境煥新啦!近日,一批安置房建設、老舊小區(qū)改造等迎來新進
2023-06-08 20:52
《變形金剛7:超能勇士崛起》的觀眾口碑也已經(jīng)解禁,雖然該片在爛番茄
2023-06-08 20:41
易車訊6月8日,在2023中國汽車重慶論壇上,上汽集團副總裁楊曉東表示:
2023-06-08 20:46
當下,光伏行業(yè)全面向N型技術(shù)切換,與大多數(shù)廠商選擇TOPCon(隧穿氧化
2023-06-08 20:00