五大模型解高考数学:阿里通义千问、360智脑10题全错得0分;讯飞星火答对一半|世界新资讯
2023-06-08 21:01:25来源:搜狐科技
一年一度高考季,高考试题是大众关注的焦点,也成为了AI能力的试金石。AI大模型数学功底到底如何?比人类“聪明”吗?搜狐科技使用五款AI大模型对2023高考上海数学试卷进行了同题测试。
(资料图)
在测试中,搜狐科技选取了高考试卷前10道填空题,让百度文心一言、阿里通义千问、科大讯飞星火认知大模型、360智脑、ChatGPT进行回答。
测试结果显示,这五款大模型在答数学题的能力上差异显著。
最“聪明”的讯飞星火答对了5题,正确率50%。百度文心一言和ChatGPT“紧跟其后”,答对了4题,正确率为40%。
360智脑和通义千问则“全军覆没”,一道题也没答对,交了白卷。
值得一提的是,昨天搜狐科技也用五款大语言模型产品,对高考作文全国卷(甲)进行了测试,并邀请了5位语文名师打分。
打分结果显示,ChatGPT高考作文得分最高,文心一言、讯飞星火得分稍低,但跟ChatGPT处于同一水平。360智脑和通义千问得分最低。
虽然语文作文题和数学计算题,对大模型能力考察的维度并不尽相同。但巧合的是,不擅长写作文的360智脑和通义千问,似乎也不擅长做数学题。
通过这两次高考题测试,也能从侧面反应出各家大模型的能力确实是“参差不齐”。如果ChatGPT、文心一言、讯飞星火是“学霸”,那么360智脑和通义千问则是妥妥的“学渣”。
附测试中使用的高考数学题题目:
1.不等式|x-2|<1的解集为__
2.a=(2,3),b=(-1,2),则a·b=__
3.首项为3,公比为2的等比数列的前六项和S6=__
4.tanA=3,tan2A=__
5.f(x)={2^xx>0;1,x≤0}的值域为__
6.复数z=1-i,则|1+iz|=__
7.圆的方程x^2+y^2-4y-m=0的面积为π,则m=__
8.三角形的三边长为a=4,b=5,c=6,则sinA=__
9.某地一年四个季度的GDP(亿元),第一季度GDP为232,第四季度GDP为241,且四个季度的GDP逐季度增长,中位数、平均数相等。则该地一年的GDP为__
10.(1+2023x)^100+(2023-x)^100=a0+a1x+a2x^2+…+a100x^100。若ak<0,正数k的最大值为__
责任编辑:
关键词:
责任编辑:hnmd004
- 世界新消息丨牛市爆发政策和数据会有哪些变2023-06-15
- win11怎么看电脑是32位还是64位?macos怎么2023-06-15
- 参股万达商业概念介绍 参股万达商业概念2023-06-15
- 影响散户集合竞价成交的因素有什么?散户集2023-06-15
- 猫咪吃巧克力了怎么办?猫吃巧克力多久有反2023-06-15
- 股东增资用交印花税吗?有什么法律依据?2023-06-15
- 工商黑金卡需要什么条件?工商黑金卡的额度2023-06-15
- 世界微速讯:《阳光劫匪》讲的什么?《阳光2023-06-15
- 当前动态:汽车音响怎么安装?汽车音响改装2023-06-15
- 董明珠说不会裁员是真的吗?董明珠有多少个2023-06-15
- 百事通!ST康美是哪一年上市的?ST康美最新2023-06-15
- 人寿保险可靠吗?中国人寿怎么样?-世界快2023-06-15
- 全球球精选!买公寓要注意些什么?购买公寓2023-06-15
- 保险个代是什么意思?保险公司专代和个代区2023-06-15
- 当前快看:上海验车要带什么材料?验车代办2023-06-15
- 【环球时快讯】中华人民共和国民法典第一千2023-06-15
- 年金保险的保险期限有多长时间?年金保险的2023-06-15
- 余额宝存入最好不要超过多少?为什么不建议2023-06-15
- 加加食品主力资金流向介绍 加加食品后期走2023-06-15
- 明星为什么要走戛纳红毯?戛纳红毯什么人都2023-06-15
- 英雄联盟哥特女仆是谁的皮肤?英雄联盟哥特2023-06-15
- 海螺铝材全国排名?凤铝铝材和海螺铝材哪个2023-06-15
- 南京医科大学是211吗?南京医科大学是双一2023-06-15
- 章龄之演过什么电视剧?章龄之个人资料照片2023-06-15
- 全球快报:平安银行年金保险怎么样呢?平安2023-06-15
- 全球播报:建住宅房能否签承揽合同(承揽合2023-06-15
- 人身险预定利率3.5%时代即将结束 保险营2023-06-15
- 怎么办理指数基金定投? 定投指数基金怎2023-06-15
- 天天微速讯: 猫怀孕了要注意些什么问呢?2023-06-15
- 时讯:唐人街探案1谁是真正的凶手?唐人街2023-06-15