摘要:大模型高考,誰沒考好?
作者|藍(lán)媒匯編輯部
又是一年高考時,隨著第一科語文考試結(jié)束,全國高考作文題目再度成為全網(wǎng)熱議。
一年前的今天,大模型風(fēng)口漸起,除了照例有各路大V、達(dá)人在朋友圈、微博等社交平臺展開作文大賽之外,ChatGPT、文心一言、訊飛星火三款頭部大模型也被AI藍(lán)媒匯(id:lanmeih001)“請來”作答高考作文。
而在2024年,百花齊放的國產(chǎn)大模型已在性能和體驗(yàn)上不輸GPT-4,使用更多中文語料的訓(xùn)練也讓這些本土玩家普遍“更懂中文”。
于是,AI藍(lán)媒匯以新課標(biāo)I卷作文題為例,分別測評了BAT三家傳統(tǒng)大廠,以及科大訊飛、月之暗面、百川智能三位熱門選手的共計(jì)六款主流大模型,還引入了大模型互評環(huán)節(jié)。
誰考得最好,誰沒發(fā)揮好,拭目以待。
· 新課標(biāo)I卷 作文題目:
閱讀下面的材料,根據(jù)要求寫作。(60分)
隨著互聯(lián)網(wǎng)的普及、人工智能的應(yīng)用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少?
以上材料引發(fā)了你怎樣的聯(lián)想和思考?請寫一篇文章。
要求:選準(zhǔn)角度,確定立意,明確文體,自擬標(biāo)題;不要套作,不得抄襲;不得泄露個人信息;不少于800字。
· 百度 文心一言4.0:
其余五款大模型打分如下:
綜合得分:55.8
· 阿里云 通義千問2.5:
其余五款大模型打分如下:
綜合得分:56.8
附:文心一言給出滿分的原因
· 騰訊 元寶:
其余五款大模型打分如下:
綜合得分:58.2
附:文心一言給出滿分的原因
· 科大訊飛 訊飛星火:
其余五款大模型打分如下:
綜合得分:57.2
· 月之暗面 Kimi:
其余五款大模型打分如下:
綜合得分:55.2
附:訊飛星火給出低分的原因
· 百川智能 百小應(yīng):
其余五款大模型打分如下:
綜合得分:56
從測試以及評分結(jié)果來看,在所有六款大模型之中,文心一言綜合打分最高,給友商文章平均打出了58的高分。其中還有兩次給了滿分。
而訊飛星火打分最低,給友商文章平均只給出了53.2的分?jǐn)?shù)。
那么,這些作文,你給多少分?
來源|AI藍(lán)媒匯