學而(ér)思聯手谷歌、暨南大(dà)學發起全球大(dà)模型數學解題競賽
2023-10-11
數學一(yī / yì /yí)直被視爲(wéi / wèi)人(rén)工智能的(de)試金石。當大(dà)語言模型突破其“先天性的(de)缺陷”(如缺乏複雜推理能力、數值計算不(bù)夠準确等),成功應對數學推理方面的(de)挑戰時(shí),人(rén)工智能将進入新的(de)紀元。如何提升大(dà)語言模型數學推理能力,突破語言模型的(de)先天不(bù)足,成爲(wéi / wèi)當下全球人(rén)工智能領域關注的(de)重點。
探索人(rén)工智能數學推理無人(rén)區
松果财經獲悉,日前,由學而(ér)思牽頭,聯合谷歌、暨南大(dà)學等多家知名科技企業及高校的(de)專家學者,依托智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台,共同舉辦的(de)AAAI2024 全球大(dà)模型數學推理競賽,邀請全球人(rén)工智能專家、開發者以(yǐ)及愛好者一(yī / yì /yí)起用大(dà)模型自動解答中小學數學難題,旨在(zài)探索、解決人(rén)工智能在(zài)數學領域的(de)挑戰。
AAAI(Association for the Advancement of Artificial Intelligence)由計算機科學和(hé / huò)人(rén)工智能科學家Allen Newell、 Marvin Minsky 和(hé / huò)John McCarthy等創辦,是(shì)國(guó)際人(rén)工智能領域最爲(wéi / wèi)權威與重要(yào / yāo)的(de)協會之(zhī)一(yī / yì /yí),AAAI會議被中國(guó)計算機學會(CCF)推薦爲(wéi / wèi)A類會議。
比賽期間,參賽者需使用大(dà)模型對給定的(de)數學題目,生成推理步驟與答案。主辦方将通過對比參賽者的(de)模型輸出(chū)答案與正确答案之(zhī)間的(de)準确率,來(lái)爲(wéi / wèi)參賽者進行排名。準确率最高的(de)參賽者将會赢得此次比賽。
爲(wéi / wèi)了(le/liǎo)更充分地(dì / de)探究各類大(dà)模型的(de)數學推理能力,此次比賽分爲(wéi / wèi)中文數學解題和(hé / huò)英文數學解題兩個(gè)賽道(dào)。由學而(ér)思提供比賽所用的(de)中英文數據集——TAL-SAQ7K-CN、TAL-SAQ6K-EN。該數據集囊括了(le/liǎo)國(guó)内外多個(gè)中小學數學競賽真題,題目格式均經過精心處理,每道(dào)題目都包含題目内容,題目難度等級和(hé / huò)題目涉及到(dào)的(de)從粗粒度到(dào)細粒度的(de)知識點鏈條等字段。與之(zhī)同時(shí),TAL-SAQ7K-CN、TAL-SAQ6K-EN數據集中涉及到(dào)數學表達式已經處理成統一(yī / yì /yí)的(de)文本模式 Latex。
比賽分爲(wéi / wèi)兩個(gè)階段,第一(yī / yì /yí)階段即日起截止到(dào)12月31日,爲(wéi / wèi)公榜階段。主辦方事先随機在(zài)TAL-SAQ7K-CN和(hé / huò)TAL-SAQ6K-EN中選出(chū)30%的(de)數據,供參賽者進行大(dà)模型調試。第二階段則從2024年1月1日到(dào)1月10日,爲(wéi / wèi)私榜階段。期間,參賽者使用第一(yī / yì /yí)階段調優過的(de)大(dà)模型來(lái)解答數據集中剩餘的(de)70%題目。這(zhè)一(yī / yì /yí)階段的(de)成績将會作爲(wéi / wèi)比賽的(de)最終成績。
此外,主辦方還爲(wéi / wèi)此次比賽提供了(le/liǎo)3個(gè)測評基準作爲(wéi / wèi)參考,即GPT-3.5,GPT-4以(yǐ)及好未來(lái)自研的(de)數學大(dà)模型MathGPT在(zài)公榜上(shàng)的(de)表現,具體結果如下:
Track1:
Track2:
做好AI大(dà)模型時(shí)代的(de)數學基礎工作
大(dà)模型一(yī / yì /yí)直是(shì)近來(lái)年人(rén)工智能發展最熱門的(de)領域之(zhī)一(yī / yì /yí),ChatGPT的(de)橫空出(chū)世則讓更多人(rén)看到(dào)了(le/liǎo)人(rén)工智能未來(lái)的(de)方向。然而(ér),現有的(de)大(dà)語言模型在(zài)數學問題的(de)解決、講解、問答和(hé / huò)推薦方面則存在(zài)明顯不(bù)足,如解答數學問題經常出(chū)錯,難以(yǐ)進行複雜運算。
作爲(wéi / wèi)本次全球大(dà)模型數學競賽的(de)發起者,學而(ér)思方面表示,希望能夠通過這(zhè)次大(dà)模型數學比賽,探索、解決現有的(de)模型擅長文科而(ér)不(bù)擅長理科方面的(de)推理和(hé / huò)計算這(zhè)一(yī / yì /yí)不(bù)足。學而(ér)思也(yě)在(zài)積極探索解決,如學而(ér)思MathGPT結合大(dà)模型和(hé / huò)計算引擎兩者能力解決大(dà)模型在(zài)數學領域的(de)三大(dà)挑戰——解對題、講清步驟、内容有趣生動。前者負責理解題目、分步解析,并在(zài)合适的(de)步驟自行調用計算引擎,以(yǐ)此來(lái)提高正确率。基于(yú)海量名師解題過程的(de)數據進行模型訓練,模型的(de)解題步驟可以(yǐ)更加清晰。再引入優秀老師的(de)教學理念和(hé / huò)方法,模型在(zài)解題趣味性上(shàng)也(yě)能進一(yī / yì /yí)步提高。
以(yǐ)一(yī / yì /yí)道(dào)數列題爲(wéi / wèi)例,MathGPT給出(chū)的(de)答案包含“分析”、“詳解”、“點睛”三個(gè)部分,比通用大(dà)模型的(de)粗略講解方式更爲(wéi / wèi)細緻,“分析”提供了(le/liǎo)題目的(de)解題思路、思考方式,幫助用戶更好地(dì / de)理解題目,“詳解”則給出(chū)具體的(de)計算方式和(hé / huò)答案,最後“點睛”的(de)環節,對題目的(de)考點、難點、關鍵點進行提示,幫助用戶回顧反思出(chū)題意圖、舉一(yī / yì /yí)反三。
作爲(wéi / wèi)國(guó)内首個(gè)數學領域千億級大(dà)模型,MathGPT數學計算能力已覆蓋小學、初中、高中階段,題目類型涵蓋計算題、應用題、代數題等多個(gè)類型,還可以(yǐ)針對題目進行追問。相關技術報告顯示,在(zài)CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考數學和(hé / huò)Math401等6個(gè)公開數學評測集合的(de)測試結果中,學而(ér)思MathGPT取得了(le/liǎo)多項測試的(de)最高分數;在(zài)C-Eval的(de)初高中的(de)全科測試集合上(shàng),MathGPT也(yě)均有不(bù)錯的(de)表現。
此外,學而(ér)思也(yě)在(zài)GitHub、Hugging Face等技術社區開源了(le/liǎo)MathGPT的(de)模型訓練測試數據集——TAL-SCQ5K-EN/CN(各3K訓練集和(hé / huò)2K測試集),題目爲(wéi / wèi)單選形式,涉及小初高階段數學内容,帶有詳細的(de)解析步驟便于(yú)進行COT的(de)訓練。
作爲(wéi / wèi)智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台承建單位,學而(ér)思一(yī / yì /yí)直積極參與推動我國(guó)人(rén)工智能技術發展與進步。随着大(dà)模型時(shí)代的(de)到(dào)來(lái),學而(ér)思希望用自身在(zài)數學和(hé / huò)AI上(shàng)的(de)多年積累,面向全球範圍内的(de)數學愛好者和(hé / huò)科研機構,做好AI大(dà)模型時(shí)代的(de)數學基礎工作。
本文轉自松果财經:https://www.163.com/dy/article/IGPG2NS50531KBFR.html
上(shàng)一(yī / yì /yí)篇:用AI教會孩子(zǐ)獨立思考?學而(ér)思“随時(shí)問”已經邁出(chū)關鍵一(yī / yì /yí)步
下一(yī / yì /yí)篇:好未來(lái)攜手聯合國(guó)教科文組織共同推動“科技賦能教育”