學而(ér)思聯合谷歌等發起全球大(dà)模型數學解題競賽,120支隊伍同場競技
2024-03-01
2024年2月26日~27日,由智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台、好未來(lái)(學而(ér)思)、谷歌、普林斯頓大(dà)學、暨南大(dà)學等全球領先科技公司、科研機構發起的(de)2024AAAI大(dà)會智慧教育研讨會在(zài)加拿大(dà)溫哥華召開。本次研讨會爲(wéi / wèi)期兩天,以(yǐ)搭建創新與責任橋梁爲(wéi / wèi)主題,旨在(zài)探讨人(rén)工智能尤其是(shì)生成式人(rén)工智能在(zài)教育應用中的(de)創新與責任倫理。
會議期間,AAAI2024 全球大(dà)模型數學解題競賽正式發布比賽結果。這(zhè)是(shì)全球首個(gè)圍繞大(dà)模型數學能力的(de)比賽,吸引了(le/liǎo)來(lái)自全球多個(gè)國(guó)家、地(dì / de)區的(de)120多支隊伍參加。曆經4個(gè)多月的(de)激烈競争,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、數學解題推理等8支隊伍最終勝出(chū),赢得比賽。
聚焦生成式人(rén)工智能,深度探讨創新與責任
過去一(yī / yì /yí)年中,最熱門的(de)話題莫過于(yú)以(yǐ)大(dà)語言模型爲(wéi / wèi)代表的(de)生成式人(rén)工智能。随着全球大(dà)模型熱的(de)流行,有關其創新應用與責任倫理等問題成爲(wéi / wèi)了(le/liǎo)關注的(de)重點。爲(wéi / wèi)此,來(lái)自智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台、好未來(lái)、谷歌、普林斯頓大(dà)學、暨南大(dà)學等全球領先科技公司和(hé / huò)科研機構的(de)專家學者、技術研究人(rén)員在(zài)AAAI2024期間發起“人(rén)工智能爲(wéi / wèi)教育”研讨會。
在(zài)爲(wéi / wèi)期兩天的(de)會議中,與會者帶着各自的(de)思考,通過論文、現場演講、海報、全球數學推理競賽等形式展示并聽取來(lái)自不(bù)同群體的(de)專家學者、技術研究人(rén)員的(de)見解,深度探讨生成式人(rén)工智能的(de)對教育的(de)影響,未來(lái)與挑戰。
針對大(dà)模型技術在(zài)教育領域的(de)影響,有專家表示,教育者應該積極擁抱大(dà)模型而(ér)非抵制他(tā)們,禁止學生在(zài)完成作業時(shí)使用大(dà)模型就(jiù)像20年前禁止互聯網的(de)應用一(yī / yì /yí)樣徒勞。教育者應該重新設計作業,而(ér)非把精力花在(zài)發現作弊人(rén)員身上(shàng)。更有專家表示,大(dà)模型的(de)出(chū)現讓人(rén)們看到(dào)了(le/liǎo)教育的(de)未來(lái)——每個(gè)學生都有一(yī / yì /yí)個(gè)與之(zhī)相匹配的(de)家教,他(tā)們更懂得孩子(zǐ)的(de)需求,也(yě)知道(dào)如何讓孩子(zǐ)更爲(wéi / wèi)投入。針對大(dà)模型在(zài)教育中的(de)幻覺、評估等難題,有專家表示,他(tā)們提出(chū)了(le/liǎo)一(yī / yì /yí)種自動的(de)、基于(yú)叠代精化的(de)測試用例生成方法,即使用LLM和(hé / huò)symphony中的(de)代碼編譯器,并在(zài)Code Workout數據集上(shàng)對此方法進行測試,結果顯示該方法可以(yǐ)生成準确度量學生知識水平的(de)測試用例。
與之(zhī)同時(shí),與會人(rén)員還深度分享并讨論了(le/liǎo)教育場景中,負責任的(de)人(rén)工智能應該具備哪些标準,應該設置哪些倫理要(yào / yāo)求。包括,在(zài)重要(yào / yāo)的(de)教育決策場景如招生、預警系統、評分中,負責任的(de)人(rén)工智能需要(yào / yāo)盡可能保證公平性、問責性、可解釋性和(hé / huò)透明性;負責任的(de)人(rén)工智能在(zài)教育中的(de)方法論貢獻和(hé / huò)影響,包括但不(bù)限于(yú)生成模型、預測模型、因果推斷、強化學習和(hé / huò)數據收集等。此外,有參會人(rén)員提出(chū),随着AI尤其是(shì)生成式AI在(zài)教育中的(de)影響越來(lái)越大(dà),需要(yào / yāo)通過法規、流程等确保教育公平。
全球大(dà)模型數學解題競賽落下帷幕,120支隊伍同場競技
爲(wéi / wèi)了(le/liǎo)提高大(dà)語言模型的(de)數學和(hé / huò)科學推理能力,中國(guó)領軍科技公司好未來(lái)(學而(ér)思)、聯合谷歌、暨南大(dà)學等多家知名科技企業及高校的(de)專家學者,依托智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台,于(yú)2023年10月啓動AAAI2024 全球大(dà)模型數學解題競賽。
會議期間,主辦方還正式對外發布AAAI2024 全球大(dà)模型數學解題競賽正式發布比賽結果。這(zhè)是(shì)全球首個(gè)圍繞大(dà)模型數學能力的(de)比賽,要(yào / yāo)求參賽者用大(dà)模型對給定的(de)數學題目,生成推理步驟與答案,吸引了(le/liǎo)來(lái)自全球多個(gè)國(guó)家、地(dì / de)區的(de)120多支隊伍參加。曆經4個(gè)多月的(de)激烈競争,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、數學解題推理等8支隊伍最終勝出(chū),赢得比賽。
比賽分爲(wéi / wèi)兩個(gè)階段,第一(yī / yì /yí)階段爲(wéi / wèi)公榜階段,主辦方事先随機在(zài)給定的(de)數據集中選出(chū)30%的(de)數據,供參賽者進行大(dà)模型調試。第二階段則爲(wéi / wèi)私榜階段,參賽者需使用第一(yī / yì /yí)階段調優過的(de)大(dà)模型來(lái)解答數據集中剩餘的(de)70%題目。主辦方通過對比參賽者的(de)模型輸出(chū)答案與正确答案之(zhī)間的(de)準确率,來(lái)爲(wéi / wèi)參賽者進行排名。第二階段的(de)成績将會作爲(wéi / wèi)比賽的(de)最終成績。
爲(wéi / wèi)了(le/liǎo)更好地(dì / de)探究各類大(dà)模型在(zài)不(bù)同語言上(shàng)的(de)數學能力,主辦方将比賽設置中英文兩個(gè)賽道(dào)。由好未來(lái)(學而(ér)思)提供比賽所用的(de)中英文數據集——TAL-SAQ7K-CN、TAL-SAQ6K-EN,囊括了(le/liǎo)國(guó)内外多個(gè)中小學數學競賽真題。考慮到(dào)可能會使用第三方大(dà)模型進行推理,會在(zài)一(yī / yì /yí)定程度上(shàng)對比賽成績産生影響。爲(wéi / wèi)了(le/liǎo)确保公平,主辦方将不(bù)同賽道(dào)的(de)結果按照是(shì)否調用第三方大(dà)模型進行分類,并根據最終的(de)分數評選出(chū)各個(gè)不(bù)同類别的(de)前三名。最終,在(zài)120多支參賽隊伍中,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、數學解題推理8支隊伍最終勝出(chū)。其中CPDP-ICST、cogbase、MathEducators三支隊伍同時(shí)是(shì)中文、英文賽道(dào)前三。
(中文賽道(dào)調用第三方大(dà)模型比賽結果)
(中文賽道(dào)未調用第三方大(dà)模型比賽結果)
(英文賽道(dào)調用第三方大(dà)模型比賽結果)
(英文賽道(dào)未調用第三方大(dà)模型比賽結果)
一(yī / yì /yí)直以(yǐ)來(lái),數學都被視爲(wéi / wèi)人(rén)工智能的(de)試金石。目前,大(dà)語言模型在(zài)應對數學推理方面問題時(shí)仍然有很多挑戰。智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台相關負責人(rén)表示,教育作爲(wéi / wèi)大(dà)模型最先落地(dì / de)應用場景之(zhī)一(yī / yì /yí),當大(dà)模型數學能力得到(dào)突破時(shí),将能夠帶來(lái)長久性甚至革命性的(de)變革,能夠讓更多的(de)人(rén)享有更多優質教育資源,真正實現大(dà)規模個(gè)性化教育。此次支持發起全球大(dà)模型數學解題能力競賽,希望能夠借助平台的(de)力量,積極推動科技創新,讓更多的(de)人(rén)可以(yǐ)享受到(dào)科技進步的(de)紅利。
智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台于(yú)2019年經國(guó)家科技部批準設立,由北京世紀好未來(lái)教育科技有限公司負責承建。平台立足教育行業,覆蓋全國(guó),從技術、解決方案和(hé / huò)産業化服務三個(gè)方面,爲(wéi / wèi)教育教學單位、教育科技企業、教育從業者、人(rén)工智能研發人(rén)員等提供全場景、全過程、全周期的(de)服務支持,促進教育産業智能化升級,構建“共生”“互生”“創生”的(de)智慧教育多元化新生态。
原文出(chū)自:http://news.ikanchai.com/2024/0229/577866.shtml
上(shàng)一(yī / yì /yí)篇:用AI教會孩子(zǐ)獨立思考?學而(ér)思“随時(shí)問”已經邁出(chū)關鍵一(yī / yì /yí)步
下一(yī / yì /yí)篇:響應國(guó)家科技人(rén)才培養号召,學而(ér)思素養助力青少年核心素養發展