學而(ér)思聯合谷歌等發起全球大(dà)模型數學解題競賽，120支隊伍同場競技

2024-03-01

2024年2月26日~27日，由智慧教育國(guó)家新一(yī / yì ／yí)代人(rén)工智能開放創新平台、好未來(lái)（學而(ér)思）、谷歌、普林斯頓大(dà)學、暨南大(dà)學等全球領先科技公司、科研機構發起的(de)2024AAAI大(dà)會智慧教育研讨會在(zài)加拿大(dà)溫哥華召開。本次研讨會爲(wéi / wèi)期兩天，以(yǐ)搭建創新與責任橋梁爲(wéi / wèi)主題，旨在(zài)探讨人(rén)工智能尤其是(shì)生成式人(rén)工智能在(zài)教育應用中的(de)創新與責任倫理。

會議期間，AAAI2024 全球大(dà)模型數學解題競賽正式發布比賽結果。這(zhè)是(shì)全球首個(gè)圍繞大(dà)模型數學能力的(de)比賽，吸引了(le／liǎo)來(lái)自全球多個(gè)國(guó)家、地(dì / de)區的(de)120多支隊伍參加。曆經4個(gè)多月的(de)激烈競争，CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、數學解題推理等8支隊伍最終勝出(chū)，赢得比賽。

聚焦生成式人(rén)工智能，深度探讨創新與責任

過去一(yī / yì ／yí)年中，最熱門的(de)話題莫過于(yú)以(yǐ)大(dà)語言模型爲(wéi / wèi)代表的(de)生成式人(rén)工智能。随着全球大(dà)模型熱的(de)流行，有關其創新應用與責任倫理等問題成爲(wéi / wèi)了(le／liǎo)關注的(de)重點。爲(wéi / wèi)此，來(lái)自智慧教育國(guó)家新一(yī / yì ／yí)代人(rén)工智能開放創新平台、好未來(lái)、谷歌、普林斯頓大(dà)學、暨南大(dà)學等全球領先科技公司和(hé / huò)科研機構的(de)專家學者、技術研究人(rén)員在(zài)AAAI2024期間發起“人(rén)工智能爲(wéi / wèi)教育”研讨會。

在(zài)爲(wéi / wèi)期兩天的(de)會議中，與會者帶着各自的(de)思考，通過論文、現場演講、海報、全球數學推理競賽等形式展示并聽取來(lái)自不(bù)同群體的(de)專家學者、技術研究人(rén)員的(de)見解，深度探讨生成式人(rén)工智能的(de)對教育的(de)影響，未來(lái)與挑戰。

針對大(dà)模型技術在(zài)教育領域的(de)影響，有專家表示，教育者應該積極擁抱大(dà)模型而(ér)非抵制他(tā)們，禁止學生在(zài)完成作業時(shí)使用大(dà)模型就(jiù)像20年前禁止互聯網的(de)應用一(yī / yì ／yí)樣徒勞。教育者應該重新設計作業，而(ér)非把精力花在(zài)發現作弊人(rén)員身上(shàng)。更有專家表示，大(dà)模型的(de)出(chū)現讓人(rén)們看到(dào)了(le／liǎo)教育的(de)未來(lái)——每個(gè)學生都有一(yī / yì ／yí)個(gè)與之(zhī)相匹配的(de)家教，他(tā)們更懂得孩子(zǐ)的(de)需求，也(yě)知道(dào)如何讓孩子(zǐ)更爲(wéi / wèi)投入。針對大(dà)模型在(zài)教育中的(de)幻覺、評估等難題，有專家表示，他(tā)們提出(chū)了(le／liǎo)一(yī / yì ／yí)種自動的(de)、基于(yú)叠代精化的(de)測試用例生成方法，即使用LLM和(hé / huò)symphony中的(de)代碼編譯器，并在(zài)Code Workout數據集上(shàng)對此方法進行測試，結果顯示該方法可以(yǐ)生成準确度量學生知識水平的(de)測試用例。

與之(zhī)同時(shí)，與會人(rén)員還深度分享并讨論了(le／liǎo)教育場景中，負責任的(de)人(rén)工智能應該具備哪些标準，應該設置哪些倫理要(yào / yāo)求。包括，在(zài)重要(yào / yāo)的(de)教育決策場景如招生、預警系統、評分中，負責任的(de)人(rén)工智能需要(yào / yāo)盡可能保證公平性、問責性、可解釋性和(hé / huò)透明性；負責任的(de)人(rén)工智能在(zài)教育中的(de)方法論貢獻和(hé / huò)影響，包括但不(bù)限于(yú)生成模型、預測模型、因果推斷、強化學習和(hé / huò)數據收集等。此外，有參會人(rén)員提出(chū)，随着AI尤其是(shì)生成式AI在(zài)教育中的(de)影響越來(lái)越大(dà)，需要(yào / yāo)通過法規、流程等确保教育公平。

全球大(dà)模型數學解題競賽落下帷幕，120支隊伍同場競技

爲(wéi / wèi)了(le／liǎo)提高大(dà)語言模型的(de)數學和(hé / huò)科學推理能力，中國(guó)領軍科技公司好未來(lái)（學而(ér)思）、聯合谷歌、暨南大(dà)學等多家知名科技企業及高校的(de)專家學者，依托智慧教育國(guó)家新一(yī / yì ／yí)代人(rén)工智能開放創新平台，于(yú)2023年10月啓動AAAI2024 全球大(dà)模型數學解題競賽。

會議期間，主辦方還正式對外發布AAAI2024 全球大(dà)模型數學解題競賽正式發布比賽結果。這(zhè)是(shì)全球首個(gè)圍繞大(dà)模型數學能力的(de)比賽，要(yào / yāo)求參賽者用大(dà)模型對給定的(de)數學題目，生成推理步驟與答案，吸引了(le／liǎo)來(lái)自全球多個(gè)國(guó)家、地(dì / de)區的(de)120多支隊伍參加。曆經4個(gè)多月的(de)激烈競争，CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、數學解題推理等8支隊伍最終勝出(chū)，赢得比賽。

比賽分爲(wéi / wèi)兩個(gè)階段，第一(yī / yì ／yí)階段爲(wéi / wèi)公榜階段，主辦方事先随機在(zài)給定的(de)數據集中選出(chū)30%的(de)數據，供參賽者進行大(dà)模型調試。第二階段則爲(wéi / wèi)私榜階段，參賽者需使用第一(yī / yì ／yí)階段調優過的(de)大(dà)模型來(lái)解答數據集中剩餘的(de)70%題目。主辦方通過對比參賽者的(de)模型輸出(chū)答案與正确答案之(zhī)間的(de)準确率，來(lái)爲(wéi / wèi)參賽者進行排名。第二階段的(de)成績将會作爲(wéi / wèi)比賽的(de)最終成績。

爲(wéi / wèi)了(le／liǎo)更好地(dì / de)探究各類大(dà)模型在(zài)不(bù)同語言上(shàng)的(de)數學能力，主辦方将比賽設置中英文兩個(gè)賽道(dào)。由好未來(lái)（學而(ér)思）提供比賽所用的(de)中英文數據集——TAL-SAQ7K-CN、TAL-SAQ6K-EN，囊括了(le／liǎo)國(guó)内外多個(gè)中小學數學競賽真題。考慮到(dào)可能會使用第三方大(dà)模型進行推理，會在(zài)一(yī / yì ／yí)定程度上(shàng)對比賽成績産生影響。爲(wéi / wèi)了(le／liǎo)确保公平，主辦方将不(bù)同賽道(dào)的(de)結果按照是(shì)否調用第三方大(dà)模型進行分類，并根據最終的(de)分數評選出(chū)各個(gè)不(bù)同類别的(de)前三名。最終，在(zài)120多支參賽隊伍中，CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、數學解題推理8支隊伍最終勝出(chū)。其中CPDP-ICST、cogbase、MathEducators三支隊伍同時(shí)是(shì)中文、英文賽道(dào)前三。

（中文賽道(dào)調用第三方大(dà)模型比賽結果）

（中文賽道(dào)未調用第三方大(dà)模型比賽結果）

（英文賽道(dào)調用第三方大(dà)模型比賽結果）

（英文賽道(dào)未調用第三方大(dà)模型比賽結果）

一(yī / yì ／yí)直以(yǐ)來(lái)，數學都被視爲(wéi / wèi)人(rén)工智能的(de)試金石。目前，大(dà)語言模型在(zài)應對數學推理方面問題時(shí)仍然有很多挑戰。智慧教育國(guó)家新一(yī / yì ／yí)代人(rén)工智能開放創新平台相關負責人(rén)表示，教育作爲(wéi / wèi)大(dà)模型最先落地(dì / de)應用場景之(zhī)一(yī / yì ／yí)，當大(dà)模型數學能力得到(dào)突破時(shí)，将能夠帶來(lái)長久性甚至革命性的(de)變革，能夠讓更多的(de)人(rén)享有更多優質教育資源，真正實現大(dà)規模個(gè)性化教育。此次支持發起全球大(dà)模型數學解題能力競賽，希望能夠借助平台的(de)力量，積極推動科技創新，讓更多的(de)人(rén)可以(yǐ)享受到(dào)科技進步的(de)紅利。

智慧教育國(guó)家新一(yī / yì ／yí)代人(rén)工智能開放創新平台于(yú)2019年經國(guó)家科技部批準設立，由北京世紀好未來(lái)教育科技有限公司負責承建。平台立足教育行業，覆蓋全國(guó)，從技術、解決方案和(hé / huò)産業化服務三個(gè)方面，爲(wéi / wèi)教育教學單位、教育科技企業、教育從業者、人(rén)工智能研發人(rén)員等提供全場景、全過程、全周期的(de)服務支持，促進教育産業智能化升級，構建“共生”“互生”“創生”的(de)智慧教育多元化新生态。

原文出(chū)自:http://news.ikanchai.com/2024/0229/577866.shtml

上(shàng)一(yī / yì ／yí)篇：用AI教會孩子(zǐ)獨立思考？學而(ér)思“随時(shí)問”已經邁出(chū)關鍵一(yī / yì ／yí)步

下一(yī / yì ／yí)篇：響應國(guó)家科技人(rén)才培養号召，學而(ér)思素養助力青少年核心素養發展

新聞中心

News center

學而(ér)思聯合谷歌等發起全球大(dà)模型數學解題競賽，120支隊伍同場競技