2026年2月3日,中國(guó)信息通信研究院“方升” 智測(cè)研討會(huì)在京成功召開(kāi)。本次會(huì)議以“人工智能評(píng)測(cè)體系的技術(shù)創(chuàng)新與產(chǎn)業(yè)實(shí)踐”為核心議題,旨在推動(dòng)構(gòu)建科學(xué)、系統(tǒng)、可信的AI評(píng)測(cè)生態(tài),為我國(guó)人工智能產(chǎn)業(yè)的高質(zhì)量發(fā)展提供有力支撐。石景山園管委會(huì)區(qū)科委主任高延娜、中國(guó)信息通信研究院副院長(zhǎng)魏亮出席會(huì)議并致辭。同時(shí),本次研討會(huì)匯聚了來(lái)自北京市經(jīng)信局、石景山區(qū)政府相關(guān)部門(mén),以及哈爾濱工業(yè)大學(xué)、北京航空航天大學(xué)、清華大學(xué)、中科院自動(dòng)化所等高校與科研機(jī)構(gòu),并吸引了一批領(lǐng)軍企業(yè)及行業(yè)協(xié)會(huì)代表,共計(jì)200余位專(zhuān)家與業(yè)內(nèi)人士共襄盛會(huì)。
多方齊聚,共謀AI評(píng)測(cè)新發(fā)展
會(huì)議伊始,石景山園管委會(huì)區(qū)科委主任高延娜在致辭中表示,石景山區(qū)正加速向智能時(shí)代轉(zhuǎn)型,已構(gòu)建起“主導(dǎo)+特色+未來(lái)”梯次發(fā)展的現(xiàn)代化產(chǎn)業(yè)體系。2025年,石景山區(qū)地區(qū)生產(chǎn)總值達(dá)1379.4億元,同比增長(zhǎng)6.5%,軟件和信息技術(shù)服務(wù)業(yè)實(shí)現(xiàn)增加值625億元,增長(zhǎng)11.3%,為人工智能產(chǎn)業(yè)發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。石景山區(qū)通過(guò)全面謀劃布局、注重?cái)?shù)智創(chuàng)新、拓展應(yīng)用場(chǎng)景三大舉措,聯(lián)合信通院共建人工智能大模型及軟硬件評(píng)測(cè)工信部重點(diǎn)實(shí)驗(yàn)室,構(gòu)建全鏈條評(píng)測(cè)服務(wù)體系,打造AI創(chuàng)新高地。
北京市石景山園管委會(huì)區(qū)科委主任 高延娜
中國(guó)信通院副院長(zhǎng)魏亮在致辭中強(qiáng)調(diào),黨中央、國(guó)務(wù)院高度重視人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展,構(gòu)建統(tǒng)一、科學(xué)、權(quán)威的基準(zhǔn)測(cè)試體系對(duì)牽引技術(shù)創(chuàng)新、加速應(yīng)用落地、增強(qiáng)國(guó)際話(huà)語(yǔ)權(quán)具有重要意義。他介紹,中國(guó)信通院在工信部指導(dǎo)下研發(fā)的“方升”大模型基準(zhǔn)測(cè)試體系已完成從1.0到3.0的升級(jí),形成了覆蓋基礎(chǔ)屬性、通用能力、行業(yè)應(yīng)用與未來(lái)智能的全維度評(píng)測(cè)框架,并已向部委報(bào)送多輪測(cè)試報(bào)告,為決策提供了重要參考。未來(lái),研究院將持續(xù)完善評(píng)測(cè)體系、強(qiáng)化技術(shù)平臺(tái)支撐,并與產(chǎn)學(xué)研各界深化協(xié)同,共建開(kāi)放的人工智能評(píng)測(cè)生態(tài)。
中國(guó)信息通信研究院副院長(zhǎng) 魏亮
前沿分享,洞察AI技術(shù)新趨勢(shì)
研討環(huán)節(jié),多位專(zhuān)家?guī)?lái)了前沿研究成果分享。哈爾濱工業(yè)大學(xué)人工智能研究院院長(zhǎng)劉劼帶來(lái)了《智能體+的思考與實(shí)踐》主題報(bào)告,剖析了智能體技術(shù)的演進(jìn)路徑與應(yīng)用挑戰(zhàn),提出了CEDAR通才智能體體系結(jié)構(gòu),為智能體的規(guī)范化發(fā)展提供了新思路。北京航空航天大學(xué)軟件學(xué)院院長(zhǎng)胡春明聚焦《智能化軟件認(rèn)識(shí)與實(shí)踐探索》,探討了人工智能對(duì)軟件形態(tài)、開(kāi)發(fā)范式的深刻影響,以及智能化軟件的可信保障路徑。中科院自動(dòng)化所副總工程師、紫東太初大模型中心常務(wù)副主任王金橋分享了多模態(tài)人工智能的發(fā)展趨勢(shì),并介紹了紫東太初大模型在國(guó)產(chǎn)化適配、多模態(tài)交互等方面的實(shí)踐成果。清華大學(xué)計(jì)算機(jī)系副研究員、人工智能研究院院長(zhǎng)助理蘇航則闡述了數(shù)據(jù)驅(qū)動(dòng)的世界模型路徑演進(jìn),展現(xiàn)了物理智能與具身智能的前沿探索。
此外,高等教育出版社信息技術(shù)部主任楊京峰介紹了教育大模型基準(zhǔn)測(cè)試能力體系建設(shè)情況,提出了業(yè)務(wù)驅(qū)動(dòng)的龍鳳教育大模型架構(gòu)。中國(guó)信通院人工智能研究所平臺(tái)與工程化部副主任李蓀發(fā)布了政務(wù)大模型基準(zhǔn)測(cè)試能力體系,聯(lián)合多方構(gòu)建政務(wù)評(píng)測(cè)數(shù)據(jù)集,推動(dòng)政務(wù)大模型安全合規(guī)落地。
權(quán)威發(fā)布,揭示AI評(píng)測(cè)新成果
會(huì)上,中國(guó)信通院人工智能研究所所長(zhǎng)魏凱發(fā)布了《2025“方升”基準(zhǔn)測(cè)試觀察》。據(jù)介紹,“方升”3.0體系涵蓋基礎(chǔ)屬性、通用能力、任務(wù)能力、行業(yè)能力、未來(lái)高級(jí)智能能力五大層次,已形成780多萬(wàn)條動(dòng)態(tài)更新的測(cè)試數(shù)據(jù),為模型選型與應(yīng)用提供了科學(xué)依據(jù)。
評(píng)測(cè)結(jié)果顯示,語(yǔ)言大模型基礎(chǔ)能力國(guó)內(nèi)模型進(jìn)展顯著,推理能力上國(guó)內(nèi)模型仍有差距,代碼能力則表現(xiàn)優(yōu)異。具體來(lái)看,谷歌的Gemini 3 Pro位列大語(yǔ)言推理能力榜單第一名,OpenAI的GPT-5.2和阿里巴巴的Qwen3-max-thinking位居第二和第三,其中Qwen3-max-thinking是國(guó)內(nèi)最好的推理模型。月之暗面的Kimi K2.5和深度求索的DeepSeek-V3.2-Thinking分別排名國(guó)內(nèi)第二和第三。在代碼任務(wù)方面,Anthropic的Claude 4.5模型排名代碼榜單首位,月之暗面的Kimi2.5在國(guó)內(nèi)模型中表現(xiàn)最優(yōu)。
共建生態(tài),攜手推動(dòng)AI評(píng)測(cè)新發(fā)展
會(huì)議還舉行了第二批“方升”行業(yè)基準(zhǔn)測(cè)試體系共建儀式。中央財(cái)經(jīng)大學(xué)、中國(guó)農(nóng)業(yè)大學(xué)、中國(guó)海洋大學(xué)、北京第二外國(guó)語(yǔ)學(xué)院、北京工業(yè)大學(xué)、中國(guó)信通院、中國(guó)司法大數(shù)據(jù)研究院、高等教育出版社、中醫(yī)四診數(shù)智裝備研發(fā)北京市重點(diǎn)實(shí)驗(yàn)室、中車(chē)工業(yè)研究院、南鋼人工智能研究院、中移齊魯創(chuàng)新院、青島港國(guó)際股份有限公司、楓清科技等14家單位代表上臺(tái)參與啟動(dòng),將攜手研制貼近真實(shí)業(yè)務(wù)場(chǎng)景的評(píng)測(cè)基準(zhǔn),推動(dòng)大模型從“表現(xiàn)優(yōu)異”邁向“應(yīng)用卓越”。
第二批 “方升” 行業(yè)基準(zhǔn)測(cè)試體系共建啟動(dòng)儀式
專(zhuān)題研討,深化AI評(píng)測(cè)技術(shù)協(xié)作
本次研討會(huì)同步設(shè)立了六場(chǎng)專(zhuān)題研討會(huì),圍繞基礎(chǔ)模型評(píng)測(cè)、全模態(tài)和世界模型評(píng)測(cè)、智能體測(cè)試、代碼大模型基準(zhǔn)測(cè)試、數(shù)據(jù)集質(zhì)量評(píng)估、行業(yè)模型評(píng)估等議題開(kāi)展了閉門(mén)研討。與會(huì)專(zhuān)家深入交流,共同探索AI評(píng)測(cè)技術(shù)的新路徑、新方法,為推動(dòng)我國(guó)人工智能評(píng)測(cè)體系的建設(shè)與發(fā)展提供了重要交流平臺(tái)。
此次“方升”智測(cè)研討會(huì)的成功舉辦,不僅展示了我國(guó)在人工智能評(píng)測(cè)領(lǐng)域的最新成果,也為產(chǎn)學(xué)研各界搭建了一個(gè)開(kāi)放、協(xié)同、可持續(xù)的交流平臺(tái)。未來(lái),中國(guó)信通院將繼續(xù)深化面向AGI、產(chǎn)業(yè)應(yīng)用與工程效能的評(píng)測(cè)能力建設(shè),聯(lián)合產(chǎn)學(xué)研各界共建開(kāi)放、協(xié)同、可持續(xù)的人工智能評(píng)測(cè)生態(tài),為我國(guó)大模型技術(shù)創(chuàng)新與行業(yè)落地提供權(quán)威、科學(xué)的評(píng)測(cè)支撐,助力我國(guó)人工智能產(chǎn)業(yè)健康有序發(fā)展。

新華報(bào)業(yè)網(wǎng)
Android版
iPhone版