隨著大模型技術(shù)的迅速迭代,以及模型即服務(wù)(Model as a Service,MaaS)產(chǎn)業(yè)的快速發(fā)展,國內(nèi)外越來越多的MaaS平臺廠商通過公有云API方式供給大模型服務(wù),助推大模型普惠化規(guī)模化落地。與此同時,行業(yè)用戶普遍缺乏對大模型服務(wù)性能的直觀量化判斷依據(jù),面臨選型困難、服務(wù)質(zhì)量難以對標(biāo)等現(xiàn)實問題。近日,中國信息通信研究院(以下簡稱“中國信通院”)聯(lián)合人工智能大模型及軟硬件評測工業(yè)和信息化部重點實驗室(以下簡稱實驗室)、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)模型服務(wù)(MaaS)工作組,共同發(fā)布了2025年度公有云大模型服務(wù)性能監(jiān)測結(jié)果。此次監(jiān)測旨在科學(xué)、系統(tǒng)、客觀地衡量公有云大模型服務(wù)性能水平,推動大模型技術(shù)的普惠化與規(guī)?;瘧?yīng)用。
大模型服務(wù)性能持續(xù)優(yōu)化 用戶體驗顯著提升
本次監(jiān)測周期為2025年全年,重點監(jiān)測了42個原廠大模型服務(wù),其中國內(nèi)38個,國外4個。監(jiān)測結(jié)果顯示,大模型服務(wù)性能在多個維度上均實現(xiàn)了顯著提升。
1.大部分大模型服務(wù)的調(diào)用成功率已趨于穩(wěn)定,成功率逼近100%。國內(nèi)方面,3月份以來調(diào)用成功率均超過99%,12月份各模型平均調(diào)用成功率達(dá)到99.9%,其中68%的大模型達(dá)到100%,大模型服務(wù)的穩(wěn)定性持續(xù)向好。被監(jiān)測的4款國外大模型服務(wù)調(diào)用成功率均達(dá)到100%。
圖 1 各原廠大模型12月份調(diào)用成功率平均值
圖 2 被監(jiān)測的所有國內(nèi)大模型每月調(diào)用成功率平均值
2.多數(shù)大模型服務(wù)的每秒輸出字符數(shù)(TPS)呈現(xiàn)上升趨勢,第四季度最為明顯。國內(nèi)方面,各模型整體TPS平均值呈現(xiàn)逐月上升的趨勢,2025年9月至12月TPS快速上升,月平均漲幅達(dá)8%。第四季度TPS增長明顯,12月份相比2月份提升約67%,各模型的平均TPS達(dá)到50.5(個/秒),相比8月份提升44%。國外模型GPT和Claude的TPS均值達(dá)到51.35(個/秒)。
圖 3 各原廠大模型12月份TPS平均值
圖 4 每月所有被監(jiān)測國內(nèi)大模型TPS平均值
3.多數(shù)大模型服務(wù)的首字符時延(TTFT)各月平均數(shù)據(jù)均低于1秒,第四季度下降明顯。國內(nèi)方面,12月份76%的大模型TTFT數(shù)值已達(dá)到1秒以下,29%的大模型達(dá)到0.5秒以下,中位數(shù)為0.58秒,明顯低于前三個季度的數(shù)值。國外模型GPT和Claude模型的TTFT均低于0.5秒。
圖 5 各原廠大模型12月份TTFT平均值
圖 6 被監(jiān)測所有國內(nèi)大模型每月的TTFT平均值
4.國產(chǎn)開源大模型成為全球開發(fā)者首選的受歡迎程度日益提升。根據(jù)開源大模型在被監(jiān)測MaaS平臺中的上線率顯示,DeepSeek上線率達(dá)到100%,其次為Kimi、Qwen、MiniMax、GLM、GPT、Llama,上線率分別為91%、91%、73%、64%、55%、27%。
表 1 典型開源大模型在各MaaS平臺的上線率統(tǒng)計
5.大模型服務(wù)調(diào)用價格逐步下降,國外模型價格仍遠(yuǎn)高于國內(nèi)。隨著技術(shù)的不斷成熟和市場競爭的加劇,大模型服務(wù)調(diào)用價格逐步下降。國內(nèi)多數(shù)模型價格已低于10元/百萬Token,而國外模型價格仍遠(yuǎn)高于國內(nèi),如GPT 5.2和Claude Opus 4.5的價格仍分別高達(dá)33.7元/百萬Token和70元/百萬Token。
圖 7 原廠大模型發(fā)布時歸一化價格趨勢圖
6.更長的模型上下文長度成為新的發(fā)展趨勢。
被監(jiān)測的模型中,128K和256K上下文占比較高,共計約為47.6%,相比上半年提升了10個百分點,顯示出市場對長上下文大模型需求的增長。
圖 8 原廠大模型上下文長度占比
MaaS平臺工程化能力不斷迭代,系統(tǒng)穩(wěn)定性持續(xù)提升
本次監(jiān)測是指對納入監(jiān)測范圍的13個國內(nèi)外(國內(nèi)11個,國外2個)MaaS平臺所提供的DeepSeek-R1和DeepSeek-V3(含V3.1和V3.2)相關(guān)版本的API服務(wù)進(jìn)行監(jiān)測,監(jiān)測周期為2025年2月至12月。
1.公有云MaaS平臺供給的DeepSeek模型服務(wù)自3月份以來呈現(xiàn)持續(xù)優(yōu)化趨勢。DeepSeek在各MaaS平臺上的TTFT平均值,R1由2月份的3.07秒降低至9月份的1.02秒,V3由2月份的2.4秒降低至12月份的1.35秒;TPS平均值R1由2月份的17.86(個/秒)提升至12月份的37.29(個/秒),V3由19.55(個/秒)提升至33.27(個/秒)。國外方面,亞馬遜和谷歌云TTFT均可達(dá)到0.8秒上下,亞馬遜的TPS達(dá)到96.19(個/秒),谷歌云的TPS達(dá)到113.63(個/秒)。
圖 9 DeepSeek每月所有平臺TTFT平均值
圖 10 DeepSeek每月所有平臺TPS平均值
2.公有云MaaS平臺的系統(tǒng)穩(wěn)定性大幅提升,當(dāng)前較為平穩(wěn)。各平臺供給的DeepSeek模型服務(wù)調(diào)用成功率,自3月份以來均大于99%,R1由2月份的87.01%提升至12月份的99.63%,V3由94.05%提升至99.83%。
圖 11 DeepSeek每月所有平臺調(diào)用成功率平均值
未來展望:持續(xù)優(yōu)化監(jiān)測體系 推動大模型服務(wù)高質(zhì)效發(fā)展
中國信通院表示,未來將持續(xù)優(yōu)化大模型服務(wù)監(jiān)測體系,擴(kuò)大監(jiān)測范圍,加快監(jiān)測能力建設(shè),并擴(kuò)充產(chǎn)業(yè)服務(wù)能力。在能力建設(shè)方面,將優(yōu)化多模態(tài)大模型的監(jiān)測能力,增加國內(nèi)外各類最新大模型服務(wù)能力的監(jiān)測;在產(chǎn)業(yè)服務(wù)方面,將構(gòu)建大模型服務(wù)監(jiān)測結(jié)果展示平臺,為企業(yè)提供定制化的大模型服務(wù)性能指標(biāo)測試和分析服務(wù)。
此次監(jiān)測結(jié)果的發(fā)布,不僅為行業(yè)用戶提供了科學(xué)、系統(tǒng)、客觀的大模型服務(wù)性能評估依據(jù),也為推動大模型技術(shù)的普及和應(yīng)用奠定了堅實基礎(chǔ)。由于當(dāng)前報告覆蓋國內(nèi)外MaaS平臺和模型服務(wù)數(shù)量有限,監(jiān)測數(shù)據(jù)僅供行業(yè)參考,報告整理可能存在疏漏之處,對該報告的任何問題歡迎與我們溝通交流,后續(xù)將結(jié)合最新數(shù)據(jù)持續(xù)更新完善。
中國信通院將繼續(xù)攜手產(chǎn)業(yè)界各方力量,共同推動大模型服務(wù)向更高質(zhì)量、更高效率的方向發(fā)展。
附:監(jiān)測說明
1.本監(jiān)測結(jié)果僅供參考,由于監(jiān)測頻率、監(jiān)測時長等維度的限制,監(jiān)測結(jié)果并不能作為衡量公有云大模型服務(wù)性能以及MaaS平臺能力的絕對依據(jù)。且影響首Token時延(TTFT)和每秒輸出Token數(shù)(TPS)的因素較多,如模型尺寸、網(wǎng)絡(luò)時延、用戶數(shù)量、算力及其調(diào)度能力、模型能力等。
2.監(jiān)測基礎(chǔ)大語言模型所使用的數(shù)據(jù)集來自常見的大語言模型基準(zhǔn)測試集,構(gòu)成固定題庫。監(jiān)測時從題庫中隨機(jī)選擇題目,且為了減少請求時命中緩存的情況,為每個題目設(shè)置了不同長度的干擾Tokens,請求時將干擾Tokens和題目組合成長中短三種類型的請求。
3.監(jiān)測方法包括每日監(jiān)測法、集中監(jiān)測法和人工監(jiān)測法:
每日監(jiān)測法,是指通過每日定點的持續(xù)性自動化監(jiān)測,衡量大模型API服務(wù)持續(xù)的穩(wěn)定性,包括首Token時延(TTFT)和每秒輸出Token數(shù)(TPS)。該方法選擇北京、上海、深圳、成都4個云節(jié)點,于每日選擇不同的5個時間整點,向所有大模型API服務(wù)連續(xù)發(fā)送3次長中短請求,并計算其TTFT和TPS。國外服務(wù)器位于硅谷。
集中監(jiān)測法,是指每周選擇一個固定時間段集中開展自動化監(jiān)測,衡量大模型API服務(wù)的調(diào)用成功率。該方法選擇北京云節(jié)點,于每周一個固定的時間段,同時向所有大模型API連續(xù)發(fā)送長中短共300次請求,記錄請求成功與否。
人工監(jiān)測法,是指通過人工對各平臺披露的大模型API服務(wù)的輸入輸出價格、每分鐘請求數(shù)(RPM)和每分鐘可處理的Token數(shù)(TPM)等信息進(jìn)行統(tǒng)計更新。
4.每秒輸出Token數(shù)(TPS)計算公式如下。
5.模型價格歸一化計算公式如下。
6.所有大模型API服務(wù)的調(diào)用統(tǒng)一采用流式輸出,其余設(shè)置均采用默認(rèn)值。

新華報業(yè)網(wǎng)
Android版
iPhone版