登录国产黄色一区二区三区,天天操天天色天天搞,久久国产精品色av免费观看

隨著大模型技術(shù)的迅速迭代，以及模型即服務(wù)（Model as a Service，MaaS）產(chǎn)業(yè)的快速發(fā)展，國內(nèi)外越來越多的MaaS平臺廠商通過公有云API方式供給大模型服務(wù)，助推大模型普惠化規(guī)模化落地。與此同時，行業(yè)用戶普遍缺乏對大模型服務(wù)性能的直觀量化判斷依據(jù)，面臨選型困難、服務(wù)質(zhì)量難以對標(biāo)等現(xiàn)實問題。近日，中國信息通信研究院（以下簡稱“中國信通院”）聯(lián)合人工智能大模型及軟硬件評測工業(yè)和信息化部重點實驗室（以下簡稱實驗室）、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟（AIIA）模型服務(wù)（MaaS）工作組，共同發(fā)布了2025年度公有云大模型服務(wù)性能監(jiān)測結(jié)果。此次監(jiān)測旨在科學(xué)、系統(tǒng)、客觀地衡量公有云大模型服務(wù)性能水平，推動大模型技術(shù)的普惠化與規(guī)?；瘧?yīng)用。

大模型服務(wù)性能持續(xù)優(yōu)化用戶體驗顯著提升

本次監(jiān)測周期為2025年全年，重點監(jiān)測了42個原廠大模型服務(wù)，其中國內(nèi)38個，國外4個。監(jiān)測結(jié)果顯示，大模型服務(wù)性能在多個維度上均實現(xiàn)了顯著提升。

1.大部分大模型服務(wù)的調(diào)用成功率已趨于穩(wěn)定，成功率逼近100%。國內(nèi)方面，3月份以來調(diào)用成功率均超過99%，12月份各模型平均調(diào)用成功率達(dá)到99.9%，其中68%的大模型達(dá)到100%，大模型服務(wù)的穩(wěn)定性持續(xù)向好。被監(jiān)測的4款國外大模型服務(wù)調(diào)用成功率均達(dá)到100%。

圖 1 各原廠大模型12月份調(diào)用成功率平均值

圖 2 被監(jiān)測的所有國內(nèi)大模型每月調(diào)用成功率平均值

2.多數(shù)大模型服務(wù)的每秒輸出字符數(shù)（TPS）呈現(xiàn)上升趨勢，第四季度最為明顯。國內(nèi)方面，各模型整體TPS平均值呈現(xiàn)逐月上升的趨勢，2025年9月至12月TPS快速上升，月平均漲幅達(dá)8%。第四季度TPS增長明顯，12月份相比2月份提升約67%，各模型的平均TPS達(dá)到50.5（個/秒），相比8月份提升44%。國外模型GPT和Claude的TPS均值達(dá)到51.35（個/秒）。

圖 3 各原廠大模型12月份TPS平均值

圖 4 每月所有被監(jiān)測國內(nèi)大模型TPS平均值

3.多數(shù)大模型服務(wù)的首字符時延（TTFT）各月平均數(shù)據(jù)均低于1秒，第四季度下降明顯。國內(nèi)方面，12月份76%的大模型TTFT數(shù)值已達(dá)到1秒以下，29%的大模型達(dá)到0.5秒以下，中位數(shù)為0.58秒，明顯低于前三個季度的數(shù)值。國外模型GPT和Claude模型的TTFT均低于0.5秒。

圖 5 各原廠大模型12月份TTFT平均值

圖 6 被監(jiān)測所有國內(nèi)大模型每月的TTFT平均值

4.國產(chǎn)開源大模型成為全球開發(fā)者首選的受歡迎程度日益提升。根據(jù)開源大模型在被監(jiān)測MaaS平臺中的上線率顯示，DeepSeek上線率達(dá)到100%，其次為Kimi、Qwen、MiniMax、GLM、GPT、Llama，上線率分別為91%、91%、73%、64%、55%、27%。

表 1 典型開源大模型在各MaaS平臺的上線率統(tǒng)計

5.大模型服務(wù)調(diào)用價格逐步下降，國外模型價格仍遠(yuǎn)高于國內(nèi)。隨著技術(shù)的不斷成熟和市場競爭的加劇，大模型服務(wù)調(diào)用價格逐步下降。國內(nèi)多數(shù)模型價格已低于10元/百萬Token，而國外模型價格仍遠(yuǎn)高于國內(nèi)，如GPT 5.2和Claude Opus 4.5的價格仍分別高達(dá)33.7元/百萬Token和70元/百萬Token。

圖 7 原廠大模型發(fā)布時歸一化價格趨勢圖

6.更長的模型上下文長度成為新的發(fā)展趨勢。

被監(jiān)測的模型中，128K和256K上下文占比較高，共計約為47.6%，相比上半年提升了10個百分點，顯示出市場對長上下文大模型需求的增長。

圖 8 原廠大模型上下文長度占比

MaaS平臺工程化能力不斷迭代，系統(tǒng)穩(wěn)定性持續(xù)提升

本次監(jiān)測是指對納入監(jiān)測范圍的13個國內(nèi)外（國內(nèi)11個，國外2個）MaaS平臺所提供的DeepSeek-R1和DeepSeek-V3（含V3.1和V3.2）相關(guān)版本的API服務(wù)進(jìn)行監(jiān)測，監(jiān)測周期為2025年2月至12月。

1.公有云MaaS平臺供給的DeepSeek模型服務(wù)自3月份以來呈現(xiàn)持續(xù)優(yōu)化趨勢。DeepSeek在各MaaS平臺上的TTFT平均值，R1由2月份的3.07秒降低至9月份的1.02秒，V3由2月份的2.4秒降低至12月份的1.35秒；TPS平均值R1由2月份的17.86（個/秒）提升至12月份的37.29（個/秒），V3由19.55（個/秒）提升至33.27（個/秒）。國外方面，亞馬遜和谷歌云TTFT均可達(dá)到0.8秒上下，亞馬遜的TPS達(dá)到96.19（個/秒），谷歌云的TPS達(dá)到113.63（個/秒）。

圖 9 DeepSeek每月所有平臺TTFT平均值

圖 10 DeepSeek每月所有平臺TPS平均值

2.公有云MaaS平臺的系統(tǒng)穩(wěn)定性大幅提升，當(dāng)前較為平穩(wěn)。各平臺供給的DeepSeek模型服務(wù)調(diào)用成功率，自3月份以來均大于99%，R1由2月份的87.01%提升至12月份的99.63%，V3由94.05%提升至99.83%。

圖 11 DeepSeek每月所有平臺調(diào)用成功率平均值

未來展望：持續(xù)優(yōu)化監(jiān)測體系推動大模型服務(wù)高質(zhì)效發(fā)展

中國信通院表示，未來將持續(xù)優(yōu)化大模型服務(wù)監(jiān)測體系，擴(kuò)大監(jiān)測范圍，加快監(jiān)測能力建設(shè)，并擴(kuò)充產(chǎn)業(yè)服務(wù)能力。在能力建設(shè)方面，將優(yōu)化多模態(tài)大模型的監(jiān)測能力，增加國內(nèi)外各類最新大模型服務(wù)能力的監(jiān)測；在產(chǎn)業(yè)服務(wù)方面，將構(gòu)建大模型服務(wù)監(jiān)測結(jié)果展示平臺，為企業(yè)提供定制化的大模型服務(wù)性能指標(biāo)測試和分析服務(wù)。

此次監(jiān)測結(jié)果的發(fā)布，不僅為行業(yè)用戶提供了科學(xué)、系統(tǒng)、客觀的大模型服務(wù)性能評估依據(jù)，也為推動大模型技術(shù)的普及和應(yīng)用奠定了堅實基礎(chǔ)。由于當(dāng)前報告覆蓋國內(nèi)外MaaS平臺和模型服務(wù)數(shù)量有限，監(jiān)測數(shù)據(jù)僅供行業(yè)參考，報告整理可能存在疏漏之處，對該報告的任何問題歡迎與我們溝通交流，后續(xù)將結(jié)合最新數(shù)據(jù)持續(xù)更新完善。
中國信通院將繼續(xù)攜手產(chǎn)業(yè)界各方力量，共同推動大模型服務(wù)向更高質(zhì)量、更高效率的方向發(fā)展。

附：監(jiān)測說明

1.本監(jiān)測結(jié)果僅供參考，由于監(jiān)測頻率、監(jiān)測時長等維度的限制，監(jiān)測結(jié)果并不能作為衡量公有云大模型服務(wù)性能以及MaaS平臺能力的絕對依據(jù)。且影響首Token時延（TTFT）和每秒輸出Token數(shù)（TPS）的因素較多，如模型尺寸、網(wǎng)絡(luò)時延、用戶數(shù)量、算力及其調(diào)度能力、模型能力等。

2.監(jiān)測基礎(chǔ)大語言模型所使用的數(shù)據(jù)集來自常見的大語言模型基準(zhǔn)測試集，構(gòu)成固定題庫。監(jiān)測時從題庫中隨機(jī)選擇題目，且為了減少請求時命中緩存的情況，為每個題目設(shè)置了不同長度的干擾Tokens，請求時將干擾Tokens和題目組合成長中短三種類型的請求。

3.監(jiān)測方法包括每日監(jiān)測法、集中監(jiān)測法和人工監(jiān)測法：

每日監(jiān)測法，是指通過每日定點的持續(xù)性自動化監(jiān)測，衡量大模型API服務(wù)持續(xù)的穩(wěn)定性，包括首Token時延（TTFT）和每秒輸出Token數(shù)（TPS）。該方法選擇北京、上海、深圳、成都4個云節(jié)點，于每日選擇不同的5個時間整點，向所有大模型API服務(wù)連續(xù)發(fā)送3次長中短請求，并計算其TTFT和TPS。國外服務(wù)器位于硅谷。

集中監(jiān)測法，是指每周選擇一個固定時間段集中開展自動化監(jiān)測，衡量大模型API服務(wù)的調(diào)用成功率。該方法選擇北京云節(jié)點，于每周一個固定的時間段，同時向所有大模型API連續(xù)發(fā)送長中短共300次請求，記錄請求成功與否。

人工監(jiān)測法，是指通過人工對各平臺披露的大模型API服務(wù)的輸入輸出價格、每分鐘請求數(shù)（RPM）和每分鐘可處理的Token數(shù)（TPM）等信息進(jìn)行統(tǒng)計更新。

4.每秒輸出Token數(shù)（TPS）計算公式如下。