久久av免费看,日本久久二区,久久国产精品色av免费看,波多视频一区

首頁 > 新房知識 > 新房知識 > GPT-5編程成績有貓膩!自刪23道測試題,關鍵基準還是自己提的

GPT-5編程成績有貓膩!自刪23道測試題,關鍵基準還是自己提的

發布時間:2025-08-13 16:26:51 來源: 13041198719

別急著用GPT-5編程了,可能它能力沒有你想象中那么強。

有人發現,官方測試編程能力用的SWE-bench Verified,但貨不對板,只用了477個問題。

什么意思呢?我們知道,SWE-bench是評估模型/智能體自主編程能力的一個通用且常用的指標。而SWE-bench Verified作為它的子集,本來一共有500個問題。

現在相當于OpenAI自行省略的那23個問題,自己搞了個子集的“子集”來評估模型能力。

而如果這些題默認零分,那么得分實際上是比Claude Opus 4.1還要低的。因為現在僅有0.4%的差距。

OpenAI這種自行忽略23道題的操作,已經不是第一次了。

早在GPT-4.1發布時就信誓旦旦地說,之所以忽略是因為這些問題的解決方案無法在他們的基礎設施運行。

離譜了朋友們!要知道SWE-bench Verified這個OpenAI自己提的,理由也是因為SWE-bench無法系統評估模型的編程能力,所以決定自己再提煉一個子集。

現在又因為測試題無法正常運行,所以自行又搞了個子集的“子集”。

本來以為GPT-5直播里出現圖表錯誤已經夠離譜了,結果現在告訴我這里面的成績可能還有假?

OpenAI一直省略23個問題

已經開始有網友發現,GPT-5能力并不比Claude 4.1 Opus好多少。

現在來看,這個官方給的結果或許根本沒有參考價值。

網友們除了自行忽略部分測試題,“偽造了結果”這一發現外,還發現,他們是將具有最大思維努力的GPT-5與沒有擴展思維僅靠原始模型輸出的Opus 4.1進行比較。這種比較實際上沒有參考意義。

而他們之所以只使用477個問題來測試,理由也跟GPT-4.1發布時一樣,因為他們內部的基礎設施運行不了剩下的23個問題。

今年4月份發布GPT-4.1時,在同一基準僅使用477個問題下得得分在54.6%。

當時官方還指出,如果保守地將這些問題的得分定為 0,那么54.6%的得分就變成了52.1%。即便是這樣,這個數值放在當時也是最高的。

而Anthropic這邊,其實也已經發現了OpenAI這個操作。

就在Claude Opus 4.1發布公布編程成績之時,在文章的末尾有這么一句話。

對于Claude 4系列模型,他們繼續使用相同的簡單框架,該框架僅為模型配備了兩種工具——一個Bash工具和一個通過字符串替換進行文件編輯的工具,并且不再包含Claude 3.7 Sonnet中使用的第三個“規劃工具”。

并在最后注明:在所有Claude 4模型中,他們報告的分數基于完整的500個問題。OpenAI模型的得分基于477道問題的子集進行報告。

基準還是OpenAI自己提的

如果說,SWE-bench Verified還是OpenAI自己提的基準,那這件事就更離譜了。

這不就相當于自己搬起石頭砸自己的腳啦嘛。

當時啊還是因為類似的原因——他們測試發現SWE-bench的一些任務可能難以解決甚至無法解決,導致SWE-bench無法系統性評估模型的自主編程能力。

于是乎,他們決定與SWE-bench的作者合作,決定弄出個新版本,希望能夠提供更準確的評估。

他們共同發起了一項人工注釋活動,共有93位資深程序員參與進來,以篩選SWE-bench測試集每個樣本,從而獲得適當范圍的單元測試和明確指定的問題描述。

他們隨機抽取了1699個樣本,然后基于統一標準來進行標注。

比如,問題描述是否明確?每個注釋都有一個標簽,范圍從 [0, 1, 2, 3],嚴重程度依次遞增。

標簽0和1 表示輕微;標簽2和3表示嚴重,表示樣本在某些方面存在缺陷,應予以丟棄。

此外,我們還會評估每個示例的難度,方法是讓注釋者估算開發人員確定并實現解決方案所需的時間。

最終得到了500個經過驗證的樣本,并且按照難度對數據集進行細分。“簡單”子集包含196個小于15分鐘的修復任務,而“困難”子集包含 45 個大于 1 小時的任務。

結果現在這個子集又被OpenAI縮減了。

One More Thing

不過,還是有個總榜單或許值得參考,就是那個最原始的SWE-bench。

在這個榜單中,Claude 4 Opus還是占據著領先位置。

GPT-5也已經發過好一陣了,不知道你有沒有這樣類似的編程體驗呀?歡迎在評論區與我們分享。

新房知識更多>>

懂車帝花了1000萬,重現《GT賽車7》才能做到的事 中國車市已變天!廣汽本田的一口價來的不是時候! G87世代寶馬M2 xDrive將于8月正式投產 2月車市:環比普遍下滑 海外銷量普漲 小鵬新勢力墊底 3月,首先發布價格的六座SUV可能不是零跑D19 鯰魚效應再現!這次攪動韓國的是比亞迪! 設計年輕化/配置實用 奇瑞瑞虎7L靜態體驗 上汽集團2026年2月銷量出爐 單月銷售26.9萬輛 家電巨頭紛紛“上車”,汽車成為春節假期“移動客廳” 嵐圖汽車港股上市確定性全面落地 2025年毛利率位居行業前列 奧迪的2026怎么過,聽聽羅英瀚博士怎么說 是性價比之王還是為車標買單!30萬就能買奔馳GLC,買哪款最“香”? “9系”SUV市場戰火升級 三款新車來襲 全新理想L9 Livis領銜 奔馳GLC純電最大續航703km,若55萬起步,買嗎? 吉利中國星首款增程博越REV首曝,全新外觀設計,純電續航375km 豪車信仰崩塌!忠誠度跌破18%的BBA,為什么突然被中國車主拋棄? 三星德州工廠將啟動光刻設備測試 為特斯拉AI5芯片量產做準備 特斯拉Cybertruck 2025年銷量腰斬 跌幅居美國在售電動車之首 美國多州推動強制安裝智能車速控制系統 針對屢次超速駕駛者 理想靠它起家、問界靠它做強,為何獨長城看不起增程? 車燈應用連接方案 | 為車而生·與光同行 具身啟元,智創未來——上海國際具身智能產業博覽會新聞發布會在京隆重召開 2025年BBA銷量:寶馬集團保持領先,奔馳奧迪下滑明顯 關稅破冰!中加電動車貿易博弈落幕,雙向調整藏著哪些共贏密碼? 馬年春節臨近 老鋪黃金SKP排隊熱度超去年 金價再創新高!國內品牌金飾克價逼近1440元 銅價飆升逼退價格戰,空調行業轉身“保利求生” 2025年中國智能手機市場出貨量2.85億臺,華為登頂 中汽協:2025年新能源汽車產銷量突破1600萬輛 中汽協預計2026年汽車市場總銷量為3475萬輛
久久av免费看,日本久久二区,久久国产精品色av免费看,波多视频一区
久久国产福利| 日韩三级一区| 国产精品久久久久久久久久久久久久久 | 欧美韩日一区| 另类小说一区二区三区| 国产精品15p| 久久精品国内一区二区三区| 久久av免费看| 国产日韩欧美一区二区三区在线观看 | 亚洲精品三级| 91欧美精品| 久久久91麻豆精品国产一区| 国产精品3区| 日本久久精品| 日韩精品免费一区二区在线观看 | 国产一区不卡| 国产aⅴ精品一区二区四区| 亚洲一区资源| 在线日韩电影| 欧美日韩精品一区二区视频| 午夜久久黄色| 亚洲乱码视频| 国产精品magnet| 91av亚洲| 免费精品视频| 国产精品欧美三级在线观看| 日本一区二区免费高清| 日韩国产在线| 亚洲综合国产| 国产欧美一级| 久久精品中文| 亚洲精品伊人| 国产aⅴ精品一区二区四区| av高清不卡| 日韩中文字幕亚洲一区二区va在线| 国产探花一区二区| 日韩精品中文字幕第1页| 伊人成人在线视频| 国产精品一区二区中文字幕| 久久久久亚洲精品中文字幕| 国内精品福利| 欧美天堂在线| 日韩中文在线播放| 日韩精选在线| 视频在线不卡免费观看| 久久不射中文字幕| 精品国产精品国产偷麻豆| 精品国产a一区二区三区v免费| 女人av一区| 美女精品一区| 免费视频久久| 中文字幕日本一区| 亚洲一区有码| 欧美亚洲综合视频| 日产精品一区二区| 精品三级在线观看视频| 日韩1区2区日韩1区2区| 日韩av在线播放网址| 国产91一区| 日韩av网站在线免费观看| 国产66精品| 亚洲青青久久| 亚洲天堂av影院| 国产精品毛片一区二区在线看| 欧美成人精品午夜一区二区| 久久一区二区三区电影| 国产精品中文字幕亚洲欧美| 婷婷成人基地| 久久永久免费| 综合激情一区| 日韩欧美一区二区三区免费看| 日韩综合小视频| 精品国模一区二区三区| 日韩精品亚洲一区二区三区免费| 亚洲成人国产| 久久影院资源站| 亚洲性视频在线| 99热精品久久| 国产日韩亚洲欧美精品| 日韩视频二区| 成人三级高清视频在线看| 日韩综合一区二区| 免费毛片在线不卡| 成人在线视频免费| 国产亚洲人成a在线v网站| 亚洲免费播放| 人人香蕉久久| 给我免费播放日韩视频| 国产日韩欧美一区在线| 蜜臀av性久久久久蜜臀aⅴ流畅| 国产精品久久久久av电视剧| 欧美国产精品| 91精品美女| 亚洲精品电影| 99精品视频在线| 国产免费久久| 午夜久久99| 久久国产精品亚洲77777| 国产精品tv| 男女男精品网站| 久久免费福利| 国产精品羞羞答答在线观看| 99视频精品| 国产专区精品| 视频一区中文| 久久久久久婷| 国产精品va| 91精品国产经典在线观看| 久久久久网站| 日本不良网站在线观看| 视频在线不卡免费观看| 麻豆91在线播放| 欧美日韩亚洲国产精品| 亚洲免费毛片| 亚洲人成网77777色在线播放 | 国产一区2区| 欧美激情三区| 久久不见久久见免费视频7| 国产日韩亚洲欧美精品| 久久激五月天综合精品| 日韩精品1区2区3区| 日韩有吗在线观看| 免费观看在线综合| 在线看片一区| 亚洲三级视频| 清纯唯美亚洲综合一区| 欧美亚洲色图校园春色| 久久亚洲视频| 国产高清一区| 久久久男人天堂| 国产一区二区久久久久| 日韩福利视频一区| 国产欧美日韩一级| 国产调教一区二区三区| 国产一区二区三区四区五区| 亚洲综合电影| 一本色道久久精品| 亚洲涩涩在线| 国产美女高潮在线观看| 日韩高清二区| 91嫩草精品| 免费视频最近日韩| 亚洲激情黄色| 亚洲天堂免费| 日韩精品欧美大片| 欧美日韩精品一区二区三区视频| 日韩av中文在线观看| 欧美日韩一区自拍| 精品九九久久| 欧洲av不卡| 深夜福利一区| 日韩成人午夜精品| 人人精品人人爱| 欧美久久一区二区三区| 精品国产一区二区三区2021| 精品资源在线| 秋霞影视一区二区三区| 影音先锋国产精品| 日韩国产91| 久久亚洲国产精品尤物| 亚洲精品.com| 欧美资源在线| 国产精品传媒麻豆hd| 毛片在线网站| 日韩电影二区| 制服诱惑一区二区| 日本综合精品一区| 色狠狠一区二区三区| 国产精品欧美三级在线观看 | 国产偷自视频区视频一区二区| 中文一区一区三区免费在线观 | 蜜桃视频第一区免费观看| 欧美影院精品| 日韩在线视频精品| 亚洲日本欧美| 国产成人精品免费视| 成人美女视频| 亚洲理论在线| 国产精品精品国产一区二区| 亚洲欧美日韩高清在线| 亚洲精品日本| 日韩成人三级| 日韩和欧美一区二区| 综合日韩av| 亚洲免费成人av在线| 日韩成人a**站| 亚洲影院天堂中文av色| 久久不卡国产精品一区二区| 久久精品影视| 国产探花一区二区| 欧美国产91| 天堂俺去俺来也www久久婷婷| 国产中文欧美日韩在线| 一级欧洲+日本+国产| 老司机精品在线| 美女尤物久久精品| 伊人网在线播放| 日本色综合中文字幕| 亚洲手机视频| 美日韩一区二区三区|