久久av免费看,日本久久二区,久久国产精品色av免费看,波多视频一区

首頁 > 新房知識 > 新房知識 > 保持對話繼續:使用ChatGPT修復337個bug中的162個,每個0.42美元

保持對話繼續:使用ChatGPT修復337個bug中的162個,每個0.42美元

發布時間:2024-05-28 16:40:11 來源: 152102

引用

Xia C S, Zhang L. Keep the Conversation Going: Fixing 162 out of 337 bugs for $0.42 each using ChatGPT[J]. arXiv preprint arXiv:2304.00385, 2023.

論文:
https://arxiv.org/abs/2304.00385

摘要

自動程序修復(APR)旨在自動為有錯誤的程序生成補丁。傳統的 APR 技術缺乏補丁多樣性,因為它們嚴重依賴手工或挖掘的錯誤修復模式,并且不能輕易推廣到其他錯誤/修復類型。為了解決這一限制,最近的 APR 工作重點是利用現代大型語言模型 (LLM) 直接生成 APR 補丁。這種基于 LLM 的 APR 工具的工作原理是,首先構建使用原始錯誤代碼構建的輸入提示,然后查詢 LLM 以在錯誤位置填寫(完型式 APR)正確的代碼,或者生成一個全新的代碼片段作為修補。雖然基于 LLM 的 APR 工具能夠實現最先進的結果,但它仍然遵循經典的生成和驗證 (GV) 修復范例,即首先通過從相同的初始提示中采樣來生成大量補丁,然后驗證每個補丁之后的一個。這不僅會導致許多不正確的重復補丁,而且還會錯過測試失敗以及看似合理的補丁中的關鍵但之前被忽略的信息。為了解決上述限制,我們提出了 ChatRepair,這是第一個完全自動化的對話驅動的 APR 方法,它將補丁生成與即時反饋交織在一起,以對話方式執行 APR。 ChatRepair 首先向 LLM 提供相關測試失敗信息,然后從同一錯誤的早期修補嘗試的失敗和成功中學習,以獲得更強大的 APR。對于未能通過所有測試的早期補丁,我們將不正確的補丁與其相應的相關測試失敗信息結合起來,構建一個新的提示,供LLM生成下一個補丁。這樣,我們就可以避免犯同樣的錯誤。對于通過所有測試的早期補丁(即合理的補丁),我們進一步要求LLM生成原始合理補丁的替代變體。通過這種方式,我們可以進一步借鑒早期的成功經驗,生成更合理的補丁,從而增加獲得正確補丁的機會。雖然我們的方法是通用的,但我們使用最先進的基于對話的 LLM – ChatGPT 來實現 ChatRepair。我們對廣泛研究的 Defects4j 數據集的評估表明,ChatRepair 能夠在修復性能方面達到最先進的水平,在 Defects4j 1.2 和 2.0 上分別實現 114 和 48 個正確修復。通過計算訪問 ChatGPT 的成本,我們可以修復 337 個錯誤中的 162 個,每個錯誤 0.42 美元!

1 引言

自動程序修復 (APR) 是一種自動生成軟件錯誤補丁的有前途的方法。傳統的 APR 工具通常使用生成和驗證 (GV)范例,首先生成大量候選補丁,然后根據原始測試套件驗證每個補丁,以發現一組合理的補丁(通過所有測試)。然后將這些看似合理的補丁提供給開發人員,以找到正確修復潛在錯誤的正確補丁。傳統的APR技術可以分為基于模板的,基于啟發式的和基于約束的APR工具。在這些傳統技術中,基于模板的 APR 工具,使用手工制作或挖掘的修復模板來匹配和修復有缺陷的代碼模式,被認為是最先進的。然而,基于模板的工具缺乏補丁多樣性,因為它們無法輕松泛化到預定義模板列表之外的錯誤和模式。為了解決傳統 APR 技術的局限性,研究人員提出了利用深度學習進步的基于學習的 APR 方法。基于學習的方法主要基于神經機器翻譯(NMT)或大型語言模型(LLM)。基于 NMT 的 APR 工具將修復視為一項翻譯任務,通過使用歷史錯誤修復數據集訓練 NMT 模型將有錯誤的代碼轉換為正確的代碼。然而,這種基于 NMT 的 APR 工具嚴重依賴于其訓練數據,這些數據是通過抓取開源存儲庫來進行錯誤修復提交而獲得的。這意味著不僅訓練數據集可能有噪音(即包含不相關的提交/更改),而且這些基于 NMT 的方法可能無法推廣到在有限的訓練數據中未見的錯誤修復類型。

最近,研究人員開始直接利用高級LLM進行 APR。現代LLM接受了數十億個開源代碼片段的訓練,在許多與代碼相關的任務上展示了令人印象深刻的性能,并且可以學習在給定周圍上下文的情況下直接生成代碼(由于代碼自然性)。 AlphaRepair提出了第一個完形填空式(或填充式)APR 方法,其中有錯誤的代碼被刪除,并且 LLM 在給定前綴和后綴上下文的情況下直接預測正確的代碼。最近的工作還應用基于 LLM 的 APR 來自動完成單個正確行或生成完整的固定函數。一項更廣泛的研究研究了將更大的 LLM 和不同的 LLM 架構(即生成式和填充式)應用于 APR,并證明基于 LLM 的 APR 工具可以在許多 APR 任務上實現新的最先進的性能。同時,現有的基于LLM的APR渠道仍然存在以下局限性:

1)缺少測試失敗信息。當前基于 LLM 的工具沒有考慮原始 bug 暴露測試中的豐富信息。這些信息不僅可以幫助LLM理解被測源代碼的含義,還可以通過具體的代碼片段提供幫助和提示。圖 1 顯示了錯誤修復示例以及原始測試失敗信息。我們看到解決方法是將附加字符串交換為“\\000”。對于基于 LLM 的方法來說,這可能是一個極其困難的修復,因為這個獨特的字符串是這不是預訓練期間常用的字符串,并且當前函數上下文中也沒有其他三重字符串(“\\XXX”)的示例。然而,從測試中的失敗行和相應的錯誤消息中,我們看到測試期望輸出包含三個零,甚至包含直接在補丁中使用的代碼片段(“\\000”)!LLM在處理/利用測試失敗日志等非結構化/復雜信息方面表現出了強大的能力。如果不考慮它們,基于 LLM 的工具可能會浪費大量時間來生成不相關的補丁。

2)重復采樣。當前基于 LLM 的方法首先使用原始有缺陷的代碼構建輸入提示,然后要求 LLM 填寫正確的代碼(即完型填空式 APR)或生成全新的固定函數。使用初始提示,基于 LLM 的技術將對 LLM 進行多次采樣以生成許多補丁,類似于傳統的程序修復 GV 范例。然而,由于每個樣本都是完全獨立的,LLM 不知道任何先前生成的補丁。因此,基于 LLM 的工具可能會生成許多重復或類似的補丁,這些補丁已被確定為不正確,從而浪費 API 訪問的成本或 GPU 執行的時間。此外,這種重復采樣過程也與人類開發人員修復錯誤的方式截然不同,人類開發人員在知識的基礎上迭代構建,并嘗試從之前失敗的嘗試中提出下一個可能的補丁。

3)對有價值的合理補丁的無知。除了無法使用過去的錯誤補丁之外,當前基于 LLM 的 APR 工具也無法有效利用之前生成的合理補丁。合理的補丁已被證明是有價值的,因為它們通常與實際正確的補丁共享相似的位置。此外,我們進一步假設合理的補丁可能還包括通過所有測試的關鍵代碼成分,并且還可以幫助LLM更好地學習如何通過所有測試以生成更合理的補丁(從而增加生成正確補丁的機會)。通過忽略這些有價值的合理補丁信息并在生成合理補丁后從頭開始,現有的基于 LLM 的 APR 可能會錯過正確修復更多錯誤的機會。

我們的工作。我們推出 ChatRepair – 一種完全自動化的對話驅動的 APR 方法,它將補丁生成與即時反饋交織在一起,以對話方式執行補丁生成。雖然我們的想法很籠統,但為了構建 ChatRepair,我們使用最近開發的、當前最先進的基于對話的 LLM – ChatGPT,它不僅經過數十億代碼片段的訓練,而且還經過設計以對話方式使用,以更好地理解說明。 ChatRepair 首先提取相關測試失敗信息作為初始提示,為 ChatGPT 提供更多 APR 上下文信息。此外,ChatRepair 進一步從早期修補的失敗和成功中學習嘗試相同的錯誤以獲得更強大的 APR。對于未能通過所有測試的早期補丁,我們將不正確的補丁與其相應的測試失敗信息結合起來,構建一個新的提示,供 LLM 生成下一個補丁。這樣,我們就可以避免犯同樣的錯誤。對于通過所有測試的早期補丁(即合理的補丁),我們進一步要求LLM生成原始合理補丁的替代變體。通過這種方式,我們可以進一步借鑒早期的成功經驗,生成更合理的補丁,從而增加獲得正確補丁的機會。由于我們的方法使用 ChatGPT 模型,因此我們還計算用于修復錯誤的 ChatGPT API 查詢的美元成本。令人驚訝的是,我們發現通過使用 ChatRepair,我們可以修復 337 個錯誤中的 162 個,每個錯誤 0.42 美元。

本文做出以下貢獻:

維度。我們為全自動程序修復開辟了對話驅動范例的新維度。我們的工作首次證明,我們可以有效地利用以前被忽略的測試失敗信息,以及以對話方式進行的早期補丁嘗試,以提示LLM生成更正確的補丁。此外,我們展示了利用基于對話的LLM進行 APR 的廣闊前景。
技術。我們使用最新的ChatGPT 模型開發了ChatRepair,這是一種完全自動化的對話驅動的APR 工具。更具體地說,我們自動提取有關初始測試失敗以及早期補丁嘗試的簡潔相關信息,以提示 ChatGPT 進行有效的 APR。
評估。我們在廣泛研究的 Defects4j 1.2、2.0和 QuixBugs數據集上針對當前最先進的基于學習的傳統 APR 工具評估 ChatRepair。 ChatRepair 在 Defects4j 1.2 和 2.0 上分別獲得了 114 個和 48 個正確錯誤修復(比之前的最佳基線多 15 個和 17 個)的新的最先進修復結果。此外,我們進行了廣泛的消融研究,以證明利用豐富的語義測試失敗信息和 ChatRepair 的對話范例進行修復所獲得的改進。
2 技術介紹

我們提出了 ChatRepair,一種完全自動化的對話驅動的 APR 技術,它結合了多個維度的反饋信息來迭代查詢模型以生成補丁。 ChatRepair 不像現有基于 LLM 的 APR 技術那樣直接根據有缺陷的代碼生成補丁,而是另外提供有價值的測試失敗信息,以進一步幫助 LLM 生成補丁。此外,ChatRepair 并沒有像之前基于 LLM 的 APR 技術那樣從相同的提示中連續采樣,而是跟蹤對話歷史記錄,并通過提示從先前失敗和成功的同一錯誤修補嘗試中進一步學習。通過這種方式,ChatRepair 既可以避免以前的失敗,又可以在早期的成功(例如合理的補丁)的基礎上構建更有效的 APR。因此,ChatRepair 最大限度地提高了獲得正確修復潛在錯誤的真正正確補丁的能力。雖然我們的方法是通用的,可以使用不同的 LLM 并應用于各種不同的修復場景,但在這項工作中,我們使用專為對話交互設計的最先進的 ChatGPT 模型,如圖1所示。


圖1:ChatRepair整體工作流程

2.1 初始輸入

首先,我們使用原始的bug項目和bug來構建ChatGPT的初始提示,以啟動修復過程。我們遵循先前基于學習的APR工具,并主要關注線級修復(特別是填充或封閉型APR,因為它已被證明是最先進的[58])。同時,ChatRepair通常也可以用于各種不同的修復場景,我們將在后面的部分中更詳細地對其進行評估。

ChatRepair使用來自失敗測試的各種信息,包括1)它的名稱,2)觸發測試失敗的相關代碼行,以及3)產生的錯誤消息。失敗測試的名稱可以作為被測函數的簡短摘要。在圖2的例子中,失敗的測試是
testGreatestSubtypeUnionTypes5(),它告訴我們,我們正在測試一個與從聯合類型中確定最大子類型相關的功能。相關的測試代碼和錯誤消息給出了關于測試失敗原因的具體信息。在示例中,相關的測試代碼和錯誤消息告訴模型,我們正在比較No_OBJECT_TYPE,但源代碼函數錯誤地返回了一個None對象。這樣失敗的測試信息不僅在源代碼的功能方面為模型提供了更多的解釋,而且在預期輸出和函數使用方面提供了具體的信息,以幫助模型生成正確的修復。注意,如果有多個失敗的測試,ChatRepair只提供其中一個的信息,以保持簡潔的初始提示。最后,我們通過給model生成正確的行來替換填充位置的有bug的代碼來結束我們的初始提示。設C為輸出生成序列概率的ChatGPT,preandsufas為刪除錯誤行后的錯誤代碼的前綴和后綴,Ifillas為替換錯誤行的填充令牌,f0為構造的失敗測試信息,Ifillas為填充指令提示符。補丁pgenerated可以形式化的條件概率:C(p|pre,infill,suf,f0,Ifill)

據我們所知,ChatRepair是第一個通過結合故障信息的自然語言描述(例如,代碼在此測試中失敗:{failure_test})作為輸入到強大的ChatGPT模型中,以純提示方法應用這些測試失敗和錯誤消息的工作。與之前使用的修復測試執行信息不同[61],它依賴于自定義編碼或手工制作的啟發式,通過使用ChatGPT通過提示進行ChatRepair不僅是跨越不同編程語言但也不受測試信息類型的限制。

2.2 會話修補

我們首先使用創建的初始提示來查詢ChatGPT以獲得模型輸出并提取候選補丁。然后,我們轉移到方法的對話部分,我們將patch生成與測試驗證反饋交織在一起,以對話的方式提示未來的生成。每個由模型生成的補丁之后,都立即有一個補丁驗證步驟,以在測試套件上編譯和運行補丁。如果補丁未能通過測試,我們將使用不正確的補丁和失敗的測試構建詳細的反饋信息,作為下一個補丁生成提示的一部分。與初始提示類似,測試失敗信息可以幫助模型了解失敗原因,并為生成正確修復提供指導。在對話步驟中,我們進一步將測試失敗信息與之前不正確的補丁結合起來,不僅可以避免生成更多類似的不正確補丁,還可以從前幾代的錯誤中學習。我們重復這個過程,直到生成一個通過整個測試套件的可信補丁。

2.3 貌似合理的補丁生成

在前一步之后,ChatRepair應該獲得一個可以通過整個測試套件的貌似合理的補丁。然而,一個似是而非的補丁可能并不總是能夠正確地修復底層bug,因為測試套件可能是不完整的,因此無法覆蓋底層代碼的所有可能的預期用法。因此,開發人員必須手動檢查合理的補丁以確定正確的補丁。合理的補丁和最終正確的補丁都有一個相似的特點:它們都可以通過整個測試套件。因此,ChatRepair不是從頭開始),而是直接利用現有的可信補丁來創建更可信的補丁。簡而言之,為了增加我們能夠生成正確補丁的概率,ChatRepair采用之前生成的可信補丁,并要求模型生成替代變體并產生額外的候選補丁。

首先,我們采用最初使用的提示符,其中包含原始的有bug的代碼功能以及有用的測試失敗信息。然后,我們在提示符后面添加生成的合理補丁列表。在開始時,該列表將只包含上一步中單個合理的補丁,但是隨著我們繼續生成額外的合理補丁,它會增長。接下來,我們在提示符中指出我們想要解決的任務-請生成一個替代修復行。然后,我們使用這個提示符作為ChatGPT的輸入,并獲得一個候選補丁,我們將再次編譯并運行測試套件,以檢查它是否確實是另一個合理的補丁。我們不斷地查詢ChatGPT并更新提示符,以包含生成的新的可信補丁,以避免再次重復生成相同的可信補丁,并進一步構建早期的可信補丁。再次設C為輸出生成序列概率的ChatGPT模型,Ibe為初始提示符,Iplas為任務指令,PL<n={pl1,…,pln−1}是之前生成的可信補丁。生成的下一個似是而非的補丁可以形式化為條件概率:C(pli|I,PL<i,IPL)。

最后,我們得到一個似是而非的補丁列表,這些補丁可以交給開發人員進行人工檢查。與之前的APR工具(僅對原始錯誤代碼進行操作以生成補丁)不同,ChatRepair利用每個可能的補丁中額外的有用信息來獲得更多可能的補丁。一個合理的補丁通常包含有用的成分/模式,允許它通過原始測試套件;因此,ChatGPT不是從頭開始(即再次修復錯誤),而是在現有的可信補丁的基礎上構建,通過其強大的理解指令的能力,可以獲得額外的可信補丁,以增加我們的最終補丁列表中包含修復錯誤的正確補丁的可能性。

新房知識更多>>

懂車帝花了1000萬,重現《GT賽車7》才能做到的事 中國車市已變天!廣汽本田的一口價來的不是時候! G87世代寶馬M2 xDrive將于8月正式投產 2月車市:環比普遍下滑 海外銷量普漲 小鵬新勢力墊底 3月,首先發布價格的六座SUV可能不是零跑D19 鯰魚效應再現!這次攪動韓國的是比亞迪! 設計年輕化/配置實用 奇瑞瑞虎7L靜態體驗 上汽集團2026年2月銷量出爐 單月銷售26.9萬輛 家電巨頭紛紛“上車”,汽車成為春節假期“移動客廳” 嵐圖汽車港股上市確定性全面落地 2025年毛利率位居行業前列 奧迪的2026怎么過,聽聽羅英瀚博士怎么說 是性價比之王還是為車標買單!30萬就能買奔馳GLC,買哪款最“香”? “9系”SUV市場戰火升級 三款新車來襲 全新理想L9 Livis領銜 奔馳GLC純電最大續航703km,若55萬起步,買嗎? 吉利中國星首款增程博越REV首曝,全新外觀設計,純電續航375km 豪車信仰崩塌!忠誠度跌破18%的BBA,為什么突然被中國車主拋棄? 三星德州工廠將啟動光刻設備測試 為特斯拉AI5芯片量產做準備 特斯拉Cybertruck 2025年銷量腰斬 跌幅居美國在售電動車之首 美國多州推動強制安裝智能車速控制系統 針對屢次超速駕駛者 理想靠它起家、問界靠它做強,為何獨長城看不起增程? 車燈應用連接方案 | 為車而生·與光同行 具身啟元,智創未來——上海國際具身智能產業博覽會新聞發布會在京隆重召開 2025年BBA銷量:寶馬集團保持領先,奔馳奧迪下滑明顯 關稅破冰!中加電動車貿易博弈落幕,雙向調整藏著哪些共贏密碼? 馬年春節臨近 老鋪黃金SKP排隊熱度超去年 金價再創新高!國內品牌金飾克價逼近1440元 銅價飆升逼退價格戰,空調行業轉身“保利求生” 2025年中國智能手機市場出貨量2.85億臺,華為登頂 中汽協:2025年新能源汽車產銷量突破1600萬輛 中汽協預計2026年汽車市場總銷量為3475萬輛
久久av免费看,日本久久二区,久久国产精品色av免费看,波多视频一区
欧美日韩91| 在线观看精品| 久久精品国产大片免费观看| 久久精品一区二区国产| 欧美激情三区| 免费一区二区三区在线视频| 免费一级欧美片在线观看网站| 国产探花一区在线观看| 国产欧美高清| 老司机精品在线| 国产精品久久久久77777丨 | 国产精品www.| 麻豆免费精品视频| 美女视频免费精品| 国产在线观看91一区二区三区| 精品一区二区三区的国产在线观看 | 日韩黄色大片| 天堂√中文最新版在线| 日韩精品午夜| 黄色成人91| 日韩中文欧美在线| 日韩国产欧美三级| 老色鬼精品视频在线观看播放| 黄色网一区二区| 欧美精品资源| 在线国产精品一区| 日本午夜精品久久久久| 精品中国亚洲| 尤物网精品视频| 久久精品99国产精品| 福利一区二区免费视频| 美女毛片一区二区三区四区| 亚洲一区欧美| 精品国内亚洲2022精品成人| 91精品国产调教在线观看| 日韩中文字幕区一区有砖一区| 国产三级一区| 特黄毛片在线观看| 久久成人亚洲| 免费在线亚洲| 国产精品91一区二区三区| 蘑菇福利视频一区播放| 日本欧美大码aⅴ在线播放| 日本一二区不卡| 性色一区二区| 国产精品美女午夜爽爽| 欧洲在线一区| 日本a级不卡| 久久精品国内一区二区三区水蜜桃| 亚洲一二三区视频| 久久伊人久久| 视频精品一区二区| 激情综合五月| 亚洲欧美久久| 精品伊人久久| 日韩在线卡一卡二| 麻豆国产精品| 亚洲一区二区毛片| 精品国产亚洲一区二区三区大结局 | 亚洲精选成人| 中文av在线全新| 日韩国产一二三区| 亚洲四虎影院| 国产精品手机在线播放| 欧美日韩精品一本二本三本| 国产精品主播在线观看| 激情视频一区二区三区| 国产欧美日韩一区二区三区四区 | 精品香蕉视频| 快she精品国产999| 国产不卡人人| 日韩国产一二三区| 久久高清精品| 国产精品久久乐| 另类av一区二区| 亚洲1234区| 麻豆成人综合网| 亚洲v天堂v手机在线| 97精品在线| 国产亚洲字幕| 首页亚洲欧美制服丝腿| 久久久蜜桃一区二区人| 国产精品17p| 日韩和欧美一区二区| 免费视频国产一区| 成人台湾亚洲精品一区二区| 日韩欧美四区| 男人天堂欧美日韩| 久久国产日本精品| 国产一区二区色噜噜| 日本午夜精品一区二区三区电影 | 日韩不卡一区二区| 中文国产一区| 久久精品电影| 日本一区二区免费高清| 欧美精品三级在线| 老色鬼久久亚洲一区二区| 四虎影视精品| 中文av在线全新| 久久精品国产福利| 国产精区一区二区| 日韩av一级片| 综合欧美精品| 中文在线不卡| 午夜日韩在线| 国产v综合v| a日韩av网址| 日本精品黄色| 精品免费视频| 国产精品99久久久久久董美香| 无码日韩精品一区二区免费| 日韩中文字幕麻豆| 久久xxxx精品视频| 男人天堂欧美日韩| 国产手机视频一区二区| 亚洲激情中文| 好看的av在线不卡观看| 午夜国产欧美理论在线播放| 国精品一区二区| 99久久99视频只有精品| 97se综合| 日韩电影二区| 久久国产亚洲精品| 日韩专区精品| 久久久久国产| 99久久精品费精品国产| 欧美成a人免费观看久久| 日韩欧美另类一区二区| 亚洲成人不卡| 激情偷拍久久| 日韩一级网站| 一区二区三区网站| 日韩精品导航| 国产欧美日韩一区二区三区在线| 久久精品xxxxx| 欧美久久亚洲| 国产精品夜夜夜| 精品中文在线| 日韩高清成人| 亚洲一级少妇| 精品捆绑调教一区二区三区| 99国产精品免费视频观看| 亚洲欧美一区在线| 丝袜a∨在线一区二区三区不卡| 色综合视频一区二区三区日韩| 啪啪亚洲精品| 美腿丝袜亚洲一区| 日本精品黄色| 欧美aa国产视频| 亚洲一区二区三区无吗| 日韩综合小视频| 免费视频一区二区三区在线观看 | 99国产精品视频免费观看一公开| 久久av一区| 欧美日韩一区自拍| 精品视频97| 欧美福利在线| 亚洲毛片一区| 精品视频91| 午夜欧美精品久久久久久久| 日韩欧美久久| 精品久久不卡| 欧美日韩四区| 9色国产精品| 国产亚洲欧美日韩精品一区二区三区| 久久精品国产亚洲一区二区三区| 日韩一区二区在线免费| 国产视频一区三区| 国产精品一级| 蜜桃一区二区三区| 色狠狠一区二区三区| 国产精品亚洲四区在线观看| 色网在线免费观看| 视频一区二区三区中文字幕| 国产日韩欧美中文在线| 欧洲一区二区三区精品| 伊人久久一区| 国内自拍视频一区二区三区| 国产91精品对白在线播放| 亚洲三级国产| 日韩伦理福利| 日韩有码av| 香蕉成人av| 日韩精品免费一区二区夜夜嗨| 麻豆成全视频免费观看在线看| 丝袜亚洲精品中文字幕一区| 国产精品亚洲产品| 亚洲一级影院| 国产精品宾馆| 国产毛片久久| 国产成人精品三级高清久久91| 亚洲在线电影| 国产不卡精品| 蜜乳av另类精品一区二区| 国产成人黄色| 日韩成人午夜精品| 在线日韩欧美| 久久久久伊人| 蜜桃av一区二区| 日韩精品欧美|