会议论文(已发布)

ac米兰官方网站 评估大型语言模型生成的软件补丁的解释

详情

引用

Sobania D、Geiger A、Callan J、Brownlee A、Hanna C、Moussa R、Zamorano López M、Petke J 和 Sarro F (2023) 评估大型语言模型生成的软件补丁的解释。见:基于搜索的软件工程研讨会 - 挑战赛,美国加利福尼亚州旧金山,2023 年 12 月 8 日至 2023 年 12 月 8 日。

摘要
大型语言模型 (LLM) 最近已集成到各种应用程序中,包括软件工程任务。在这项工作中,我们研究了使用法学硕士来增强软件补丁的可解释性。特别是,我们评估了 GPT 3.5 在解释基于搜索的自动程序修复系统 ARJA-e 为流行的 Defects4J 基准测试中的 30 个错误生成的补丁方面的性能。我们还调查了在解释软件开发人员编写的相应补丁时所实现的性能。我们发现,在至少三分之二的运行中,平均 84% 的 LLM 对机器生成补丁的解释是正确的,并且 54% 对于所研究的类别是完整的。此外,我们发现法学硕士对机器生成的补丁生成的解释比人类编写的补丁更准确。

关键字
大型语言模型;软件补丁;人工智能的可解释性;程序修复;遗传改良

状态已接受
资助者工程与物理科学研究委员会欧盟委员会(地平线 2020)
网址http://hdl.handle.net/1893/35519
会议基于搜索的软件工程研讨会 - 挑战赛道
会议地点美国加利福尼亚州旧金山
日期

人数 (1)

桑迪·布朗利博士

桑迪·布朗利博士

副教授,计算科学和数学 - 部门

研究中心/小组