-
探索软件工程中的同理心:基于实践者观点的灰色文献分析的见解——RCR报告
摘要这是我们关于TOSEM论文“探索软件工程中的同理心:来自实践者观点的灰色文献分析”的复制计算结果(RCR)报告。在报告中,我们对来自DEV和Medium两个广泛被实践者使用的社区的55篇网络文章进行了定性内容分析,并对同理心专家进行了后续调查。在本文中,我们提出了软件工程中同理心的概念框架。作为RCR的一部分,我们提供了一个包含详细指南的实证包,用于设置和复制我们的研究以及解释研究结果。我们希望这个报告能够通过提供一个可重用且透明的例子来激励和支持未来关于软件工程中同理心和人类方面的研究,该例子涉及灰色文献和专家反馈。所有相关数据和材料都可以在实验包中公开获取。
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-08
-
分布式与协作式轻量级边缘联邦学习在物联网僵尸设备检测中的应用
摘要人工智能和物联网(IoT)技术的快速发展推动了智慧城市各种应用的发展,例如智能监控和安防。然而,物联网设备的漏洞给智慧城市的安全带来了新的威胁。为了识别无处不在的物联网僵尸网络攻击,提出了一种分布式、协作的轻量级边缘联邦学习模型——FIOT,用于检测物联网僵尸设备。为了降低计算复杂度并提高网络边缘对新攻击环境的适应性,FIOT采用了基于特征降维和迁移学习的轻量级设计。使用三个物联网僵尸网络数据集来验证所提出的FIOT的有效性。实验结果表明,与集中式学习方法相比,FIOT在F1值方面的准确率损失不到3%,但其训练时间仅为集中式学习的14.3%。在保证高检测准确率的同时,FIOT的参数数量减少
来源:ACM Transactions on Sensor Networks
时间:2025-11-08
-
通过协作式边缘计算中的数字孪生网络进行请求调度,降低沉浸式系统的延迟
摘要沉浸式系统通过紧密结合现实世界和虚拟世界,提供沉浸式的交互体验,涵盖了增强现实(AR)和虚拟现实(VR)技术。近年来,这类系统发展迅速。然而,沉浸式系统固有的延迟问题给对延迟极为敏感的AR/VR应用带来了巨大挑战。为了解决这一问题,我们提出利用边缘计算进行AR/VR请求的调度,因为边缘节点具有在同一地理区域内无缝协作的能力,并能优化资源分配以最小化延迟。但是,当涉及到不同区域的边缘节点时,问题变得复杂起来:这些节点通常缺乏对其他区域缓存资源的实时了解,因此跨区域进行AR/VR请求调度变得极具挑战性。我们正式定义并证明了这一问题的NP难度。为了解决这一复杂性,我们引入了联邦数字孪生模型构建(
来源:ACM Transactions on Sensor Networks
时间:2025-11-08
-
一种用于物联网(IoV)中联邦学习的多目标联合设备选择与聚合方案
摘要先进的移动通信和数据处理技术推动了物联网(IoT)的发展,但同时也给车辆物联网(IoV)领域的分布式联邦学习模式带来了挑战。在IoV中,由于有大量的车辆节点可用于联邦训练,当需要动员大量车辆参与时,联邦学习任务变得颇具挑战性。IoV中联邦学习面临的一个难点是由于设备数量众多而导致的异构性问题。此外,大量质量较差的设备参与联邦训练所带来的过高资源和系统维护成本也不容忽视。为了解决这些问题,本文提出了一种基于多目标进化算法的车辆设备选择与聚合联合优化模型。该模型可通过BiGE算法进行优化,以获得最优的车辆设备子集及相应的权重分配方案,从而减少不必要的资源浪费和预算支出,同时确保全局模型的性能。
来源:ACM Transactions on Sensor Networks
时间:2025-11-08
-
CNCFuzzer:基于消息行为引导的计算机数控系统定向黑盒模糊测试
摘要在工业物联网时代,计算机数控(CNC)系统面临着来自攻击者的普遍威胁。在攻击者利用这些系统的安全漏洞之前,发现这些漏洞至关重要。企业级的CNC设备在获取固件方面往往存在显著困难,这使得漏洞分析仅限于黑盒模糊测试方法。然而,CNC设备所使用的通信协议具有异构性、复杂性和专有格式的特点。这种固有的复杂性不仅使得构建高质量的测试用例变得困难,还大大超出了传统黑盒模糊测试方法的搜索范围,从而降低了其效率和效果。在本文中,我们提出了CNCFuzzer,这是一种基于消息行为指导的有向黑盒模糊测试方法。CNCFuzzer的研究表明,如果某个通信应用程序编程接口(API)具有高风险,那么具有类似行为的其他
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-08
-
关于开发者对人工智能生成代码的自我声明:实践分析
摘要人工智能代码生成工具在开发者中获得了广泛的关注,因为他们可以利用这些工具来辅助软件开发,尤其是这些工具能够自动生成代码。现有的研究主要集中在探讨人工智能生成代码的质量(如正确性和安全性)上,而在实际的软件开发过程中,一个关键问题是要区分人工智能生成的代码和人类编写的代码,这就强调了开发者需要明确标注代码的生成方式(是人工智能生成的还是人工编写的)。为此,本研究旨在了解开发者如何自行标注人工智能生成的代码,并探讨他们选择标注或不标注的原因。我们采用了一种混合方法进行研究,分为两个阶段:第一阶段,我们从GitHub仓库中收集了613个人工智能生成的代码片段;第二阶段,我们进行了后续的调查,共收
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-08
-
根据Python教科书确定代码熟练程度
摘要衡量开发者的熟练程度至关重要,因为这反映了个人理解和解释高效、有效且结构良好的代码的能力。这是确保软件质量的一个重要方面。尽管之前的研究提出了通过代码来评估熟练程度的不同方法,但学习各种编程概念的过程仍然颇具挑战性,并且存在很多争议。本文提出了一种框架,该框架利用作为基准的教材以及两种自动化方法(Übersequence和Clustering)来确定代码熟练程度。我们进行了实证研究以确定Python代码的熟练程度水平。随后,我们通过回答两个关键研究问题来评估该框架的有效性。利用包含22本Python入门教材以及来自Python语法分析(AST)的代码结构的数据集,我们实现了85.51%的高
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-08
-
异构连接系统中用于测试时适应的分散模型选择
摘要传统的集中式模型训练假设数据样本易于获取且可以无限制地进行处理。相比之下,去中心化机器学习(DML)通过直接在分布式数据源上进行协作式模型训练和推理来克服这一限制。从数据集中化向去中心化的转变有助于遵守数据法规,并通过减少对云服务器的依赖来提高系统的可扩展性。然而,在模型个性化与泛化之间存在权衡:对本地训练数据分布的微调会牺牲模型在测试数据(其分布与训练数据分布不同)上的泛化能力。为改善这种权衡,我们提出了一种DML框架,该框架能够通过明智地选择多个模型之一,从而本质上使模型个性化和泛化变得更加容易。我们开发了一个可扩展的模型选择器,并使用区块链来实现模型共识。然后提出了一个用于测试时适应
来源:ACM Transactions on the Web
时间:2025-11-08
-
超越作者的负担
摘要交互式数字叙事(IDN)主要是一种基于网络的超文本媒介,它给作者带来了额外的写作负担。为了减轻这一负担,已经提出了许多编写IDN的方法和工具,但由于缺乏一个全面的作者创作负担评估模型,因此很难准确评估这些方法的有效性和适用性。我们对14位IDN作者进行了访谈,以了解他们是如何在自己的项目中应对创作负担的。基于这些访谈结果,并结合现有文献,我们提出了一个由三个部分组成的作者创作负担模型:内容创作、动态创作和编程/工具开发。这种负担的初始程度由作者的目标、他们的能力以及受众/出版环境共同决定。我们还发现了作者们采用的29种应对策略,这些策略可以分为五类:接纳与减少策略直接影响整体工作负担的规模
来源:ACM Transactions on the Web
时间:2025-11-08
-
高级语言模型是否消除了软件工程中提示工程(prompt engineering)的需求?
摘要大型语言模型(LLMs)在软件工程(SE)任务中取得了显著进展,提示工程技术提升了它们在代码相关领域的性能。然而,像非推理模型(GPT-4o 和 Claude 3.5 Sonnet)以及推理模型 o1 这类基础 LLM 的快速发展,引发了人们对这些提示工程技术持续有效性的质疑。本文进行了一项广泛的实证研究,重新评估了在这些先进 LLM 情境下的各种提示工程技术。我们重点关注了五个具有代表性的 SE 任务,即代码生成、代码翻译、程序修复、代码摘要和提交信息生成,以评估提示工程技术在先进模型中是否仍然能够带来改进,推理模型与非推理模型相比的实际效果,以及使用这些先进模型所带来的收益是否能够证明
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-08
-
通过增强重采样重建和角度注意力估计实现高效的光场传输
摘要光场(Light Field, LF)成像技术显著提升了沉浸式虚拟现实体验,并推动了深度估计和3D重建等计算机视觉任务的进展。然而,光场图像(LFIs)庞大的数据量给传输带来了挑战。为了解决这一问题,我们提出了一种新颖的智能光场传输方法,该方法结合了增强型重采样重建和角度注意力估计技术。所提出的增强型重采样重建方法通过在传输前进行下采样、传输后进行上采样,并借助预先计算好的残差图来最小化质量损失,从而减少空间冗余。为了在保持感知质量的同时降低角度冗余,我们设计了一个光场角度注意力估计网络,该网络使用了专门设计的角度注意力核来指导角度域内的差分传输。为了训练这个网络,我们构建了首个光场眼动追
来源:ACM Transactions on Sensor Networks
时间:2025-11-08
-
现实世界应用中Android性能问题与文献研究的比较研究
摘要Android应用程序中的性能问题会严重损害用户的体验、参与度和留存率,这一直是学术界长期研究的课题。与功能问题不同,性能问题更难以诊断和解决,因为它们的根本原因通常只有在特定条件或负载下才会显现。尽管已经有许多努力尝试通过开发自动识别和解决问题的方法来减轻性能问题的影响,但是否已经实现这一目标仍不清楚,而且现有的方法是否确实针对了现实世界环境中遇到的最关键性能问题也不明确。为此,我们对现实世界应用程序中的Android性能问题及其相关文献进行了大规模的比较研究。具体来说,我们首先研究了现实世界中的性能问题、其根本原因(即影响因素)以及常见的代码模式。随后,我们通过文献回顾进一步总结了现有
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-08
-
LLM-D12:一种用于衡量大型语言模型中工具性依赖与关系依赖的双维量表
摘要人们越来越关注人们如何与大型语言模型(LLMs)互动,以及这些模型是否会导致依赖性或甚至成瘾行为。目前,用于评估个体对LLMs依赖程度的有效工具非常有限,这些工具主要基于经典的行为成瘾症状,并将其适应到LLMs的使用场景中。我们认为这是一种概念上的局限,因为LLMs与人类之间的关系更为复杂,需要一个全新且独特的视角来理解。为了解决这一问题,我们开发并验证了一份新的12项问卷,用于测量对LLMs的依赖程度,该问卷被称为LLM-D12。该量表的制定基于作者之前的理论研究,相关条目也是据此设计的,数据来自英国的526名参与者。通过对总样本进行分割,分别对问卷的两半进行探索性因子分析和验证性因子分
来源:ACM Transactions on the Web
时间:2025-11-08
-
一种可调节的区块链重写方案,用于身份感知的数据修改和用户身份更新
摘要区块链技术的不可变性虽然对其可信度至关重要,但也为动态数据治理场景带来了重大挑战,例如金融交易更正、保护隐私的医疗数据更新以及GDPR合规性要求。现有的基于变色龙哈希技术的区块链重写方案在一定程度上缓解了这些问题,但仍存在一些固有缺陷,包括复杂的密钥管理开销、缺乏监管机制以及访问策略执行的不灵活性。本文提出了一种支持身份更新的变色龙哈希算法,称为IDCHU。该算法是一种创新的加密原语,结合了基于身份的代理重加密技术和变色龙哈希机制,并引入了临时“陷阱门”(ephemeral trapdoors),以实现安全、可追溯且具备身份感知的数据修改功能,同时支持灵活的用户身份更新。基于IDCHU算法
来源:ACM Transactions on the Web
时间:2025-11-08
-
EV-GazeLock:一种基于微眼运动和事件摄像头的用户认证系统
摘要现成的VR/AR头戴设备越来越多地集成眼动追踪技术作为新型的人机交互界面,为虚拟环境中的新应用提供了可能。个体之间独特且可重复的眼动模式为用户识别(即眼动认证)提供了机会。然而,当前的眼动认证方案由于CMOS/CCD相机的时间分辨率较低,存在准确性问题,影响了认证的可靠性。此外,用于捕捉眼周详细图像的CMOS相机还引发了隐私泄露的担忧。为了解决这些挑战,我们提出利用事件相机进行眼动认证。事件相机将每个像素的亮度变化编码为具有高时间分辨率(数十微秒)的异步事件流,能够捕捉与身份相关的细微眼动特征(称为微动)。本文介绍了一种基于事件相机捕捉的眼动数据的新型认证方法——EV-GazeLock。E
来源:ACM Transactions on Sensor Networks
时间:2025-11-08
-
将大型语言模型与区块链相结合:让智能合约更加智能
摘要区块链技术推动了去中心化应用(DApps)的发展,尤其是在去中心化金融领域。然而,随着应用场景的复杂性增加,计算资源和成本的限制逐渐导致性能不足。大型语言模型(LLMs)作为一种有前景的技术,有潜力提升区块链在复杂任务治理方面的能力。但由于共识机制等因素,将它们直接集成到区块链中颇具挑战性。为了解决这一问题,本文提出并实现了一个将LLMs与区块链数据集成在一起的通用框架——C-LLM,该框架成功克服了两者之间的互操作性障碍。通过结合语义相关性评估和真相发现技术,本文提出了一种创新的数据聚合方法SenteTruth,有效提高了LLMs生成数据的准确性和可信度。为了验证该框架的有效性,我们构建
来源:ACM Transactions on the Web
时间:2025-11-08
-
关于在多语言漏洞修复中评估大型语言模型的研究
摘要为了自动修复软件漏洞,人们提出了多种基于深度学习的方法,这些方法使用了预训练的语言模型。然而,这些方法仅适用于特定的编程语言(C/C++)。大型语言模型(LLMs)的最新进展使其具备了语言无关的能力和强大的语义理解能力,有望克服多语言漏洞修复的限制。尽管已有研究开始探索LLMs在漏洞修复方面的表现,但其效果仍不尽如人意。为了解决这些问题,我们进行了一项大规模的实证研究,评估了自动化漏洞修复方法以及最先进的LLMs在七种编程语言中的性能。研究结果表明,经过少量示例提示调优的GPT-4o在性能上可与领先的方法VulMaster相媲美。此外,基于LLM的方法在修复独特漏洞方面表现更优,且更有可能
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-08
-
利用双向翻译评估大型语言模型的潜在自动化程序修复能力
摘要研究表明,通过使用语言模型将文本翻译成另一种语言再翻译回来,可以纠正自然语言中的错误。我们探讨了这种潜在的纠错能力在自动程序修复(APR)中的适用程度,具体方法是研究往返翻译(RTT):利用大型语言模型(LLMs)将代码从一种编程语言翻译成另一种编程语言或自然语言,然后再翻译回来。我们假设RTT通过“回归均值”的机制恢复了LLM训练语料库中最常见的代码模式,用更常见、更“自然”的无错误代码替换那些罕见的错误。为了验证这一假设,我们使用了九种LLMs和四个常见的Java APR基准测试,并对RTT生成的补丁进行了详细的定量和定性分析。在HumanEval-Java基准测试中,GPT-4通过R
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-08
-
M2CVD:通过多模型协作提升代码漏洞检测中对漏洞本质的理解
摘要大型语言模型(LLMs)在代码理解方面具有很强的能力,但微调成本和语义对齐问题限制了它们针对特定项目的优化效果;相反,像CodeBERT这样的微调模型易于进行微调,但从复杂的代码语言中学习漏洞语义通常较为困难。为了解决这些挑战,本文提出了多模型协作漏洞检测方法(M2CVD),该方法利用LLMs在分析漏洞语义方面的强大能力来提高微调模型的检测精度。M2CVD采用了一种新颖的协作流程:首先通过微调模型对项目代码的理解来提升LLMs生成的漏洞描述的质量,然后利用这些改进后的漏洞描述来提高微调模型的检测精度。M2CVD主要包括三个阶段:1)初始漏洞检测:初始漏洞检测通过分别对检测模型(例如Code
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-08
-
准确、可泛化且实用的行为模型,用于识别用户即将面临恶意网站的风险
摘要为了保护用户在线安全,当前的防护措施通常会使用已知的恶意软件和网络钓鱼网站的屏蔽列表。然而,这种防御方式存在一个固有的漏洞:恶意内容的生成与检测之间存在时间差,这导致用户在一段时间内处于易受攻击的状态。为了解决这一限制,早期的研究指出可以利用用户的个人网页浏览行为来识别即将面临的恶意内容威胁。虽然现有的方法经常依赖于时间上的邻近性(例如,汇总用户近期的浏览模式),但它们并未充分利用用户浏览行为的时间顺序,从而导致性能不佳。实际上,鉴于恶意软件发生的频率较低,这种方法的实用性并不强。我们引入了网络和浏览器层面的特征(如页面排名、标签页浏览时间),以及一个能够通过时间序列表示来捕捉用户行为的时
来源:ACM Transactions on the Web
时间:2025-11-08