-
用“比特”交换“原子”:数字产品如何重塑全球经济
```摘要美国可能出口了足够的“数字产品”(比特数据),以弥补其在原子产品(实际商品)贸易中的巨额逆差。大约五年前,在一次与中央银行家的Zoom通话中,我们意识到数字贸易的重要性。a原则上,各国应该能够通过其国民经济核算系统来记录数字贸易。但实际上,正如一些同事所指出的,数字贸易具有特殊性。它主要由跨国公司网络运作,这些网络为了税收目的而进行交易,收入往往来自产品制造或交付地以外的国家。他们认为,大部分数字贸易并未被准确记录在国民经济核算系统中。虽然他们对数据缺口有所担忧,但无法准确估计其规模。因此,在接下来的几年里,我们收集了企业收入和数字消费数据,构建了一个机器学习模型,用于估算通过路由器
来源:Communications of the ACM
时间:2025-11-07
-
文化、语言与生成式语言模型
语言模型是通过观察语言使用的样本,学习语言数据的概率分布的一种统计技术。这些样本被编码到大量的概率参数中,从而形成对人类语言的某种表示。随着计算能力的提升和更完善的处理模型的设计,这种语言模型可以作为系统的一部分,用于生成特定目的的语言内容。当前的生成式语言模型的任务是,在给定一些相关的前文语境的情况下,输出最可能或最合理的字符串序列。这样的生成式语言模型本身并不是一个具有交流意图的智能体,而更像是对语言使用模式的一种观察和归纳,类似于词典和语法规则。然而,与传统的词典和语法规则不同的是,语言模型可以通过更少的专业知识进行查询和使用。语言模型的概率分布具有巨大的变化性,而且在给定前文语境时,没
来源:Communications of the ACM
时间:2025-11-07
-
将受版权保护的作品用作训练数据是否构成侵权?
在当今人工智能技术迅速发展的背景下,生成式人工智能(GenAI)系统在训练过程中大量使用受版权保护的材料引发了广泛争议。美国法院已经受理了超过40起与版权相关的诉讼,这些案件涉及GenAI系统的开发者是否在使用受版权保护的材料作为训练数据时构成了侵权行为。目前,GenAI开发者的主要辩护理由是,其使用训练数据的行为属于“合理使用”(fair use)范畴。然而,这些案件的结果表明,法院对合理使用的认定存在分歧,且各因素之间的权衡至关重要。合理使用原则是美国版权法中的一个重要例外,允许在某些情况下未经许可使用受版权保护的作品。这一原则的核心在于平衡版权持有人的权利与公众利益,确保创新和技术进步不
来源:Communications of the ACM
时间:2025-11-07
-
网络物理系统中控制循环的压力测试——RCR报告
### 解读:基于控制理论模型的CPS控制回路压力测试方法在当今技术快速发展的背景下,Cyber-Physical Systems(CPS)作为融合软件与物理世界的系统,正逐渐成为许多关键领域的重要组成部分。CPS不仅广泛应用于工业自动化、智能交通、医疗设备等,还在航天、能源管理、智能家居等方面发挥着重要作用。由于这些系统在运行过程中涉及复杂的物理过程和软件控制逻辑,其可靠性和安全性变得尤为重要。然而,CPS的测试却面临诸多挑战,特别是在如何有效识别那些可能导致系统不可预测行为的场景方面。本文提出了一种新的方法,旨在通过将控制理论模型提供的保证与软件测试实践相结合,提升CPS的测试效果。这一方
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-07
-
“沉默的科学家”:当软件研究未能触及目标受众时
软件研究社区近年来对于其自身研究的相关性和影响力进行了深入的反思。这种反思并非个例,而是科学界普遍存在的现象。然而,与传统科学领域相比,软件研究似乎更加倾向于质疑自身的价值。在过去的两年中,这种讨论变得愈发频繁,甚至成为了一个被广泛关注的话题。2022年,Lionel Briand在ICSE(国际软件工程会议)上发表了一次引人深思的主旨演讲,探讨了软件研究可能带来的影响。两年后,另一家领先的软件期刊《系统与软件杂志》推出了一列新专栏,邀请软件从业者分享他们对如何使软件研究更具相关性的看法。这些事件表明,软件研究社区正在经历一种前所未有的自我质疑,这种质疑不仅是对研究价值的重新审视,更反映出对如
来源:Communications of the ACM
时间:2025-11-07
-
当前的语言模型是否支持R编程语言的代码智能功能?
摘要最近在预训练语言模型(Code-PLMs)的开发方面取得了显著进展,这些模型为软件工程(SE)的许多领域带来了突破性成果。尽管这些模型在处理Java和Python等流行编程语言的SE任务时已经达到了最先进的性能水平,但科学软件及其相关语言(如R编程语言)却很少从中受益,甚至没有被用Code-PLMs进行过评估。研究表明,R语言与其他编程语言存在许多差异,需要特定的技术来处理。在这项研究中,我们首次探讨了针对R语言的代码智能应用。为此,我们收集了一个开源的R语言数据集,并使用多种设置和策略评估了Code-PLMs在代码摘要和方法名预测两个任务上的表现,其中考虑了R语言的两种风格:Tidy-v
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-07
-
寻找更出色的搜索引擎
在人类文明的漫长历程中,信息的存储与传播方式经历了深刻的演变。从最初在洞穴墙壁上刻画的故事,到后来的羊皮纸记录,再到书籍和图书馆的兴起,直至互联网的普及,信息获取的方式不断升级。然而,真正实现快速、个性化信息检索的革命,是在过去25年互联网的快速发展,特别是万维网(Web)的兴起。如今,人工智能(AI)技术正以一种前所未有的方式重塑信息搜索的格局,它不仅改变了我们获取信息的方式,也引发了关于信息真实性、社会影响和未来发展方向的广泛讨论。随着大型语言模型(LLMs)和生成式人工智能(GenAI)的迅速发展,信息搜索正经历着一场新的变革。这些技术能够以自然的口语化方式提供详细且准确的答案,不再需要
来源:Communications of the ACM
时间:2025-11-07
-
利用人工智能创造历史的数字复制品
人工智能在历史保护和文化遗产数字化中的应用,正在以一种前所未有的方式改变我们对过去的理解与体验。从2019年巴黎圣母院火灾的事件中,我们可以看到,当一座拥有近千年历史的建筑遭遇毁灭性灾难时,传统的修复方法可能无法迅速、全面地应对。然而,借助人工智能技术,人们得以在火灾发生前就完成了对圣母院内部和外部的三维扫描,为后续的重建工作奠定了坚实的基础。这一事件不仅凸显了人工智能在历史保护中的重要性,也标志着这一技术在文化遗产领域的发展进入了一个新的阶段。人工智能的核心优势在于其强大的数据处理能力。通过吸收海量的信息,AI能够迅速识别、分类和分析历史遗址及其文物,从而实现更精确、更详细的数字复制品。这不
来源:Communications of the ACM
时间:2025-11-07
-
摆脱标签束缚,超越局限,实现自我价值
我毕业于日本横滨国立大学,主修社会科学,并获得了小学、初中和高中教师的资格证书。我的第一份工作是在IBM公司,从事计算机科学相关的工作(包括编码、数据库规范化、内存管理和网络设计)。我发现,一个人的背景(无论是人文学科还是STEM领域)并不像运用逻辑思维解决实际问题那样重要。我原本以为人文学科专业的学生无法涉足计算机领域。然而,在IBM的工作经历让我意识到,被局限于“人文学科”这样的标签会限制个人的潜力。多年来我还观察到,我的职业生涯中存在“充满成就”和“停滞不前”的周期。虽然有些时候我的职业发展并不顺利,但我将这些时期视为成长的机会,这些机会最终帮助我取得了成功。在快速变化的IT行业中,我们
来源:Communications of the ACM
时间:2025-11-07
-
通讯实践部分欢迎大家提交作品
《Communications》的“Practice”栏目已重新启动,现开始接受投稿。在这里,我们介绍了希望发表的文章类型,并为有志成为作者的人提供一些建议;最新的指导信息将始终在线提供。a(如需更多详情或讨论想法,请联系我们。)我们接受任何与全球计算机从业者(包括美国五百万从业者以及其他国家的数百万从业者)相关的话题的投稿。“Practice”栏目的文章旨在为这部分读者提供有价值的信息并带来乐趣。优秀的文章形式多样,我们无法一一列举,但会概述一些最具潜力的方向。《Communications》在20世纪60至70年代的“Practices”专题以及Jon Bentley在80年代的“Prog
来源:Communications of the ACM
时间:2025-11-07
-
混合态的制备与利用在量子程序测试中的应用
摘要由于对高质量量子程序(QPs)的需求不断增加,单元测试被用来检查量子程序的行为。在测试的量子输入方面,大多数研究将测试输入限制在纯态上,而代表纯态概率混合的混合态几乎被排除在测试过程之外。此外,在实现输入域覆盖时,需要使用大量的以纯态为输入的纯态测试用例(PSTCs),这导致测试时间成本较高。为了解决这个问题,本文探讨了使用混合态作为测试输入,以更好地利用量子信息。从输入域覆盖的角度来看,使用混合态测试用例(MSTCs)替代PSTCs可以简化测试套件,从而提高测试效率。由于混合了多个纯态,单个MSTC比PSTC更有可能检测到故障,从而提高测试效果。本文随后提出了一个单元测试框架,包括MST
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-07
-
自动化程序修复工具的可持续性层面
摘要自动化程序修复(APR)旨在自动化修复软件漏洞的过程,以降低软件维护的成本。尽管近年来APR的准确性显著提高,但其对能源的影响尚未得到研究。绿色软件研究领域致力于衡量开发、维护和使用软件产品所需的能源消耗。我们的主要目标是为测量APR活动的能源消耗奠定基础。我们认为,一个环境可持续(或绿色)的APR工具能够在正确修复漏洞的能力与修复过程中消耗的能源量之间取得良好的平衡。我们测量了10种传统的Java APR工具以及11种经过微调的大型语言模型(LLM)在尝试修复Defects4J中的实际漏洞时的能源消耗情况。本研究的结果揭示了能源消耗与可修复性之间的现有权衡。具体而言,像TBar和Repa
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-07
-
关于缺陷与源代码不自然性之间关系的实证研究
摘要自然语言之所以被称为“自然语言”,是因为其中的文本具有重复性和可预测性。最近的研究表明,编程语言也具有类似的特性(即自然性),源代码中同样存在重复性和可预测性的模式。值得注意的是,研究发现有错误的代码会偏离这些自然模式,因为有错误的代码明显不如无错误的代码自然。在本文中,我们进行了一项大规模且全面的实证研究,以探讨代码缺陷是否会导致源代码失去自然性。与以往的研究不同,我们利用了多个大规模且高质量的漏洞库,在这些库中,修复漏洞的提交中与漏洞无关的更改已被明确排除在外。所研究的软件应用涵盖了多种编程语言,实证研究既包括真实的软件缺陷,也包括通过已知变异操作符自动引入的缺陷。一方面,我们的评估结
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-07
-
出于自卫的行为
人工智能的兴起正在重塑网络犯罪的格局,使得恶意行为变得更加普及和高效。随着技术的不断进步,犯罪分子能够利用人工智能工具,将复杂的攻击手段简化,从而降低实施攻击的门槛。这种趋势不仅影响了犯罪行为的频率和规模,也改变了其运作方式,使得传统的网络安全防御体系面临前所未有的挑战。网络犯罪已从一种依赖于专业知识和资源的活动,演变为一种类似于即服务模式(as-a-service)的产业。如今,恶意软件开发、钓鱼工具包、僵尸网络以及初始访问服务等犯罪行为都可以通过暗网市场进行交易,类似于合法的软件即服务(SaaS)模式。犯罪分子不再需要自己具备深厚的编程技能或网络安全知识,只需通过简单的提示词,就能生成可用
来源:Communications of the ACM
时间:2025-11-07
-
评估区块链智能合约中解释的需求,以调和出现的意外情况
摘要区块链上的智能合约在去中心化系统中发挥着重要作用,它们能够自动化执行协议,无需中介参与。随着这些合约逐渐应用于各个领域,确保用户理解其运作原理变得至关重要。本文探讨了智能合约中解释的必要性,借鉴了合同法原则以及可解释人工智能(XAI)领域的成熟实践。文章阐述了设计智能合约时可解释性的关键目的,包括合理性说明、内容清晰化、合规性保障和用户同意确认。此外,研究提出了一个基于元认知解释(MEB)理论的新型评估框架,用于系统性地分析缺乏解释的智能合约可能存在的“意外情况”。我们利用“意外情况”这一指标,系统地识别出在合理性说明、内容清晰化、合规性保障和用户同意确认方面需要改进的环节。为了验证该评估
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-07
-
超越依赖关系:基于复用的开源软件开发中的作用
在开放源代码软件(OSS)领域,资源的可重用性一直是开发实践的重要组成部分。传统的依赖关系重用方法已经得到了广泛研究,而本文旨在探讨另一种形式的重用——复制重用,其在OSS中的普遍性以及影响其重用倾向的因素。尽管复制重用可能带来一些挑战,如维护成本增加和代码传播带来的潜在风险,但研究显示它在OSS中仍然是一种常见且实用的开发方式。本文通过使用World of Code(WoC)基础设施,对OSS中复制重用的现象进行了系统性分析,从而为未来的研究和工具开发提供了新的视角。复制重用是指将源代码或其他可重用资源直接复制到新项目中,而依赖重用则是通过依赖管理工具引入外部包或库。虽然依赖重用在OSS中具
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-07
-
计算确实是一门处于危机中的学科
在2024年7月,我提出了一个关于“计算科学是否正处于危机之中”的问题。这一问题的诱因是2024年1月对数千位人工智能(AI)领域研究人员进行的一项调查,该调查的主要结果显示:AI社区对这一领域的发展方向深感担忧,但觉得自己无法改变这一趋势,因为该领域的方向主要由硅谷的资本力量所主导。自那以后,这种担忧愈发强烈。事实上,硅谷内部人士埃里克·施密特最近在《纽约时报》上与谢丽娜·徐合写了一篇观点文章,题为《硅谷正在逐渐脱离美国其他地区的现实》,文中写道:“这种狂热让我们感到担忧。”与此同时,硅谷正在投入数百亿美元追逐通用人工智能(AGI)的目标,而美国的学术计算研究却面临着严重的资金短缺问题。正如
来源:Communications of the ACM
时间:2025-11-07
-
解析深度学习框架中的代码克隆动态
摘要深度学习(DL)DL框架内部的文件级代码克隆情况。研究结果表明,DL框架存在四种不同的克隆趋势:“蛇形”、“起伏”、“减少”和“稳定”,这些趋势具有一些共同点和独特特征。例如,无论克隆的演变趋势如何,修复错误的活动始终会在代码克隆中发生,但在“蛇形”趋势中更为频繁。此外,对版本更新期间代码克隆情况的分析表明,短期代码克隆行为会影响到长期克隆趋势。跨框架的代码克隆研究还发现,在这九个框架中存在功能性和架构适应性的文件级代码克隆现象。我们的研究结果为推动DL框架的稳健克隆实践和协作维护提供了有益的见解。
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-07
-
建模社交网络中虚假信息的传播:相变与平均场分析
本文探讨了虚假信息在社交媒体平台上的传播对全球社会的影响,并提出了一种基于统计力学原理的动态均场模型,用于模拟和分析这种信息传播过程。虚假信息的扩散不仅扰乱了民主进程,还削弱了公众信任,并加剧了社会分裂。现有研究通常忽略了虚假信息传播中的动态机制和结构性因素,而本文通过引入创新的建模方法,提供了对虚假信息传播的深入理解,并为制定有效的干预措施奠定了理论基础。首先,文章强调了虚假信息在当代社会中的严重性。随着社交媒体的普及,虚假信息的传播速度和范围显著增加,对政治、社会和经济等各个领域产生了深远影响。例如,联合国将虚假信息定义为有意误导公众并造成严重损害的错误信息,包括国家和非国家行为者传播的内
来源:ACM Transactions on the Web
时间:2025-11-07
-
µOpTime:利用稳定性指标静态缩短微基准测试套件的执行时间
在软件开发过程中,性能回归问题对软件质量有着重大影响。为了在软件部署到生产环境之前发现这些回归问题,通常会执行性能测试,例如使用微基准测试(microbenchmarks),这些测试可以在子程序级别衡量软件的性能。然而,随着微基准测试数量的增加,执行这些测试可能会花费数小时,这使得它们难以频繁用于持续集成和持续交付(CI/CD)流水线。为了解决这一问题,本文提出了一种名为 µOpTime 的静态方法,该方法通过为每个微基准测试配置重复次数,减少微基准测试套件的执行时间。µOpTime 利用之前完整微基准测试套件运行的结果,确定最小的重复次数,这些重复次数仍然能保证测试结果的准确性。我们通过实验
来源:ACM Transactions on Software Engineering and Methodology
时间:2025-11-07