生物通-更多新闻

当前位置：首页 > 今日动态 > 科研动态/国外

卡西语社交媒体评论中的辱骂性语言检测

摘要本文介绍了针对卡西语（Khasi）自动化检测辱骂性语言的工作。卡西语主要在印度梅加拉亚邦使用，属于资源较少的语言。我们创建了一个名为“Khasi辱骂性语言数据集”（KALD）的数据集，其中包含4,573条由人工标注的卡西语YouTube和Facebook评论。我们还构建了一个卡西语文本语料库，并利用该语料库生成了Khasi word2vec和fastText词嵌入模型。研究中采用了深度学习、传统机器学习以及集成模型。实验分别使用了word2vec、fastText以及通过LDA得到的主题向量。此外，我们还测试了像LaBSE和LASER这样的零样本跨语言模型是否适用于卡西语的辱骂性语言检测。

来源：ACM Transactions on Asian and Low-Resource Language Information Processing

时间：2025-11-08
CHUNAV：分析印度选举言论中的印地语仇恨言论及其针对的群体

摘要在不断变化的在线言论和政治对话环境中，仇恨言论的兴起对维护一个尊重和包容的数字环境构成了重大挑战。当考虑到印地语这一资源匮乏、可用数据有限的语言时，情况变得更加复杂。为了解决这一紧迫问题，我们推出了CHUNAV数据集——该数据集收集了在各个邦举行的议会选举期间发布的11,457条印地语推文。CHUNAV专门用于仇恨言论的分类和目标群体的识别。这一数据集是研究印度选举这一独特社会政治背景下仇恨言论的宝贵资源。CHUNAV中的推文已被细致地分为“仇恨”和“非仇恨”两类，并进一步细分以确定仇恨言论的具体目标，包括“个人”、“组织”和“社区”等类别（如图1所示）。此外，本文还提出了多种仇恨言论检测

来源：ACM Transactions on Asian and Low-Resource Language Information Processing

时间：2025-11-08
通过调整类别权重和优化特征，在泰米尔语混合编码数据中检测滥用评论

摘要近年来，互联网上各种平台上的大量内容被发现有攻击性或辱骂性。检测辱骂性评论可以在很大程度上防止互联网用户受到辱骂性语言的负面影响。当这些评论出现在资源较少的语言（如泰米尔语）或泰米尔语与英语混合的文本中时，这个问题变得更加具有挑战性。迄今为止，尚未有使用不平衡数据集进行辱骂性评论检测的实质性研究。此外，特别是针对泰米尔语混合数据的研究也非常有限，这些研究通常仅涉及对数据集进行分类分析，并据此创建自定义词汇表以进行预处理。本文提出了一种新颖的方法，该方法利用定制的训练词汇表以及统计特征选择与语言无关的特征选择相结合的方式，同时运用可解释的AI技术对特征进行优化，从而对不平衡数据集中的辱骂性评

来源：ACM Transactions on Asian and Low-Resource Language Information Processing

时间：2025-11-08
SmrCaIT演算的证明系统

摘要物联网（IoT）的快速发展推动了全球对相关应用和技术的强烈需求，尤其是在提高系统可靠性和安全性方面。通信安全、移动性和实时性是构建安全可靠物联网系统的三个关键特性。基于严格数学理论的形式化方法被广泛用于描述、分析、建模和验证软件和硬件系统，显著提升了它们的安全性和可靠性。然而，当前的研究主要集中在物联网的实际应用上，而将形式化方法应用于物联网系统的研究仍然较少。作为对此的回应，我们最近提出了SmrCaIT演算，这是目前唯一专为物联网设计的演算方法，能够全面描述物联网的安全性、实时性和移动性特征。通过应用SmrCaIT演算，我们可以在物联网系统实际部署之前对其进行建模和验证，从而为构建安全可

来源：ACM Transactions on Embedded Computing Systems

时间：2025-11-08
FedREAS：一种用于联邦学习的强大且高效的聚合与选择框架

摘要在自然语言处理（NLP）领域，深度学习（DL）和神经网络（NN）技术已被广泛应用于机器翻译和情感分析，并展现了出色的性能。近年来，NLP 应用还结合了多模态数据（如视觉和音频数据），持续提升了语言处理能力。与此同时，神经网络模型的规模不断扩大，许多模型无法在计算资源有限的设备上运行。因此，将模型部署在云平台上已成为一种趋势。然而，尽管克服了计算限制，但在云中部署模型仍会给终端数据带来新的隐私风险。联邦学习（FL）方法通过将数据保留在客户端，并仅向中央服务器发送局部更新来保护数据安全。不过，FL 架构仍存在一些问题，例如易受对抗性攻击的影响

来源：ACM Transactions on Asian and Low-Resource Language Information Processing

时间：2025-11-08
MemScape：为自动驾驶车辆构建分层内存管理机制

摘要随着自动驾驶车辆（AV）系统复杂性的不断增加，高效管理分层内存架构变得愈发关键。这需要超越传统内存管理策略的改进，以实现所需的性能。本文介绍了MemScape这一创新策略，它能够动态调整AV系统的内存配置，从而最大化利用分层内存结构，减少运行过程中的性能下降。与传统的分层内存管理方法不同，MemScape采用了用户级和内核级的内存分配机制来迁移内存，显著提升了系统性能，同时降低了系统内存成本。MemScape结合了反应式和主动式强化学习算法进行内存管理：反应式算法根据当前性能指标做出决策，而主动式算法则预测未来的内存需求，确保系统的性能稳定性和效率。通过对一个使用分层内存的典型AV应用流程

来源：ACM Transactions on Embedded Computing Systems

时间：2025-11-08
为C语言开发类似Rust的借用检查器

摘要C语言中的内存安全问题是一系列漏洞的根源，这些漏洞可能危及程序的正确性或安全性。我们提出了一种通过复制Rust的中间表示层（MIR）借阅检查器（Borrow Checker）来解决内存安全问题的方法。我们的解决方案利用静态分析和连续的源代码到源代码的转换，在编译器之前进行这些操作，从而确保与现有构建系统的最大兼容性。这样我们就可以用较少的修改将rustc编译器的内存安全保障应用到C代码中，而无需完全重写C代码。在这项工作中，我们全面研究了Rust在确保内存安全方面的努力，并描述了C语言借阅检查器的理论基础，同时还开发了一个概念验证来展示其潜力。我们在CHStone和bzip2基准测试中对该

来源：ACM Transactions on Embedded Computing Systems

时间：2025-11-08
针对物联网大规模信息处理的内存数据库负载均衡优化

摘要为了提高内存数据库在物联网大规模信息处理中的运行效果，本文结合了负载均衡信号处理算法，对内存数据库进行了负载均衡优化分析。针对非平稳多分量信号的局部变换特性，本文提出了一种自适应FSST算法。根据信号的可分离性条件，本文利用局部瑞利熵来估计自适应FSST和自适应FSST2的窗函数参数。此外，本文采用自适应窗函数来自动适应信号的局部变化，从而使信号在任何部分都具有最佳的能量聚集效果。实验结果表明，在并发用户数量相同的情况下，所提出方法的时间消耗、吞吐量和带宽始终优于参考文献[10]中提出的方法。当并发用户数量为97时，所提出方法的时间为45000毫秒，吞吐量最高为2.30 MB/s，带宽最高

来源：ACM Transactions on Asian and Low-Resource Language Information Processing

时间：2025-11-08
PEak：硬件设计与验证的单一真实来源

摘要针对硬件的领域特定语言能够显著提高设计人员的效率，但有时会牺牲验证的便捷性。另一方面，指令集架构（ISA）规范语言过于静态，无法在设计的早期阶段用于探索不同的设计方案。我们提出了PEak，这是一种开源的硬件设计和规范语言，旨在同时提升设计效率和验证能力。PEak通过为功能模型、正式规范以及RTL（硬件描述语言）提供统一的数据源来实现这一目标。PEak已被应用于多个学术项目，其生成的RTL也被集成到了三款实际制造的硬件加速器中。在这些项目中，PEK的形式化特性对于实现新颖的设计探索技术和自动化编译器合成至关重要。

来源：ACM Transactions on Embedded Computing Systems

时间：2025-11-08
TreeHouse：一种基于MLIR的编译流程，用于实时的基于树的推理

摘要基于树的集成模型是实时推理中具有显著资源效率的方法。为了优化其性能，研究人员开发了几种解决方案来适应它们独特的程序结构（即连续的分支结构），并消除通常在嵌入式计算系统中代价较高的浮点运算。这些解决方案大多在源代码层面实现，随后进行标准编译。因此，端到端的编译流程可以整合这些方法并提供全面的优化。在这项工作中，我们介绍了TreeHouse，这是一种基于MLIR的编译流程，专为树的集成模型的实时推理而设计。首先，我们优化了基本块的布局，以减少推理过程中的分支次数。此外，我们还提供了一种解决方案来优化LLVM寄存器分配，进一步提高效率。为了解决边缘系统中浮点运算性能不佳的问题，我们采用了将数据转

来源：ACM Transactions on Embedded Computing Systems

时间：2025-11-08
用于分析社交媒体中人格特征和障碍的人工智能应用：一项调查

摘要人格分析对人类具有积极的影响，因为它有助于识别人格特征和心理障碍。此外，它还有助于监测病例情况，并丰富医生的知识库，尤其是在决策过程中。本研究对社交媒体中的人格分析方法进行了全面的文献回顾，旨在深入理解当前关于人格治疗的研究。本研究的目标是识别这些研究中存在的各种局限性，并探索改进的潜在途径。具体来说，研究首先介绍了特质和人格障碍的主要概念以及心理分析的重要性。接下来，展示了四项与社交媒体中的人格分析相关的研究：人格特征、人格障碍、疾病之间的关联检测以及患者状况的监测。随后，展示了每个研究领域现有的主要研究成果。之后，提出了对这些研究成果的比较分析。最后，提出了该领域进一步研究的计划大纲，

来源：ACM Transactions on Asian and Low-Resource Language Information Processing

时间：2025-11-08
针对阿拉伯语推文中的仇恨言论检测，对近期预训练的语言模型进行了系统性研究

摘要如今，从阿拉伯语推文中识别仇恨言论引起了全球研究人员的极大兴趣。人们采用了多种技术和系统来解决这一分类问题。然而，主要面临两个挑战：一是需要手工制作特征，二是这些特征的识别效果仍然有限。本文研究了从阿拉伯语推文中识别仇恨言论的方法，并深入探讨了一种基于迁移学习的新技术的性能。具体而言，将传统机器学习（ML）模型的准确性与预训练语言模型（PLMs）以及深度学习（DL）模型的准确性进行了比较。在基准数据集上的实验表明：（1）多语言版本的预训练语言模型优于单语言和多语言版本的模型；（2）对最新预训练语言模型进行微调可以提高从阿拉伯语推文中识别仇恨言论的准确性。本研究的主要贡献在于在阿拉伯语仇恨言

来源：ACM Transactions on Asian and Low-Resource Language Information Processing

时间：2025-11-08
MLTL（Multi-type）：一种用于网络物理系统的类型化逻辑

摘要现代的网络物理系统（CPSoS）运行在复杂的系统体系中，这些系统需要无缝协作以控制安全或任务关键功能。线性时序逻辑（LTL）和任务时序逻辑（MLTL）能够直观地表达CPSoS的需求，用于自动化系统验证和确认。然而，LTL和MLTL都假设公式中变量的所有信号都以相同的采样率和类型（例如时间或距离）进行采样，并且使用标准的“时间”步长。网络物理系统的形式化验证需要验证在不同类型的（子）系统信号上表达的需求，例如在不同时间尺度、距离或抽象层次上采样的信号，而这些信号都包含在同一公式中。之前的研究开发了更具表达能力的逻辑来处理这些类型差异，但牺牲了LTL的直观简洁性。然而，如果能够实现语言规范与形

来源：ACM Transactions on Embedded Computing Systems

时间：2025-11-08
基于机器翻译模型解读和翻译韩语——面向大学生的教学内容

摘要韩语（KL）具有首辅音、中辅音和尾辅音。由于基本辅音的发音是模仿人类的发音器官产生的，因此在发音时模仿这些发音器官的形态会使其更加突出。当前机器视觉领域的研究主要集中在文本识别和翻译技术上，尤其是用于展示板的文本处理。在自动文本翻译方面，有两个典型的应用案例：导游软件和酒店客房服务机器人。然而，这两种语言在发音和语法结构上存在显著差异。许多英语发音在韩语中并没有对应的发音，这使得韩语学习者更加困难。尽管对于语言教师等人工评估者来说，评估韩语与目标语言翻译之间的信息等价性需要花费大量时间和精力，但基于机器学习的KL-MTM（Korean Language-Machine Translatio

来源：ACM Transactions on Asian and Low-Resource Language Information Processing

时间：2025-11-08
混合层次建模与无缓存处理单元网格的评估

摘要当现代处理器的计算单元速度超过新数据可处理的速度时，就会出现内存竞争问题。这种现象被称为“内存墙”，是计算机工程中的一个重大挑战。其原因在于内存访问速度的增长速率与处理器时钟速率的增长速率不匹配。为了解决经典计算机架构中的内存瓶颈问题，人们提出了一种可扩展的并行计算平台——处理单元网格（Grid of Processing Cells，简称GPC）。为了评估其有效性，我们使用SystemC TLM-2.0在指令级和功能级对GPC进行了建模，重点关注内存竞争问题。各个GPC单元可以在这两种抽象层次之间进行切换。我们的混合层次系统模型能够实现快速且准确的仿真。我们在GPC上测试了多种流式应用程

来源：ACM Transactions on Embedded Computing Systems

时间：2025-11-08
Vi-AbSQA：一种用于越南语基于方面的情绪四元分析的多任务提示指令调优模型

摘要基于方面的情绪分析（ABSA）最近在自然语言处理（NLP）领域受到了广泛关注，尤其是在处理三元组提取或四元组预测等复杂任务时。然而，大多数现有研究都集中在资源丰富的语言上。在本文中，我们构建了一个针对越南语的具有挑战性的基准数据集——越南语基于方面的情绪四元组分析（AbSQA），其中每个句子都包含显性和隐性的方面以及观点术语。此外，每个样本至少包含两个具有不同情感的方面类别。我们免费发布这个数据集，以促进该领域的研究发展。同时，我们提出了一种基于生成的方法来解决AbSQA任务，该方法采用多任务指令提示调整框架。具体来说，我们设计了一种有效的生成范式，利用指令提示来提供更多关于任务的信息。此

来源：ACM Transactions on Asian and Low-Resource Language Information Processing

时间：2025-11-08
PsyChatbot：一种基于认知行为疗法的心理咨询机器人，专为抑郁的中国人群设计

摘要如今，由于抑郁症患者人数不断增加，这一问题引起了广泛关注。抑郁症是一种全球性的心理问题，严重情况下可能导致自杀。然而，高昂的治疗费用和社会歧视等因素阻碍了人们获得有效的治疗。聊天机器人技术是解决这一问题的主要尝试之一。但据我们所知，目前为抑郁症患者设计的聊天机器人系统仍然较为零散，且大多存在不可忽视的局限性。具体而言，现有系统仅能引导用户宣泄负面情绪或提供一些通用建议，无法针对用户的特定问题提供个性化建议。此外，尽管中国抑郁症患者数量庞大，但大多数聊天机器人系统仅支持英语使用者。针对这部分人群的心理咨询系统在响应速度方面仍有待提升。为了在一定程度上填补这一研究空白，我们设计了一个新型的中文

来源：ACM Transactions on Asian and Low-Resource Language Information Processing

时间：2025-11-08
基于断言的监控器的边缘-云协同编排，用于机器人应用

摘要实现现代机器人行为的多域软件应用程序的运行时验证是一项具有挑战性的任务。一方面，基于断言的验证（ABV）在运行时检查复杂系统的正确性方面展现出了巨大潜力；另一方面，运行时ABV引入的计算开销可能相当大、具有不确定性且变化无常。因此，将精确的ABV应用于资源受限计算架构的自主机器人时，可能会导致软件执行速度严重下降以及时间约束的失败，从而影响整个系统的正确性。为应对这一挑战，我们提出了一个运行时ABV平台，该平台能够从信号时态逻辑断言中合成监控器，并实现监控器在边缘设备和云之间的动态迁移。合成的监控器被封装成符合ROS标准的节点，并连接到待验证的系统中。整个ABV框架及其相关的迁移机制随后使

来源：ACM Transactions on Embedded Computing Systems

时间：2025-11-08
利用混合自适应正弦余弦算法结合深度学习进行阿拉伯诗歌韵律检测

摘要诗歌是任何语言中不可或缺的重要组成部分。许多文化和国家的历史都通过诗歌得以传承。与散文相比，每首诗歌都具有独特的节奏结构。诗歌的语言有其特定的韵律形式，称为“格律”。检测阿拉伯诗歌的格律是一个复杂且耗时的过程。为了对诗歌的格律进行分类，首先需要使用Arudi方法对文本进行加密处理，这一过程涉及基于规则的复杂转换；随后再通过另一组规则对加密后的文本进行格律分类。将深度学习（DL）应用于阿拉伯诗歌的格律识别，意味着构建神经网络来捕捉不同格律中的节奏模式。通过对文本数据集进行分词和预处理，模型可以提取关键特征，如单词长度或音节结构。长短期记忆网络（LSTM）或循环神经网络（RNN）等架构非常适合

来源：ACM Transactions on Asian and Low-Resource Language Information Processing

时间：2025-11-08
RPFF-PA：一种可靠且具备并行容错功能的框架，用于降低路径延迟，已应用于寄存器阵列中

摘要软错误可能由于辐射事件而导致电子设备故障。因此，容错设计对于保护关键的内存组件和处理器至关重要。N模块冗余（NMR）方案为实现寄存器保护提供了一种实用的方法。然而，NMR容错方案在关键路径上采用串行配置，导致路径延迟增加了大约12.4%-35.5%%-20.3%

来源：ACM Transactions on Embedded Computing Systems

时间：2025-11-08

页次：2747/9734 共194674篇文章
分页：[<<][2741][2742][2743][2744][2745][2746][2747][2748][2749][2750][>>][首页][尾页]

高级人才招聘专区