当前位置:首页 > 今日动态 > 科研动态/国外
  • 基于正样本无标签学习和知识图的生物医学信息检索

    摘要生物医学文献的快速增长给信息检索领域带来了重大挑战。现有的大多数研究都集中在基于明确查询的文档检索上。然而,在实际应用中(如生物医学数据库的维护),往往缺乏明确的查询条件。在本文中,我们提出了一种两步模型,用于在仅有少量示例文档且没有明确查询的情况下进行生物医学信息检索。首先,我们利用大型预训练的语言模型和生物医学知识图谱从这些文档中提取关键词,然后对这些关键词进行领域特定实体的补充。信息检索技术可以利用这些实体对文档进行排序。接下来,我们引入了一种迭代式的正样本-无标签学习方法来对所有未标记的文档进行分类。在PubMed数据集上进行的实验表明,所提出的方法优于现有的最先进正样本-无标签学

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 从表示到响应:评估大型语言模型与人类判断模式的一致性

    摘要大型语言模型(LLMs)是复杂的人工智能系统,旨在以高级水平处理和理解自然语言。这些模型的最新进展,尤其是基于聊天的LLMs,使得这些先进的智能系统更加易于使用,展示了机器学习方法如何帮助人类完成日常任务。本研究关注于理解LLMs的运作机制以及评估它们与人类认知的一致性。我们提出了一种创新的LLMs一致性评估策略,该方法与传统方法不同,采用“奇数个不同项”的三元组来研究LLMs的表示与人类对象概念心理组织之间的一致性。我们的方法结合了图像标注和零样本/少量样本学习准确性评分,旨在评估语言模型预测对象概念相似性和差异性的能力。我们进行了全面的实验评估,涉及四种标注策略、八个模型家族中的二十四

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 采用LoRA微调的多模态大型语言模型,用于多模态情感分析

    摘要近年来,多模态情感分析已成为一个热门的研究课题。然而,现有的方法存在两个未解决的问题:(1)它们使用有限的监督标签来训练模型,这使得模型无法完全理解不同模态数据中的情感;(2)它们采用在单一模态任务中预训练的文本和图像模型来提取不同模态的特征,因此提取的特征无法考虑图像和文本之间的交互信息。为了解决这些问题,本文提出了一种视觉-语言对比学习网络(VLCLNet)。首先,我们引入了一个预训练的大型语言模型(LLM),该模型通过大量多模态数据进行了训练,对图像和文本内容有更好的理解能力,因此能够在需要少量标注训练数据的情况下有效应用于各种任务。其次,我们改编了一个多模态大型语言模型(MLLM)

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 大型语言模型的推理能力:对抽象与推理语料库的深入分析

    摘要目前用于评估大型语言模型(LLMs)推理能力的方法主要集中在结果上,这使得全面评估推理过程变得困难。我们引入了一种新的方法,利用“抽象与推理语料库”(Abstraction and Reasoning Corpus, ARC)作为基准,从过程的角度来评估LLMs的推理和上下文理解能力,重点关注“思维语言假说”(Language of Thought Hypothesis, LoTH)中的三个关键组成部分:逻辑连贯性(Logical Coherence)、组合性(Compositionality)和生产力(Productivity)。我们精心设计的实验表明,尽管LLMs具备一定的推理能力,但

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 大型语言模型是否具备空间认知能力?

    摘要自从大型语言模型出现以来,它们受到了学者和行业专业人士的广泛关注。随之而来的一个重要问题是,这些大型语言模型是否具备与人类相似的认知能力。空间认知作为人类认知能力的一个重要方面,在这一评估中起到了基础性的作用。本研究试图探讨两个核心主题:首先,它试图确定大规模语言模型是否具备空间认知能力;其次,它旨在找出能够引发更佳空间认知回答的最佳提示方法,同时考虑结果的稳定性和准确性。我们设计了一系列实验,使用了24个典型的空间场景来评估目前八种流行的大型语言模型是否具备空间认知能力,并考察了它们的空间认知水平。后续的讨论探讨了提高大型语言模型空间认知性能的策略,以使其更接近人类的认知水平。在没有额外

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 政府事务领域大型语言模型的评估框架与基准

    摘要人工智能(AI)的快速发展推动了众多领域的进步。在政府事务领域,大型语言模型(LLMs)在政策分析、数据处理和决策支持等方面具有巨大潜力。然而,其在政府环境中的应用面临诸多挑战,包括数据可访问性问题、缺乏标准化评估标准,以及对模型准确性、可靠性和安全性的担忧。为应对这些挑战,我们提出了一个专为政府事务中的LLMs设计的全面评估框架。该框架基于模块化原则构建,确保了其在不同行业的适用性。此外,我们还介绍了“多场景政府事务基准测试数据集”(MSGABench),这是一个专门为满足政府专业人士实际需求而设计的中文数据集。利用所提出的框架和MSGABench数据集,我们对15个知名LLMs进行了实

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • GPT模型在FHIR能力方面的比较评估

    摘要确保医疗数据交换的互操作性对于提升患者护理质量至关重要,而Fast Healthcare Interoperability Resources (FHIR®) 已成为这一领域的核心标准。随着医疗行业越来越多地运用人工智能 (AI) 来管理和解析复杂数据,掌握 FHIR 标准对于实现与医疗系统的无缝、可靠交互变得至关重要。本研究评估了生成预训练Transformer (GPT) 模型在 FHIR 方面的表现能力,这些模型是应用于医疗领域的人工智能技术的关键基准。通过新的评估指标(包括令牌处理成本 (TPC)、调整后的令牌处理成本 (ATPC)、综合性能指数 (CPI) 和质量调整后的性能得分

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • stEELlm:一款用于为表格数据生成语义注释的大型语言模型(LLM)

    摘要 大型语言模型(LLMs)的能力标志着我们在管理和处理信息及数据方式上的一项重大变革。我们看到这些模型在各种计算任务中的使用日益普及。在一些初步研究中,人们尝试将知识图谱(Knowledge Graphs)与大型语言模型相结合,特别是用于通过文本的语义注释来构建知识图谱。如今,表格被广泛使用,在创建、组织和共享信息方面发挥着关键作用,这些信息可以用来生成事实性知识并整合到知识图谱中。然而,利用LLM进行表格到知识图谱转换的技术尚未得到充分研究。本文介绍了stEELlm,这是一种创新的语义表格解释方法,通过对Mixtral 8x7B模型进行微调实现。实验表明

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • CFaiRLLM:大型语言模型推荐系统中的消费者公平性评估

    摘要本研究对以往关于基于大型语言模型(LLM)的推荐系统中公平性评估的研究采取了批判性的态度。以往的研究主要通过比较包含和不包含敏感用户属性的推荐列表来评估消费者的公平性。这些方法隐含地将推荐物品之间的差异视为偏见,而忽略了这些差异可能是由于与用户真实偏好相一致的个性化调整所导致的。此外,早期的研究通常单独关注单一的敏感属性,忽略了交叉身份之间的复杂相互作用。为了解决这些不足,我们提出了CFaiRLLM,这是一个改进的评估框架,它不仅考虑了真实偏好的一致性,还严格检验了交叉公平性,同时考虑了多个敏感属性之间的重叠情况。CFaiRLLM还引入了多种用户画像采样策略——随机、高评分和基于时效性——

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 对开源大型语言模型进行提示和微调以实现立场分类

    摘要立场分类(即预测作者对某一主题的看法)一直是从社会科学到机器学习等多个研究领域的关注焦点。目前的立场检测方法主要依赖于对句子的手动标注,随后再训练监督式机器学习模型。然而,这种手动标注过程需要大量的劳动成本,从而限制了该方法在不同情境下的泛化能力。在这项研究中,我们探讨了使用大型语言模型(LLMs)作为立场检测方法的可能性,这种方法可以减少甚至消除对手动标注的需求。我们测试了10个开源模型和7种提示方案,发现LLMs在性能上可以与领域内的监督模型相媲美,但其表现并不一致。我们还对LLMs进行了微调,但发现微调过程并不一定能带来更好的性能。总体而言,我们发现LLMs并不总是优于较小的监督式机

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 大型语言模型(LLMs)会梦到本体论(Ontologies)吗?

    摘要大型语言模型(LLMs)在各种自然语言处理任务中表现出色,但它们记忆结构化知识的能力尚未得到充分研究。在本文中,我们探讨了通用预训练的LLMs在多大程度上能够保留并正确再现来自公开可用本体论的概念标识符(ID)与标签之间的关联。我们使用诸如Pythia-12B、Gemini-1.5-Flash、GPT-3.5和GPT-4等LLMs,对多个本体资源(包括基因本体论、Uberon、Wikidata和ICD-10)进行了系统评估。研究结果表明,只有少数本体概念被准确记住,其中GPT-4的表现最佳。为了解释为什么某些概念比其他概念更容易被记住,我们分析了记忆准确性与概念在网络上的流行程度之间的关系

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 探究大型语言模型的符号逻辑推理能力

    摘要大型语言模型(LLMs)通过学习单词之间的关系,在各种研究领域取得了显著的成功。然而,尽管这些模型能够根据所学的模式进行预测和推理,但它们缺乏逻辑推理能力,而逻辑推理能力对于解决理论和实践领域的问题至关重要。此外,传统的逻辑推理方法在解决基于逻辑的问题时非常有效,但不适合处理推荐等一般性任务。为应对这些挑战,本文提出了一种逻辑大型语言模型(L3M),它结合了逻辑推理和大型语言模型的优势。L3M中的数据以逻辑表达式的形式表示,模型利用逻辑约束来学习基本逻辑运算(如“与”、“或”和“非”)的规则。我们在理论任务(解决逻辑方程)和实际任务(推荐系统)上进行了实验。理论实验的结果表明,L3M在解决

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 用于基于文本的视觉问答中层次化语义推理的级联变换器

    摘要基于文本的视觉问答(TextVQA)旨在通过理解图像中的场景文本来回答问题。然而,许多现有方法过度依赖OCR系统的准确性,而忽视了视觉对象的重要性。当问题涉及视觉对象与场景文本之间的关系时,这些方法的性能往往较差。为了解决上述问题,我们提升了视觉对象的重要性,并创新性地提出了一种基于级联变换器架构的分层语义推理网络(CT-HSR),实现了细粒度的跨模态推理和视觉语义增强。具体而言,首先通过基于跨模态变换器的视觉-语言预训练模型获得包含问题模态丰富语义信息的视觉表示。然后,利用单模态变换器进行统一模态编码,以捕捉与OCR文本语义关联更紧密的视觉对象。此外,我们通过特征过滤策略进一步减轻了跨模

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • GOAT-Bench:通过基于模因的社交滥用行为洞察大型多模态模型的安全性问题

    摘要社交媒体的指数级增长深刻改变了信息的创建、传播和吸收方式,这种变化在数字时代是前所未有的。遗憾的是,这种爆发也导致了网络中对模因(meme)的滥用现象显著增加。由于模因往往具有微妙且隐含的含义,而这些含义并未通过文字和图像直接表达出来,因此评估其负面影响颇具挑战性。鉴于此,大型多模态模型(LMMs)因其在处理多种多模态任务方面的出色能力而成为研究重点。本文旨在全面探讨各种LMM(如GPT-4V、LLaVA和Qwen-VL)识别和应对模因中所体现的社交滥用行为的能力。我们推出了一个名为GOAT-Bench的综合性模因评估基准,其中包含了超过6000个涵盖隐性仇恨言论、性别歧视和网络欺凌等主题

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • TencentLLMEval:对人类辅助大型语言模型(LLM)实际能力的层次化评估

    摘要大型语言模型(LLMs)在各种自然语言任务中展现了令人印象深刻的能力。然而,评估它们与人类偏好的契合度仍然是一个挑战。为此,我们提出了一个全面的人类评估框架,用于评估LLMs在处理多样化实际任务时遵循指令的能力。我们构建了一个分层任务树,涵盖了7个主要领域,包含200多个类别和800多个任务,这些任务涵盖了问题回答、推理、多轮对话和文本生成等多种能力,从而能够对LLMs进行全面而深入的评估。我们还设计了详细的评估标准和流程,以确保人类评估者能够做出一致且无偏见的判断。我们发布了包含3000多个实例的测试集,这些实例涵盖了不同的难度级别和知识领域。我们的工作为评估英语和中文LLMs的人类契合

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 跨层次结构-细节感知变换器在单图像去模糊中的应用

    摘要由于相机抖动和物体运动的影响,图像会出现模糊现象,这种模糊通常具有方向性和不均匀性,从而降低了整体视觉质量。尽管近年来提出了许多单图像去模糊方法,但它们的效果仍然有限,尤其是在涉及不同尺度、深度层次以及背景与物体难以区分的真实世界场景中。为了解决这些问题,我们提出了一种新型的跨层次结构-细节感知Transformer(CSDFormer)用于单图像去模糊。该模型在多个尺度和层次上进行操作,同时关注大尺度和局部模糊以及不同的模糊程度。我们引入了结构感知特征提取(SaFE)模块和细节感知特征提取(DaFE)模块,以逐层在不同尺度间提取关键特征(跨层提取)。为了实现不同尺度间的有效特征交换,我们

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 通过护士Ruth评估GPT-4对产科医疗文本的语义理解

    摘要“Nurse Ruth”是一款由人工智能驱动的辅助系统,旨在为资源有限的环境以及非专业医疗保健提供者提供产科护理支持。为了开发和验证“Nurse Ruth”的性能,我们引入了两种新的评估指标:语义透明度指标(Semantic Transparency Metric, STM)和语义理解指标(Semantic Understanding Metric, SUM),用以评估其响应的准确性、与上下文的关联性以及对常规和对抗性临床问题的鲁棒性。通过迭代优化和有针对性的知识整合,“Nurse Ruth”在STM和SUM指标上的表现均超过了80%的阈值,进一步证明了其提供清晰、基于证据且符合上下文要求

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 减少数据冗余以提升基于Transformer的长期时间序列预测系统的性能

    摘要长期时间序列预测(LTSF)在各种实际应用中至关重要,基于Transformer的模型因其能够捕捉长距离依赖关系而成为主流框架。然而,在滚动预测环境中,由于数据冗余,这些模型经常出现过拟合问题,尤其是在相邻数据高度相似的较长序列中,其泛化能力受到限制。在这项工作中,我们提出了CLMFormer这一新型框架,该框架通过课程学习(curriculum learning)和基于记忆的解码器(memory-driven decoder)来减轻数据冗余。具体而言,我们在训练样本中逐步引入伯努利噪声(Bernoulli noise),有效打破了相邻数据点之间的高度相似性。这种基于课程的噪声引入为基于记

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 通过仅使用解码器的Transformer实现多源扩展来提升知识追踪能力

    摘要知识追踪(Knowledge Tracing, KT)是一种通过观察学生的学习历史互动来预测其未来表现的问题。教育数据的收集面临诸多挑战:学生有限的学习参与度限制了大规模互动数据的生成,而严格的隐私法规进一步减少了在线平台上学生学习序列的可用性。因此,通过整合来自多个学科和来源的学生互动数据来构建大规模数据集,从而提升基于深度学习的知识追踪(Deep Learning-based KT, DLKT)模型的能力至关重要。ChatGPT的成功表明,仅使用解码器的Transformer架构在从大规模序列数据中捕获复杂信息方面非常有效。基于这一背景,我们提出了一种全新的仅使用解码器的Transfo

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08

  • 与机器学习课程的竞争

    摘要尽管人工智能在医疗保健领域的整合速度很快,但当前的机器学习课程中仍存在一个关键缺陷:缺乏关于识别和减少数据集中偏见的教育内容。这种疏忽可能会通过带有偏见的AI模型进一步加剧现有的健康不平等现象。通过对11门知名的在线课程进行分析,我们发现只有5门课程涉及数据集偏见问题,而且通常在这些课程中,关于偏见的内容所占时间远少于技术方面的内容。本文呼吁课程开发者优先开展数据背景方面的教育,使学习者掌握评估数据来源、收集方法以及数据中潜在偏见的工具。这种方法有助于开发公平的算法,并利用多样化的数据来源,从而最终减轻医疗保健领域中人工智能偏见带来的负面影响。虽然本分析主要针对公开可获取的课程,但它强调了

    来源:ACM Transactions on Intelligent Systems and Technology

    时间:2025-11-08


页次:2740/9734  共194674篇文章  
分页:[<<][2731][2732][2733][2734][2735][2736][2737][2738][2739][2740][>>][首页][尾页]

高级人才招聘专区
最新招聘信息:

知名企业招聘:

    • 国外动态
    • 国内进展
    • 医药/产业
    • 生态环保
    • 科普/健康