-
利用学习系统进行手写奥里亚语数字识别:神经网络与支持向量机模型的比较
摘要奥里亚语是印度众多地区性语言之一,它是印度东部奥里萨邦的官方语言。奥里亚语拥有1500年的历史,在全球范围内有超过5000万人使用。由于每个字符中都包含许多曲线,因此奥里亚语的数字系统相当复杂。手写体更是由于书写风格的多样性而变得更加复杂。然而,开发一种创新的机器学习模型至关重要,因为奥里亚语的手写文字包含了大量历史文献,这些文献的年代可追溯至1000多年前。一种可靠的自动化方法将有助于将这些历史文献转换为数字形式,从而保护这些珍贵的文化遗产。这将为社会解决一个重大问题。本研究通过实施两种不同的分类器来探索奥里亚语的手写数字识别方法:第一种是卷积神经网络(CNN),第二种是支持向量机(SV
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
基于机器学习算法的汉英机器翻译二元语义模式规则
摘要随着国际化的加剧和跨文化交流的飞速发展,语言间翻译的重要性日益凸显。随着技术的进步,机器翻译已成为一个蓬勃发展的研究领域。然而,由于语言能力的复杂性和对语言规律理解的限制,机器翻译仍面临诸多挑战。本文重点探讨了如何通过机器学习构建和应用二元语义模式规则来提升中英机器翻译的质量。本研究的结果将有助于推动中英机器翻译技术的进一步发展和改进。为了生成高质量的翻译结果,机器翻译领域的研究认识到分析和理解自然语言语义的必要性。为了解决词汇和句法上的歧义问题,人们开发了二元语义模式规则的表示方法来正式描述这些规则。基于此,本文设计并实现了一种基于语料库的二元语义规则提取与优化算法,该算法利用机器学习技
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
自动图表构建以及探索适用于亚洲印地语医学评论情感分析的不同类型的LSTM(长短期记忆网络)
摘要对医疗评论进行情感分析(SA)对于改善医疗效果至关重要。然而,在资源匮乏的语言(如亚洲印地语)中分析情感却面临重大挑战。在这项研究中,我们提出了一种自动图构建方法,用于从亚洲印地语的医疗评论中提取相关特征。我们探索了不同类型的长短期记忆网络(LSTMs),包括传统的LSTMs、双向LSTMs和基于注意力的LSTMs,以对医疗评论的情感进行分类。我们提出的方法采用了基于注意力的LSTM架构和预训练的Word2Vec嵌入,从而实现了高准确率。我们使用多种评估指标(包括准确率、精确度、召回率和F1分数)将我们的方法与现有模型进行了比较。结果表明,我们的方法在准确率方面优于所有现有模型,达到了81
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
基于大数据语料库的日语周边语言现象的发展与教学应用
摘要自从将大数据语料库的概念引入语言分析领域以来,许多学者从不同的语言视角和角度对日本大数据语料库进行了研究,并得出了许多有价值的结论。然而,由于学者们的理论观点和思维方式各不相同,他们对日本大数据语料库的理解也存在很大差异。研讨会教学方法作为一种培养日语边缘语言创新人才的教学模式,具有互动性、民主性、激励性和扩展性等显著特点。该方法已被广泛应用于国内外研究生和本科课程中,并应用于多个学科领域。特别是在日本,每所大学都开设了研讨会课程。由于其很强的实用性,该方法有助于培养学生的自主学习能力、组织协调能力和沟通能力。因此,本研究探讨了这种教学方法是否可以应用于日语边缘语言的教学中。尽管专家们一直
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
DESPP-DETR:一种用于车辆检测的高效密集连接空间池化检测变换器
摘要实时车辆检测是智能交通系统中一项具有挑战性且至关重要的任务。车辆检测模型的关键要求是速度和准确性。然而,现有的实时车辆检测模型往往为了追求其中一项性能而牺牲另一项。这种权衡使得这些模型无法应用于需要同时满足速度和准确性要求的实时场景。此外,遮挡现象(即车辆被其他物体遮挡或部分遮挡)进一步增加了检测难度,影响了系统的准确性。在这项研究中,我们提出了一种名为DESPP-DETR的一阶段实时车辆检测网络。该网络基于二分匹配机制和Transformer编码器-解码器架构,并加入了密集连接块和增强的空间金字塔池化机制。密集连接块增强了特征提取能力,而增强的空间金字塔池化机制则消除了固定尺寸的限制,提
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
基于深度强化学习的分布式接口协调在英语慕课平台中的应用研究
摘要发展信息技术和其他企业管理公司并不等同于技术进步。只有当教育体系得到完善时,我们才能宣称国家已经实现了全面的技术进步并且运行良好。教育体系通过无线技术和在线课程对学生进行指导。在线课程的进步催生了大规模开放在线课程(MOOC)平台。MOOC平台的优势在于它为任何人提供了免费的在线课程,允许他们按照自己的节奏学习。在这个MOOC平台上,运用深度强化学习(DRL)技术可以通过智能机制帮助学生选择课程并进行学习。由于分布式接口协调(DIC)机制的存在,学生与教师之间的互动将显著增加;在这种机制下,资源在无线网络环境中得到分配。此外,注册的学生应该拥有访问这些资源的权限。这种将DIC与DRL结合的
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
基于深度学习的山瞪羚优化器:在低资源语言语料库中进行讽刺性新闻分类
摘要在数字平台上,讽刺性新闻和虚假新闻的传播引发了人们对错误信息传播及其对社会影响的严重担忧。对于阿拉伯语而言,由于语言障碍和标记数据的匮乏,虚假新闻检测(FND)面临特殊挑战。利用深度学习(DL)对阿拉伯语语料库进行虚假新闻检测时,需要运用先进的神经网络(NN)技术和方法来自动识别和分类阿拉伯语文本中的误导性内容。这一过程对于打击错误信息的传播、提高媒体素养以及确保阿拉伯语社区数据来源的可靠性至关重要。循环神经网络(RNN)和卷积神经网络(CNN)因具备学习层次特征和处理文本序列数据的能力而成为虚假新闻检测的常用选择。本研究提出了一种基于深度学习的阿拉伯语语料库虚假新闻分类算法——Mount
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
MSEConv:一种统一的视频帧插值变形框架
摘要在视频帧插值的背景下,复杂运动建模的任务是捕捉视频序列中移动对象在插值帧中的位置,以及如何保持运动的时间一致性。现有的视频帧插值方法通常采用固定大小的运动核或精细的光流来模拟复杂运动。然而,这些方法存在数据冗余和运动表示不准确的局限性。本文提出了一种统一的变形框架,称为多尺度可扩展变形卷积(MSEConv),用于同时进行复杂运动建模和帧插值。在该框架中,提出了一个具有全局注意力机制的深度全卷积神经网络,用于估计具有不同扩展程度的多个小尺度核权重,并为每个像素合成进行自适应权重分配。此外,大多数基于核的插值方法都可以视为所提出的MSEConv的特殊情况,因此MSEConv可以轻松应用于其他基
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
利用词法-句法模式和词嵌入自动构建区间值模糊印地语WordNet
摘要计算词典是任何语言处理系统的核心。它通过向计算机灌输单词及其语义关联,帮助计算机像人类一样理解语言的复杂性。手动构建的著名印地语WordNet(HWN)包含各种经典的语义关系。为了处理不确定性并更语义化地表示HWN,类型1模糊图被应用于HWN中的关系。然而,类型1模糊集(T1FS)并未考虑经典成员关系的确定性。此外,从专家(人类)那里收集数十亿个(共5,55,69,51,753个)成员关系值也是不可行的。本文采用了区间值模糊图的概念,提出了区间值模糊印地语WordNet(IVFHWN)。IVFHWN利用词嵌入和词汇-句法模式自动识别单词之间的区间值模糊关系及其成员度。在词义消歧问题上的实验
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
利用优化后的深度信念网络对社交媒体文本进行意见挖掘
摘要在数字世界中,大多数人将他们的闲暇时间和宝贵时间花费在Facebook、Twitter、Instagram等社交媒体网络上。此外,用户还会在他们的社交平台上发布对产品、服务和政党的看法。这些信息被许多其他用户和品牌所关注。通过这些帖子和推文,可以提取用户的情绪和观点,从而了解他们对产品或服务的看法。为了分析这些帖子的情绪,人们采用了情感分析或意见挖掘技术。由于社交媒体网络上拥有海量的数据,这一领域迅速吸引了许多研究人员进行相关研究。此外,这种方法还可以用于分析文本,以提取被分类为“中等”、“中性”、“低极端”和“高极端”的情感。然而,从社交媒体数据集中提取情感是一项具有挑战性的任务,因为这
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
知识增强型预训练语言模型的综述
摘要预训练的语言模型通过自监督学习在大规模文本语料库上学习了有用的词表示方法,在经过微调后,在自然语言处理(NLP)领域取得了令人满意的性能。然而,这些模型存在鲁棒性较差和缺乏可解释性的问题。我们将引入知识注入的预训练语言模型称为知识增强型预训练语言模型(KEPLMs)。这类模型表现出深度的理解能力和逻辑推理能力,并提升了模型的可解释性。在这篇综述中,我们全面介绍了KEPLMs在NLP中的应用。首先,我们讨论了预训练语言模型和知识表示学习的最新进展;接着,我们从三个不同的角度系统地对现有的KEPLMs进行了分类;最后,我们指出了KEPLMs在未来研究中的一些潜在发展方向。
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
THAR:针对宗教的针对性仇恨言论:一个高质量的印地语-英语混合数据集,采用深度学习模型进行自动检测
摘要在过去的十年中,社交媒体作为一种个人表达各种观点的媒介,已经获得了显著的普及。然而,也有一些人利用社交媒体平台通过评论和帖子传播仇恨,其中一些言论针对特定的个人、社区或宗教。鉴于人们对宗教信仰有着深厚的情感联系,这种形式的仇恨言论可能会造成分裂和伤害,并可能导致心理健康问题以及社会秩序的混乱。因此,需要采用算法方法来自动检测仇恨言论。目前该领域的大多数研究都集中在英语社交媒体内容上,结果是许多资源匮乏的语言缺乏完成这项任务的计算资源。本研究试图通过提供一个专为识别印地语-英语混合语言中针对宗教的仇恨言论而设计的高质量标注数据集来填补这一研究空白。该数据集名为“针对宗教的仇恨言论”(THAR
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
NPEL:网页表格中的神经配对实体链接
摘要本文研究了网页表格中的实体链接(Entity Linking, EL)技术,该技术旨在将表格单元格中的字符串提及与知识库中的相应实体关联起来。以往的研究存在两个主要问题:1) 在提及实体相似性计算中未能充分利用上下文信息;2) 假设同一行或同一列中的所有实体彼此高度相关这一前提并不总是正确的。在本文中,我们提出了一个新的神经并行实体链接框架 NPEL(Neural Paired Entity Linking),以解决上述问题。在 NPEL 中,我们设计了一个包含多种神经网络和注意力机制的深度学习模型,用于处理提及和实体的不同类型上下文信息,从而实现网页表格中的提及实体相似性计算。此外,NP
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
一种用于时间敏感问题回答的、基于上下文增强的自适应图网络
摘要时间敏感型问题回答是指根据给定的长文档来回答仅限于特定时间戳的问题,该文档中包含了大量带有明确或隐含时间戳的时间事件。尽管现有模型在回答时间敏感型问题方面取得了显著进展,但当正确答案与问题中提到的时间戳之间存在较大距离时,它们的性能会大幅下降。在本文中,我们提出了一种基于上下文增强的自适应图网络(CoAG),用于捕捉提取出的与问题相关的事件序列中句子之间的长距离依赖关系。具体而言,我们设计了一个时间感知的事件提取模块,该模块根据问题和文档中的时间戳来获取与问题相关的上下文。由于事件之间的关联可能会混淆具有相邻时间戳的句子,因此我们设计了一种自适应的消息传递机制来捕捉和传递句子之间的差异。此
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
通过一个新的视觉-语言框架,学习更多满语词汇
摘要满语是中国的一种少数民族语言,具有重要的历史和研究价值。越来越多的满语文献被数字化为图像格式,以便更好地保存和研究。最近,许多研究人员致力于在数字化文献中识别满语词汇。在以往的方法中,人们主要依靠视觉线索来识别各种满语词汇。然而,我们发现基于视觉的方法存在一些明显的缺点:一方面,难以区分相似或变形的字母;另一方面,被损坏或污渍遮挡的字母部分也难以识别。为了解决这两个问题,我们提出了一个视觉-语言框架,即满语词汇识别的视觉-语言框架(VLMR),该框架结合了视觉信息和语义信息来准确识别满语词汇。当视觉信息不可用时,语言模型可以自动关联词汇的语义。通过引入自知识蒸馏网络,我们的方法性能得到了进
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
MIMIC:在印地语-英语混合编码的多模态互联网内容中识别厌女情绪
摘要多年来,社交媒体已成为人们表达观点和分享各种想法的最受欢迎的平台之一。社交媒体内容现在包括文本、图片、视频等多种元素。其中一种受欢迎的形式是模因(meme),它们通常结合了文本和图片。需要指出的是,由于社交媒体是一个不受监管的平台,有时也会出现歧视性、冒犯性或仇恨性的内容。这类内容会对用户的在线体验产生负面影响。因此,开发能够自动检测此类内容的计算模型非常重要,以便采取适当的纠正措施。目前已有许多研究致力于自动检测这类内容,主要集中在文本方面。然而,多模态数据(如模因)的融合在开发能够处理此类数据的计算模型时带来了诸多挑战,尤其是在资源匮乏的语言环境中。其中一个主要问题是缺乏适合用于开发低
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
Graph4IUR:利用语义图对不完整话语进行重写
摘要话语重写旨在识别并补充人类对话中省略的信息,从而帮助后续任务更全面地理解对话内容。近年来,利用两个句子之间重叠关系的序列编辑方法被广泛应用于缩小以往线性生成方法所面临的搜索范围。然而,这些方法忽略了对话中语言元素之间的关联,而这种关联反映了人类交流中知识和思想的组织方式。在这种情况下,尽管重写句子中的大部分内容可以在上下文中找到,但我们发现一些表示关系的连接词往往缺失,这导致了以往句子编辑方法出现的“脱离上下文”的问题。为了解决这一问题,本文提出了一种新的基于语义图的不完整话语重写(Graph4IUR)框架,该框架通过语义图来描述语言元素之间的关系,并捕捉那些脱离上下文的词语。具体而言,我
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
利用多种语言特征实现自动提取式文本摘要
摘要自动文本摘要(ATS)利用自然语言处理(NLP)技术对不同类别的信息进行总结。像印地语这样的低资源语言在这些技术的应用上受到限制。本研究提出了一种利用提取式方法自动生成印地语文档摘要的方法。该方法通过运用多种语言特征和机器学习(ML)技术,结合最大似然估计(MLE)与最大熵(ME),从源文档中检索相关句子。我们对输入文档进行了预处理,包括删除印地语中的停用词和词干提取。我们从每份文档中获得了15个语言特征分数,以识别适合摘要生成的短语。我们在BBC新闻文章、CNN新闻、DUC 2004数据集、印地语文本简短摘要语料库、印度语言新闻文本摘要语料库以及维基百科文章上对所提出的文本摘要方法进行了
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
基于构式语法理论和深度学习的中文文本复杂性分析
摘要由于中文的复杂性以及中文与英文之间的差异,中文文本在数字领域的应用存在一定的复杂性。以开放关系提取(ORE)中的中文文本为研究对象,分析了中文文本的复杂性。构建了一个基于构式语法理论和深度学习(DL)的词向量提取系统,以实现中文文本的顺利提取。本文的工作主要包括以下方面:首先,探讨了构式语法的内涵及其在中文文本分析中的作用;其次,从语言分析中词向量的角度出发,实现了一个基于词向量的ORE模型;此外,还提出了一种基于词向量距离的提取方法。测试结果表明,该算法在公共WEB-500和NYT-500数据集上的F1值为67%,优于其他类似的文本提取算法;当召回率超过30%时,该方法的准确率高于几种最
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08
-
基于高维混合属性数据挖掘的在线英语资源整合算法
摘要为了提高资源的可扩展性,并确保在线英语资源的有效共享和利用,本文提出了一种基于高维混合属性数据挖掘的在线英语资源整合算法。首先,构建了一种基于高维混合属性数据挖掘的整合框架。根据该框架,提取了在线英语资源的特征,并结合资源的空间分布特征进行了历史数据挖掘。通过这种方式,建立了特征的空间映射函数,并根据在线英语资源的聚类与融合结构设计了最优聚类中心。在此阶段,对在线英语资源进行聚类与融合处理。根据融合结果,构建了在线英语资源的分布结构模型,并对在线英语资源整合算法进行了优化研究。实验结果表明,所提算法的整合优化效率达到89%,数据包丢失率为0.19%。该算法具有优异的整合性能,能够实现多渠道
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
时间:2025-11-08