利用基于流水线集成平均法的机器翻译技术,提高多语言患者获取医疗信息的便利性
《ACM Transactions on Asian and Low-Resource Language Information Processing》:Improving Access to Medical Information for Multilingual Patients using Pipelined Ensemble Average based Machine Translation
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
本研究提出动态分配解码参数的机器翻译方法,结合回归模型优化修剪参数,并采用集成模型(Extra Trees、LightGBM、XGBoost、Random Forest)减少过拟合。通过构建综合医学数据集,显著提升印地语到英语翻译的BLEU分数,促进医疗文献跨语言共享与协作。
摘要
机器翻译在提高多语言患者获取医疗信息和医疗服务方面展现出了巨大潜力。本研究旨在提升机器翻译在医疗领域的准确性,特别是从印地语到英语的翻译。研究提出了一种新方法,该方法利用回归模型动态分配解码参数,从而克服了传统解码器中固定参数所带来的局限性。为了解决数据量有限的问题,研究人员构建了一个全面的数据集,使回归模型能够预测出最优的剪枝参数。本研究的主要创新点在于引入了一种用于优化剪枝参数的回归方法,这在机器翻译领域属于一种新颖的尝试。所提出的方法优于现有的方法,显著提升了翻译准确性。评估翻译质量的标准指标包括BLEU分数等。通过集成学习(Ensemble)技术和流水线(Pipeline)方法,系统性能得到了进一步提升。这些改进主要归功于多种模型(Extra Trees、LightGBM、XGBoost和Random Forest)的协同作用:这些模型采用了多种技术来减少过拟合、提高预测精度,并通过纠正预测错误来提升翻译质量。该研究有助于促进医学文献的翻译与共享,推动跨语言的合作与知识交流。实验结果表明,回归方法在优化机器翻译剪枝参数方面具有显著效果,从而显著提升了医疗领域的翻译准确性。所提出的模型取得了令人满意的结果,为改进机器翻译系统奠定了基础,并促进了医学领域的合作与知识共享。源代码可访问:https://huggingface.co/debajyoty/statistical-regression-Based-MT/tree/main/Statistical-Regression-SMT。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号