基于大语言模型与机器学习的牙科陶瓷性能预测框架研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《International Dental Journal》：Large Language Models and Machine Learning Framework for Predicting Dental Ceramics Performance

【字体：大中小】 时间：2026年01月02日 来源：International Dental Journal 3.7

编辑推荐：

　　本研究针对牙科全瓷修复体临床断裂问题，开发了结合大语言模型（LLM）文献挖掘与机器学习（ML）性能预测的创新框架。通过自动化提取文献中的成分-性能数据构建结构化数据库，并利用Extra Trees等算法建立预测模型（F1=0.928），成功识别ZrO2和SiO2等关键成分的影响规律。该研究为牙科材料的高通量筛选与性能优化提供了智能化解决方案。

在口腔修复领域，牙科全瓷材料因其优异的机械性能和生物相容性成为临床修复的主流选择。然而临床数据显示，修复体断裂仍是导致修复失败的首要原因。传统材料开发依赖“试错法”实验，周期长且成本高昂。虽然机器学习技术在材料性能预测方面展现出潜力，但其可靠性高度依赖于高质量数据库的支撑。而牙科陶瓷领域恰恰缺乏系统化的成分-性能数据库——科学文献中蕴含的海量实验数据因人工提取效率低下而难以被有效利用。

为突破这一瓶颈，重庆医科大学附属口腔医院的研究团队在《International Dental Journal》发表了一项创新性研究，首次将大语言模型技术系统应用于牙科材料文献挖掘领域。研究团队构建了一套融合LLM驱动数据提取与机器学习建模的自动化流程，旨在加速牙科陶瓷材料的发现与优化进程。

研究采用了多项关键技术方法：通过网络机器人从Web of Science和PubMed数据库自动检索获取上万篇相关文献；利用多种开源大语言模型（包括Llama、Qwen和DeepSeek）进行文献分类、文本信息抽取和表格数据提取；采用人机协同标注策略生成高质量训练数据；基于scikit-learn平台开发10种机器学习算法预测陶瓷抗弯强度分类；运用SHAP分析进行模型可解释性研究；并通过穷举搜索策略探索材料成分优化空间。外部验证采用6种未参与训练的陶瓷材料进行三点弯曲实验。

文献分类结果显示，在少量样本学习设置下，DeepSeek模型以F1分数0.89的表现最优，成功从12,866篇文献中筛选出9,477篇相关研究。

文本信息提取任务中，经过微调的LLMs在牙科陶瓷材料实体识别上F1分数均超过0.89，单篇文献处理时间缩短至约1分钟，效率显著优于传统人工提取。

表格信息提取环节通过改进的table-transformer工具从96篇文献中提取219条成分-性能记录，最终构建包含60种商业牙科陶瓷品牌的数据集。

机器学习建模结果表明，Extra Trees模型在预测抗弯强度分类时表现最佳（F1=0.928）。SHAP可解释性分析揭示SiO₂（特征重要性得分0.11）和ZrO₂（0.09）是对抗弯强度影响最大的关键成分，其中ZrO₂含量与强度正相关，而SiO₂则呈现负相关。

虚拟材料设计通过穷举搜索生成480,565种假设成分，t-SNE可视化显示高ZrO₂成分主要被预测为V类高强度材料，而富含SiO₂的成分多属于I类低强度材料。

外部验证实验证实，模型对6种新陶瓷材料的预测F1分数达0.88，展现了良好的泛化能力。

研究讨论部分指出，该框架首次实现了牙科材料领域从文献挖掘到性能预测的全程自动化。相比传统系统评价需67.3周处理195篇文献的效率，LLM驱动流程实现了数量级提升。虽然当前研究在文献质量筛选、数据完整性方面存在局限，但通过少量领域特定数据微调即可适应牙科粘接剂等子领域，证明了框架的强迁移性。

这项研究的创新价值在于建立了可扩展的牙科材料智能化研发范式。通过LLM技术破解了专业领域数据提取的瓶颈，结合机器学习模型不仅实现了性能准确预测，更能逆向指导成分优化设计。随着数据库纳入更多工艺参数和临床相关性能指标，该框架有望进一步缩小实验室预测与临床性能之间的差距，为循证牙科材料设计提供新范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号