融合大语言模型与多源知识的文本轨迹提取方法T2TrajLLM及其在人类移动性研究中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月10日 来源：International Journal of Applied Earth Observation and Geoinformation 7.6

编辑推荐：

　　针对传统轨迹提取方法依赖规则框架、缺乏语义理解的问题，研究人员提出T2TrajLLM框架，通过融合轻量级轨迹模型、文本-轨迹转换模型和标注样本，实现8%的准确率提升，为旅游优化、疫情管理等提供结构化轨迹数据支持。

论文解读
在数字化时代，人类移动轨迹数据成为理解社会行为的重要窗口。GPS等被动记录方式虽能捕捉精细移动路径，却丢失了旅行目的、情感体验等关键语义信息；而旅行博客、传记文本等主动记录虽富含上下文，但非结构化特性使其难以被机器解析。传统基于规则的轨迹提取方法（如TO-Bert、EE-mT5）面临三大瓶颈：无法处理非线性叙事结构、缺乏时空因果推理能力、难以适应多变的语言风格。这导致旅游偏好建模失真、流行病传播链误判等问题，亟需一种能兼顾语义理解与结构输出的智能提取方案。

中国科学院地理科学与资源研究所的研究团队在《International Journal of Applied Earth Observation and Geoinformation》发表研究，提出T2TrajLLM框架。该研究创新性地将大语言模型（LLM）与领域知识融合，通过轻量级轨迹模型规范输出结构，设计文本-轨迹转换模型实现多步推理，并利用少量标注样本学习自适应约束规则。关键技术包括：1）基于Transformer架构的LLM（GLM4/GPT-4/Qwen2）多语言理解；2）采样-归纳提示方法动态生成推理路径；3）JSON格式的轻量化轨迹本体建模。研究选取北京旅行博客（Ctrip）、名人传记（Wikipedia）和流行病学调查（BDBC）三组异构数据集验证性能。

研究结果
方法有效性验证
在6,244篇北京旅行博客测试中，T2TrajLLM的轨迹点提取F1-score达0.825，较基线NS-GLM4提升12.3%，编辑相似度（Edit Similarity）提高至0.858。通过PrefixSpan算法挖掘的频繁路径（如"故宫-天坛-南锣鼓巷"）与旅行社推荐路线高度吻合，证实数据可靠性。

消融实验
移除"步骤"模块（对应转换模型）导致F1-score下降6.2%，而删除"反思"模块（对应约束规则）使Kendall's Tau系数降低6.4%，证明多步推理引导比结果约束更关键。

跨领域迁移性
在英文传记数据中，GPT-4凭借长文本处理优势取得0.763的F1-score，而中文疫情记录因半结构化特性使各模型差异不显著（GLM4 F1-score=0.745±0.012）。

案例研究
语义分析显示：故宫70%访客为家庭且集中于上午，什刹海62%夜间访客为情侣，这种时空-人群耦合模式为精准营销提供依据。

结论与意义
T2TrajLLM通过知识引导的提示工程，解决了LLM在轨迹提取中的领域适应难题。其核心贡献在于：1）建立轻量化轨迹本体与JSON表达范式，平衡语义深度与计算效率；2）提出Φ-Ψ-Ω三级转换模型，将复杂叙事解构为地理实体映射、主体关联和时序重组；3）验证了采样-归纳提示对多步推理的增强作用。实际应用中，该框架既能支持旅游热力实时监测（10秒/条处理速度），也能回溯历史人物迁移模式，在智慧城市、公共卫生等领域具有广阔前景。未来研究可探索小规模开源模型（如Qwen2-72B）的优化路径，以应对数据隐私敏感场景。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号