基于Transformer的源代码分类方法在异构设备映射中的创新应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：A transformer-based approach for source code classification for heterogeneous device mapping

【字体：大中小】 时间：2025年11月02日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　本文针对异构架构中代码分配优化难题，研究了基于Transformer的大语言模型在源代码执行目标分类中的应用。研究人员通过微调DistilBERT、CodeBERT等六种模型，发现通用LLMs在OpenCL内核分类任务中准确率最高达92.8%，较传统CNN方法提升5%。该研究为编译器优化提供了新范式，证明预训练目标设计比领域专业化对性能影响更大。

在当今计算系统日益异构化的时代，中央处理器（CPU）、图形处理器（GPU）等多样化硬件单元的集成虽然能显著加速特定计算任务，但也给传统编译器启发式方法带来了巨大挑战。这些传统方法往往难以有效跨平台映射操作，无法充分发挥异构架构的潜力。更棘手的是，要在这些异构设备上实现最优性能，需要穷举设备特定的配置参数——这个过程既耗时又复杂，通常需要先进技术来驾驭海量可能性。

正是为了解决这一核心难题，来自意大利博洛尼亚大学的研究团队在《Engineering Applications of Artificial Intelligence》上发表了创新性研究，他们系统评估了大语言模型在异构设备映射中源代码执行目标分类的应用。该研究打破了传统思维，首次将Transformer架构直接应用于高级OpenCL源代码分析，为编译器优化开辟了新途径。

研究团队采用了一套严谨的方法论框架，主要包括以下几个关键技术环节：首先利用DevMap数据集，该数据集包含从7个基准测试套件收集的256个独特OpenCL内核，标注了基于运行时分析的优化执行设备（CPU或GPU）；然后精选了六种Transformer模型进行对比，包括通用模型DistilBERT和代码专用模型CodeBERT、CodeBERTa等；在预处理环节，基于最新研究发现，Transformer模型在文本分类任务中对预处理不敏感，因此保持了源代码的原始形态以提升系统效率；采用5折交叉验证策略，使用二进制交叉熵损失函数，在Tesla K80 GPU上进行模型微调。

4. 结果

4.1. Tokenizer分析

通过定性和定量分析发现，代码专用tokenizer能更精细地处理OpenCL语法结构。CodeBERTa产生的token序列平均长度比编译器长15.4%-31.2%，这种更细粒度的分词策略虽然增加了计算开销，但显著提升了模型对代码语义的理解能力。特别值得注意的是，专门针对代码训练的tokenizer能更好地处理编程语言特有的结构，如保留空格敏感性（对Python等语言至关重要）。

4.2. 代码片段分析

注意力权重分析显示，模型能有效识别CUDA特定关键字（如__global__、threadIdx等）作为GPU执行的关键特征。例如，对于包含明显并行计算模式的代码，CodeBERTa能正确分类为GPU优化目标，且对这些关键字的注意力权重达到平均权重的3倍以上。然而，对于涉及复杂数据依赖或动态内存分配的代码，模型表现有所下降，这表明Transformer模型在识别显式并行线索方面表现出色，但对更复杂的代码模式处理仍需改进。

4.3. 误差分析

深入分析揭示了模型在不同场景下的性能差异。DistilBERT对训练集中未出现的源代码泛化能力有限（准确率64.9%），而CodeBERTa对此类样本达到95.5%的准确率。对于执行设备明确固定的样本（始终最优于CPU或GPU），DistilBERT准确率高达97.3%，但在受元数据影响的最优设备选择任务中降至79.2%。运行时分析显示，误分类样本的平均执行减速为1.33-2.02倍，表明模型更容易在两种设备性能相近的代码上出现误判。

4.4. 少样本提示与先进GPTs对比

针对LLaMA 3 70B等最新大模型的测试显示，在少样本提示设置下，这些模型虽表现良好但未能超越专门微调的模型，进一步证实了领域特定微调对本任务的重要性。

研究结论明确指出，微调后的Transformer模型在异构设备映射任务中实现了最先进的性能，准确率最高达92.8%，较之前的CNN方法（DeepLLVM）提升达5%。这一突破性发现挑战了传统认知——代码专用预训练并非总是优于通用模型，tokenizer设计和预训练目标对性能的影响往往超过领域专业化本身。

更为重要的是，该研究证实Transformer模型在提升精度的同时，能将训练时间减少60%，这为在实际编译器工具链中部署AI驱动优化提供了可行性。研究者提出了两种具体应用场景：在LLVM编译器基础设施中嵌入微调模型，自动识别适合异构加速的代码段；或像已有研究那样，用于自动配置CUDA内核参数以最大化性能。

这项研究不仅为异构计算领域的代码优化提供了新工具，更从根本上重新定义了编程语言处理的研究范式，为未来智能编译系统的发展奠定了坚实基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号