基于机器学习的标准紧凑模型分箱参数提取方法学，用于下一代半导体器件的集成电路设计

《Advanced Intelligent Systems》：Machine Learning-Based Standard Compact Model Binning Parameter Extraction Methodology for Integrated Circuit Design of Next-Generation Semiconductor Devices

【字体：大中小】 时间：2025年10月28日 来源：Advanced Intelligent Systems 6.1

编辑推荐：

　　本研究提出了一种基于神经网络的BSIM-CMG模型参数提取方法，结合自适应采样策略生成训练数据，利用Transformer架构提取仅包含可分参数的模型，在3nm GAAFET TCAD数据验证中，I-V和C-V特性预测的平均绝对百分比误差低于5%，显著优于传统方法，同时兼容现有模型库的binning技术，大幅提升参数提取效率和模型库构建的自动化水平。

　　这篇文章介绍了一种基于神经网络的参数提取方法，用于构建适用于环绕栅场效应晶体管（GAAFET）的伯克利短沟道IGFET模型（BSIM-CMG）的紧凑模型库。传统的BSIM参数提取过程往往复杂且低效，需要人工干预和大量时间来覆盖广泛的器件尺寸和温度条件。为了克服这些限制，本文提出了一种新的自适应采样策略，该策略被整合到神经网络参数提取框架中，以高效生成训练数据，从而适应不同尺寸范围的器件。同时，设计了基于Transformer的深度神经网络（DNN），仅输出可分箱的参数，确保与紧凑模型库要求的兼容性。通过使用3纳米节点GAAFET的TCAD数据进行测试，该方法在漏电流和栅电容方面的平均绝对百分比误差均低于5%。最终，这些提取的参数与分箱方程结合，形成了可直接部署在紧凑模型库中的分箱模型，从而显著减少了参数提取时间，并实现了在广泛GAAFET尺寸范围内的自动化。

在半导体器件设计领域，紧凑建模对于集成电路（IC）的设计至关重要，因为IC通常由大量MOSFET组成。为了确保在IC设计过程中模拟的可靠性，描述MOSFET电气特性的紧凑模型必须具备高精度。此外，为了满足数字和模拟电路设计师的不同需求，紧凑模型需要覆盖广泛的结构尺寸，如栅长和宽度。为此，行业标准的紧凑模型采用了一些机制，如分箱技术，以描述不同结构尺寸下的MOSFET电气行为。尽管分箱技术可能牺牲部分基于方程的模型的物理完整性，但它能显著提高模型库的准确性。在这一方法中，分箱参数和分箱方程被引入，使得不同结构尺寸下可以使用不同的参数值。值得注意的是，大多数紧凑模型库使用分箱技术以实现模型的可扩展性和准确性提升。

在行业标准的紧凑模型中，BSIM模型被广泛用于MOSFET建模。BSIM4适用于平面MOSFET，适用于约28纳米工艺节点。在这一节点之后，BSIM-CMG模型被开发出来，以支持先进的三维器件，如鳍场效应晶体管（FinFET）和GAAFET。这些模型被用于低于22纳米和3纳米的工艺节点。随着BSIM模型从BSIM4演变为BSIM-CMG，其计算方法从基于阈值电压的公式转变为基于表面势的公式，从而实现更精确的物理建模。然而，这种物理准确性的提升导致模型参数数量显著增加，这些参数用于描述先进器件的复杂行为。因此，BSIM-CMG模型中分箱参数的大幅增加使得构建包含GAAFET的紧凑模型库变得越来越耗时和劳动密集。

为了解决这些挑战，研究人员尝试使用机器学习技术进行模型参数提取。特别地，研究者关注于提高模型对MOSFET结构变化的适应性。Kao等人提出了一种基于人工神经网络（ANN）的方法，用于提取BSIM-CMG参数，可以覆盖10纳米节点FinFET的栅长和有效氧化层厚度（EOT）的变化。Chen等人分析了隐藏层之间不同激活函数的影响，使用单个神经网络适用于10纳米节点FinFET的栅长变化。随后，他们引入了多阶段架构，并扩展了模型的适用范围，使其适用于1.5纳米节点GAAFET的栅长为389纳米。Lee等人提出了一种多任务学习的神经网络，能够覆盖3纳米节点GAAFET的GAA通道宽度。

然而，这些研究没有考虑在广泛的栅长和GAA宽度范围内使用分箱技术，因为他们的模型输出包含不可分箱的BSIM-CMG参数。不可分箱参数可能会根据结构输入而变化，这与传统的基于分箱的建模方法不兼容。为了整合到广泛采用的紧凑模型库开发流程中，不可分箱参数必须在给定工艺节点下保持不变，无论栅长和GAA宽度如何变化。据我们所知，目前还没有相关研究应用基于神经网络的分箱建模技术来提取行业标准的紧凑模型参数并构建模型库。与之前的研究不同，本文提出的神经网络仅输出可分箱的参数，并支持在广泛的栅长和GAA宽度范围内进行建模。因此，我们提出了一种基于机器学习的模型参数提取方法，以提高基于分箱技术的紧凑模型库开发效率。

开展这种基于神经网络的建模研究需要生成大量的训练数据。然而，由于BSIM-CMG参数的广泛取值范围，对整个空间进行全面提取是非常低效的。为了解决这一限制，本文还提出了一种新的采样策略，即分箱自适应采样。该策略通过指数加权插值方案先分配名义参数值，然后通过该策略生成训练数据。在该策略下，使用基于Transformer的深度神经网络（DNN）进行BSIM-CMG参数提取。与传统的多层感知机（MLP）架构相比，本文提出的模型使用了Transformer编码器，可以更有效地学习输入特征之间的关系，从而在模型参数提取应用中表现更好。

在本文提出的基于Transformer的DNN中，编码器由多头自注意力和前馈层组成，而解码器则被实现为一个全连接（FC）网络，将编码器的潜在向量映射到输出。这是首次将基于Transformer的DNN应用于BSIM-CMG参数提取。模型的输入包括栅长、GAA宽度、温度以及电流-电压（I-V）和电容-电压（C-V）数据。为了考虑温度效应，温度被明确地包含在输入特征中。Transformer编码器可以捕捉结构和热输入之间的依赖关系，而解码器在输出维度固定时特别有效。训练后的神经网络通过TCAD数据验证，展示了其在先进工艺节点中的适用性。通过仅使用可分箱的BSIM-CMG参数作为输出，该模型可以准确预测测试数据的I-V和C-V特性，误差率低于5%。在提取了不同栅长和GAA宽度的BSIM-CMG参数后，这些参数通过分箱方程连接，用于构建紧凑模型库中的分箱模型。虽然本文采用了BSIM-CMG模型，但其他支持分箱方程的行业标准紧凑模型，如宾夕法尼亚州立大学-飞利浦（PSP）模型，也可以在相同框架中使用。

文章的其余部分组织如下。第2节描述了传统分箱建模技术及其基于神经网络的替代方法。第3节涵盖了训练数据的生成和神经网络的训练过程。第4节分析了训练后的神经网络与TCAD测试数据之间的预测误差，并解释了用于连接提取局部模型的分箱过程。最后，第5节总结了文章。

在大多数标准紧凑模型中，包括BSIM，通常采用两种代表性的方法来描述覆盖广泛栅长和宽度的MOSFET电气特性。第一种方法是全局模型参数提取，第二种是分箱模型参数提取。全局模型参数提取涉及在基于设备物理的方程中确定栅长和宽度的函数参数。与分箱方法相比，全局模型提取更简单，更能保留方程模型的物理解释。然而，全局模型提取通常表现出有限的准确性，因为方程模型本身存在固有的限制，可能无法充分捕捉由于工艺变化导致的器件特性。为了解决这一问题，引入了分箱技术。通过添加分箱参数并应用分箱方程，设计空间被划分为多个几何分箱，并为每个分箱分配优化的参数集。BSIM模型通过连接不同栅长和宽度的参数集支持分箱技术，从而实现设计空间内的连续建模。这使得电路设计师可以在电路模拟器中通过指定所需的器件尺寸来模拟几何依赖的器件特性。以下方程是BSIM-CMG模型提供的分箱方程的一个例子，用于连接多个具有不同栅长和GAA宽度的局部模型以构建一个分箱。在特定栅长和GAA宽度下，BSIM-CMG参数值P(L,W)的计算如方程所示。

尽管基于分箱的建模方法相比全局模型提供了更高的准确性，但需要事先准备多个局部模型以供分箱方程使用，这需要大量时间和计算资源。为了解决这个问题，本文提出了一种方法，通过神经网络预测所需的局部模型集。对于需要额外参数进行分箱但对应I-V和C-V数据不可用的点，缺失的局部模型集通过插值校准的角模型参数进行估计。然后，将这些模型集整合到分箱方程中。以下图示了所提出方法的整体工作流程。

如图所示，本文分为两个主要阶段。在第一阶段，首先定义栅长和GAA宽度的设计空间，并在四个角模型维度上进行校准，以获取BSIM-CMG参数值的范围。随后，采用分箱自适应采样技术收集I-V和C-V数据，以适应栅长、GAA宽度和温度的变化。

总体的分箱自适应采样流程总结如下：1）定义器件尺寸范围；2）通过指数加权插值确定名义值；3）使用蒙特卡洛模拟进行参数变化（对边缘电容[CFS]和重叠电容[CGSL]应用对数变换）；4）通过物理建模过滤生成每个名义值集；5）将过滤后的集合并到最终的训练数据集中。

最终的训练数据集用于训练神经网络，其中输入是结构和温度条件以及I-V和C-V数据，输出对应于BSIM-CMG参数值。

在第二阶段，使用训练后的神经网络通过TCAD数据生成测试的局部模型集。对于每个分箱模型，需要四个对应不同栅长和GAA宽度组合的局部模型集。因此，构建多个分箱需要生成额外的局部模型。如果在给定点有I-V和C-V数据，神经网络可以直接预测BSIM-CMG参数。否则，缺失的局部模型集通过插值角模型参数使用分箱方程进行生成。最后，所有局部模型集通过分箱方程整合，构建完整的分箱模型库。

本文提出了一种基于神经网络的训练数据准备和神经网络训练方法。在这一方法中，首先通过指数加权插值确定BSIM-CMG参数的名义值，然后通过蒙特卡洛采样（高斯分布）从这些名义值中引入参数变化。高斯分布用于BSIM-CMG参数变化已在相关研究中实现，展示了其在神经网络训练中的高效性。参数变化范围设置为名义值的30%左右，这是基于我们的经验研究，并且类似的经验方法已被采用在之前的研究中。例如，某些参数的变化范围为2%–12%，而另一些则使用高达50%的变化范围。虽然某些研究允许超过30%的变化，但这样的宽范围往往产生冗余或非物理数据。因此，变化被限制在±30%，发现这一范围足够宽以捕捉现实参数变化，同时确保数据可靠性。然而，一些参数是例外。由于BSIM-CMG是基于表面势的模型，PHIG（功函数）参数对I-V和C-V特性具有巨大影响。因此，PHIG的变化范围较小，遵循之前的相关研究。

图展示了在栅长为50纳米、GAA宽度为30纳米时，漏电流数据分布，比较了使用和不使用分箱自适应采样的结果。不使用分箱自适应采样的数据来自单一名义值集，且变化范围较大，与器件尺寸无关，以覆盖广泛的最小和最大值。这种方法会产生大量异常值和非物理曲线，这会降低训练效率和模型泛化能力。相比之下，使用分箱自适应采样的数据来自目标器件尺寸的名义值集，变化范围较小，从而产生更平衡和有意义的数据分布。值得注意的是，因为为不同器件尺寸定义了多个名义参数集，参数空间的总体覆盖更广，同时避免了过多的异常值。这不仅防止了非物理数据的生成，还通过关注有意义的模式提高了学习稳定性。

对于一些电容参数，如CFS和CGSL，在对数变换后进行变化。这是因为这些参数需要在较大范围内变化，以产生合理的栅电容变化，而使用原始值的百分比变化而不进行对数变换是无效的。

图描述了在栅长为100纳米、GAA宽度为30纳米、温度为-45摄氏度时，Cgg数据的分布。图展示了在未对参数进行对数变换时，30%的变化范围对CFS和CGSL的影响，这与大多数其他参数的变化范围一致。相比之下，图展示了在对CFS和CGSL进行对数变换后，变化范围为5%，从而扩展了Cgg的范围。图展示了在对数变换后，虽然仅5%的变化范围，但Cgg的覆盖范围比图更宽。这可以解释为，在对数尺度下，即使小的变化也会导致原始值范围的显著扩大，而在线性尺度下，30%的变化范围仍然导致围绕名义值的较窄分布。

在方程中，C0是参数的名义值，C是变化后的值，作为变化因子。该方程描述了在对数变换后对电容参数进行采样的方程。例如，对于CFS0=，线性±30%的变化范围会导致Cgg的范围有限，如图所示。相比之下，对数域的变化范围为5%会扩展到Cgg的范围，从而足以覆盖预期的测试栅电容数据。在某些研究中，电容参数CFS和CGSL的变化范围超过一个数量级（CFS：到，CGSL：到）。这种广泛的变化范围很难用简单的线性域采样来充分捕捉。因此，需要采用对数变换来采样，从而自然覆盖多个数量级，确保参数变化的充分表示。

BSIM-CMG参数通过蒙特卡洛模拟使用高斯分布进行采样，通过电路模拟器（如Synopsys的HSPICE、Cadence的SPECTRE等）执行。相比之下，外在输入如栅长、GAA宽度和温度使用拉丁超立方采样（LHS）来确保输入空间的均匀覆盖。虽然SPICE支持LHS采样，但在单个SPICE文件中应用不同的栅长和GAA宽度的名义值并不容易。因此，使用Python脚本在外部实现LHS，通过生成不同的SPICE文件来完成。从插值到采样的整体数据生成策略被称为分箱自适应采样，创建了约300,000个训练数据点，用于训练神经网络模型。

在本文提出的基于Transformer的神经网络中，编码器由多头自注意力和前馈层组成，而解码器则被实现为一个全连接网络，将编码器的潜在向量映射到输出。编码器将输入特征组织成一个令牌序列，并通过输入嵌入层投影到模型维度。然后，通过两个编码层处理令牌序列，每个编码层有两个注意力头（总计四个）。在每个编码层中，多头自注意力机制允许每个令牌关注序列中的所有其他令牌，捕捉输入特征之间的相互依赖关系。注意力输出通过残差连接与原始输入结合，并通过层归一化操作进行归一化。归一化后的输出通过位置感知前馈网络增强表示能力，然后再次进行残差连接和层归一化。编码器输出一个具有32维的上下文令牌表示序列，这对应于模型的潜在维度。选择一个具有代表性的32维潜在向量，并通过全连接解码器产生23个BSIM-CMG参数预测。为了处理I-V和C-V特性之间的固有差异，分别训练了两个神经网络模型。

图展示了本文提出的基于Transformer的神经网络的整体架构，用于I-V和C-V模型。对于I-V模型，输入包括三个外在参数：栅长、GAA宽度和温度，以及在栅极电压为0.05伏和漏极电压为0.7伏时的I-V和log(I)-V数据。对数变换的I-V数据被包括进来，以提高子阈值区域的学习性能，因为该区域的电流值通常较小。对于C-V模型，输入包括三个外在参数、在栅极电压为0.05伏时的C-V数据，以及从I-V模型输出中获得的PHIG值。如前所述，PHIG是影响I-V和C-V特性的关键参数。为了保持模型之间的连贯性，使用I-V模型预测的PHIG值作为C-V模型的输入。与某些研究不同，这些研究从C-V模型中确定PHIG值并用于I-V模型，本文采用相反的方法。这种设计选择基于我们的经验发现，从I-V模型中确定PHIG值对提高I-V拟合准确性有更大的影响，特别是在子阈值区域，而不是从C-V模型中确定。在实践中，提取的PHIG值通常落在一个狭窄的范围内（4.34–4.38电子伏特），这些值直接传输到C-V模型的输入，无需额外的推理时间约束，并且物理合理性由I-V提取过程保证。

在本文提出的基于Transformer的神经网络中，编码器将输入特征组织成一个令牌序列，并通过输入嵌入层投影到模型维度。然后，通过两个编码层处理令牌序列，每个编码层有两个注意力头（总计四个）。在每个编码层中，多头自注意力机制允许每个令牌关注序列中的所有其他令牌，捕捉输入特征之间的相互依赖关系。注意力输出通过残差连接与原始输入结合，并通过层归一化操作进行归一化。归一化后的输出通过位置感知前馈网络增强表示能力，然后再次进行残差连接和层归一化。编码器输出一个具有32维的上下文令牌表示序列，这对应于模型的潜在维度。选择一个具有代表性的32维潜在向量，并通过全连接解码器产生23个BSIM-CMG参数预测。为了处理I-V和C-V特性之间的固有差异，分别训练了两个神经网络模型。

图展示了本文提出的基于Transformer的神经网络的整体架构，用于I-V和C-V模型。对于I-V模型，输入包括三个外在参数：栅长、GAA宽度和温度，以及在栅极电压为0.05伏和漏极电压为0.7伏时的I-V和log(I)-V数据。对数变换的I-V数据被包括进来，以提高子阈值区域的学习性能，因为该区域的电流值通常较小。对于C-V模型，输入包括三个外在参数、在栅极电压为0.05伏时的C-V数据，以及从I-V模型输出中获得的PHIG值。正如在第3.1.3节中讨论的，PHIG是影响I-V和C-V特性的关键参数。为了保持模型之间的连贯性，使用I-V模型预测的PHIG值作为C-V模型的输入。与某些研究不同，这些研究从C-V模型中确定PHIG值并用于I-V模型，本文采用相反的方法。这种设计选择基于我们的经验发现，从I-V模型中确定PHIG值对提高I-V拟合准确性有更大的影响，特别是在子阈值区域，而不是从C-V模型中确定。在实践中，提取的PHIG值通常落在一个狭窄的范围内（4.34–4.38电子伏特），这些值直接传输到C-V模型的输入，无需额外的推理时间约束，并且物理合理性由I-V提取过程保证。

在训练过程中，输入和输出数据都通过MinMaxScaler进行归一化，以确保一致的特征缩放和稳定的模型训练。数据集被划分为训练集和验证集，比例为9:1，并使用Adam优化器和自适应学习率进行高效且稳健的优化。还包含一个丢弃层以防止过拟合，损失函数定义为预测和真实输出参数值之间的均方误差（MSE）。

图展示了I-V和C-V模型的训练和验证损失。由于使用了丢弃正则化，训练过程中的损失略高。相比之下，在丢弃功能被禁用的评估过程中，整个网络容量被利用，通常导致验证损失较低。这种行为在使用丢弃的模型中很常见，表明模型具有良好的泛化能力，而不是过拟合。由于训练和验证数据来源于基于BSIM的SPICE模拟，而最终评估目标是TCAD数据，因此在验证损失达到约0.003时应用早期停止，这相当于约5%的均方根误差。这种策略防止了对BSIM数据的过拟合，并确保了足够的泛化能力，这在评估TCAD数据集时得到了验证。

在确认神经网络的准确性后，采用一系列Python脚本将分箱方程应用于在不同栅长和GAA宽度条件下提取的局部模型的BSIM-CMG参数。通过这一过程，生成了分箱模型，并将其整合，从而高效构建3纳米节点GAAFET的最终紧凑模型库。

图展示了当通过神经网络提取的测试模型位于（栅长，GAA宽度）=（50，45纳米）时的最终分箱模型。可以观察到，从九个局部模型中生成了四个分箱模型。为了评估最终分箱模型的准确性，测试了位于（栅长，GAA宽度）=（40，45纳米）的局部模型，这对应于Bin.3。需要注意的是，分箱模型识别出的值在栅长min≤L<栅长max和GAA宽度min≤W
图展示了Bin.3模型和未分箱模型在（栅长，GAA宽度）=（40，45纳米）时的误差。未分箱模型指的是仅使用角模型生成的模型，不进行维度空间的划分。Bin.3模型的误差为3.68%（I-V）和4.08%（C-V），这比仅使用角模型生成的未分箱模型的误差（（栅长，GAA宽度）=（18，45纳米），（50，23纳米），（50，60纳米），（100，45纳米）显著更低。用于构建Bin.3模型的四个局部模型（（栅长，GAA宽度）=（18，45纳米），（18，60纳米），（50，45纳米）和（50，60纳米））的器件尺寸更接近测试尺寸（（栅长，GAA宽度）=（40，45纳米）），相比未分箱模型使用的角模型。因此，Bin.3模型预计在测试尺寸上提供更高的准确性。这些结果表明，当使用本文提出的分箱技术创建分箱时，I-V和C-V预测的准确性在黑箱尺寸上可以显著提高。

本文提出了一种基于机器学习的BSIM-CMG参数提取方法和与紧凑模型库构建兼容的分箱方法。神经网络输出的BSIM-CMG参数都是可分箱的，这与之前的相关研究形成了显著区别。此外，提出的分箱自适应采样方法被用于设置广泛栅长和GAA宽度范围内的名义BSIM-CMG参数值。虽然本文中将N_gaa固定，但可以扩展当前的双线性插值方法（在栅长和GAA宽度范围内）为三线性形式（在栅长、GAA宽度和N_gaa范围内）。这种扩展将增加采样空间的维度，从而需要大量的数据。训练后的神经网络通过GAAFET TCAD数据进行验证，导致I-V特性的误差约为4.7%，C-V特性的误差约为4.8%。在提取了所需局部模型后，使用BSIM-CMG提供的分箱方程计算分箱参数，并生成分箱模型。分箱模型在黑箱尺寸上进行了测试，显示出约4%的误差，显著高于不使用分箱的模型。这些分箱模型及其分箱参数适用于传统的紧凑模型库构建过程，因为不可分箱参数在栅长和GAA宽度变化时保持不变。总体而言，本文展示了将神经网络提取的局部模型与传统分箱方法整合的可行性，提供了一种实际的方法，显著提高先进半导体器件紧凑模型库的准确性和可扩展性。

热点排行