随着大数据、物联网以及5G系统应用的日益广泛,数据传输的速度和容量需求急剧增加,硅基电子集成芯片的尺度和计算效率逐渐趋近物理极限。而光子集成芯片以光子为信息载体,具有体积小、速度快、集成度高的优势,在光通讯、量子计算、量子信息处理等领域得到了快速发展。
我们可以把光子比作火车,把光子器件比作火车轨道和火车站,光子在光子芯片中传输、处理,就像是火车在铁轨上行走,并在火车站里实现人员的交换(信号的处理)。
波导是光子芯片器件中最基础的单元之一,其主要功能是引导光沿着特定路径传输。光子器件中的波导类似于我们常见的光纤,可以对光实现有效束缚。除此之外,利用波导还可以制备多种常见的光功能器件。比如,图1a所示的是一种定向耦合器(Directional Coupler,DC),通常是由两根波导构成的光子器件,当光在其中一根波导传输时,在某些特定的情况下,光并非完全局域在波导内,有一部分会贴在波导外表面(电磁波的倏逝场效应),如果另一根波导和这根波导靠的很近,那么这些光就可以进入另一根波导(也就是耦合效应)。通常,光信号在两根波导之间的传输具有明确的方向性,因此这种结构被称作定向耦合器。通过对第二根波导光信号进行分析、处理等,实现特定的功能。图1b红色虚线区域所示的光子器件叫做马赫曾德尔干涉仪(Mach-Zehnder Interferometer, MZI),也是由两根波导组成,只不过这两个波导里的光都是从同一端输入的,不同的是,在这种结构中,通过对下面的波导进行一定的调制(通常是加电),利用电光效应(改变折射率)可以改变传输光的相位,让上下两束光产生相位差,进而产生干涉来调节输出端口光信号的强度,广泛用于相位调制、光强度调制和光偏振调制等领域。
图1:比较常见的几种光子器件 a定向耦合器[1];b马赫曾德尔干涉仪[2]
超表面(metasurface)则是另一类波导器件,其由排列在二维平面的纳米结构单元组成,每一个结构单元像一个个微型“光学天线”一样,能够在纳米尺度上精确调节光的相位、振幅和偏振状态。通过对这些结构的巧妙设计,科学家们可以让光按照预设的方式折射、反射、聚焦,甚至改变颜色、亮度或者传播方向,就像给光装上了“指挥棒”。比如,2011 年美国科学家Capasso团队所提出了一种V 形天线结构的超表面(图2a),可以实现电磁波传输异常的偏折(图2b,蓝色线段表示正常反射和折射路径,红色线段表示异常反射和折射路径)。
图2:基于V形天线结构的超表面结构[3]
在这些光子器件中,结构的几何参数和外部调控参数,例如波导宽度、耦合区域长度、波导间间距、外加电信号强度等都会产生不同的功能。在设计此类光子器件时,需要根据实现的功能,找出特定的参数。因此,光子器件结构设计显得尤为重要。
像波导这样的单个器件设计起来相对容易一些,通过调控某几个参数,比如波导的几何尺寸、材料类型等,往往就可以实现想要的功能。不过当这些光子器件集成在光芯片中时,比如超表面结构就包含了多个基本器件单元,不同基本单元之间的相对角度、距离、尺寸等都会影响它们之间的耦合、相互作用,进一步加剧了设计难度。
为了减少加工成本,不得不借助计算机技术在加工器件之前进行模拟仿真,可以减少实验成本,也有利于设计出功能较为复杂的结构。例如,常用的数值模拟方法有时域有限差分法(Finite-Difference Time-Domain,FDTD)、有限元法(Finite Element Method,FEM)等。
尽管这类数值模拟的方法在光子器件设计中获得了广泛的应用,但仍存在一定的局限性。以FDTD为例,在模拟时先把要将模拟的区域划分出极小的网格,同时将光的传播过程划分成无数个极短的瞬间。然后按照光的传播规律(麦克斯韦方程),逐个计算每个网格在不同时刻的光场,最终将这些结果拼在一起,就可以得到光在器件里传输时的完整过程了。受限于FDTD数值方法的固有特性,在模拟光学器件时,单次计算区域的网格要小于波长。这种超高分辨率的要求使得传统方法在模拟大尺寸光子器件时就显得力不从心了。
此外,在设计实现某种特定功能的光子器件时,设计者通常只能对某些特定的参数进行调整,例如耦合区域长度,波导宽度等。但实际影响器件性能的因素有很多,这种采用特定结构参数调整的方法大大限制了设计的自由度。对于较为复杂的器件,往往要通过尝试大量不同参数组合以寻找最优解,计算成本和时间也随参数的数量指数级增加,有时需要数天甚至数周才能完成一个满足使用要求的光子器件。比如,想要模拟波导几何尺寸对光传输的影响,就要考虑波导的宽度、高度、长度三个参量,如果每个参量的变化是从11 μm-20 μm,参量改变步长是1 μm,每个维度的可能性就是10种,三个维度就是1000种,相当于计算机要计算1000次才可以模拟完成。因此,上述方法一般可以设计的光子器件尺寸往往只能在百微米量级。
总之,传统方法不仅会消耗大量的计算资源,也会在集成度上存在限制。
近年来,人工智能(Artificial Intelligence,AI)技术的迅速发展为科学研究提供了新的契机。2024年诺贝尔物理学奖、化学奖均颁发给AI领域的科学家。机器学习,尤其是深度学习,已被广泛应用在微结构的高效率设计和结构优化等方面,大大缩短了微结构的设计时间,同时也为大面积结构的设计提供了新的技术手段。
那么,AI是如何做到的呢?
首先,AI通过收集大量的特定光学结构的数据以及对应的光学性能,利用这些数据对深度学习模型进行训练。这就好比我们先让模型学习一本“字典”(称为正向模型网络),将结构参数和光学性能对应起来。训练完成后,模型就会就会变成一个经验丰富的设计专家。然后,给模型输入特定的功能要求,模型会在字典中查找类似的结构。当然这种结构还不能满足要求,还需要通过对初始设计进行不断优化(称为逆向设计模型网络)。
为了实现正向模型网络对“结构→性能”精准映射和逆向设计模型网络从“功能→结构”反推优化,科学家提出很多优化方法。这些方法中,梯度下降算法因为简单、高效,是目前应用最广泛的一种。
这种方案就像我们在山顶寻找通往山谷的最短路径。当你站在山顶上时,这时还不知道最佳的路径,只有一个粗略的方向。如果是你,你会怎么做呢?
下山时,你需要通过当前的坡度来决定下坡的方向。通常的方案是,你沿着坡度下降的方向不断前进,每次都朝着最陡的方向走,才会快速接近山谷(图3)。
图3:下山寻找最短路径示意图[4]
看到这里,大家可以想一下,沿着梯度最大的方向行走,就一定会达到山谷吗?
实际上,如果走着走着遇到了一个小洼地,无论往哪个方向再迈一步,都是梯度增加的方向,模型以为这就是山谷了,而事实并非如此。
这种遇到“假山谷”的情况就使得AI陷入“局部最小值”,而无法达到“全局最小值”。为了避免这一问题,可以通过调节步伐大小、引入随机扰动等方法,尽快让AI跳出小洼地,找到“全局最小值”, 从而到达山谷。
在设计光子器件时,一般是根据已有的知识或经验设计一些可能的器件结构。此时,我们并不清楚哪些结构参数是最优的,光传输效率还比较低、损耗还比较大。当前结构的性能(如传输效率、光损耗、集成度等)相对于各个设计参数(如波导宽度、材料折射率等)的变化率为“梯度”,相当于下山时的“坡度”。AI通过计算不同参数对最终性能的影响,得出“梯度”。比如,从A点出发,通过寻找附近最大的“梯度”,并沿着这一方向就可以走到B点,从而降低目标函数(如损失函数)的值(图4)。这就像你在山中根据坡度来判断下一步的方向。重复这个步骤,逐步调整模型参数,使目标函数达到最小值,最终就能到达最低点C点。这个过程帮助AI知道应该如何调整设计参数,使得光子器件的性能逐步提升。
图4:梯度下降算法示意图[4]
同样,在AI设计光子器件时,学习率决定了每次调整设计参数的步伐。如果学习率太大,模型可能会因为调整过度而陷入不好的设计;如果学习率太小,模型则会慢慢收敛,效率低下或者陷入“局部最小值”。
总之,AI在一个庞大的设计空间中不断进行优化。经过不断的调整、优化,最终找到了最佳的参数。这时,AI就像是你成功地从山顶下到了山谷的最低点,找到了最合适的光子器件结构,使得光子器件的性能达到了最优。利用这种方法就可以根据我们的需求快速地设计相应的结构,大大缩短了设计时间并提高了设计的准确性,甚至可以设计出很多人类都无法想象的结构。
我们以超表面结构为例解释AI是如何设计光子结构的。图5展示的是一种尺度小于波长、具有高品质因子的共振超表面结构[5]。类似于图2的超表面结构,这种超表面结构也是由许多基本单元结构(图5蓝色结构)排列成的二维平面结构。每个基本单元由两个相同的硅纳米棒组成。高品质因子意味着光可以在这些结构中被强烈地“困住”而不向外辐射,使得光子可以停留更长的时间,大大增强光与材料之间的相互作用效率。利用这种结构的共振特性,可以用于光学传感、非线性等领域。由于结构的参数微小变化会剧烈的影响共振光谱的特性,因此要想实现预定的功能,传统的设计方法通过连续调节结构参数来模拟对应的性能。不过,这种方法往往只能同时优化一两个参数,并且参数优化的范围和精度有限。而实际上对性能的调控需要同时对材料的属性、几何特性等多个变量进行同时优化,因此传统的方法对于共振光谱的线宽、宽度等调控能力有限,并且非常耗时。
nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />
图5:一种硅纳米棒超表面结构示意图[5]
为了提高了结构设计的效率,科学家们首先利用人工神经网络模型(神经网络是人工智能的核心技术模型,概念源自于人类大脑的神经元网络)将一个正向模型网络(Pretrained forward model network)和一个逆向设计模型网络(Inverse-design model network)串联起来(图6)。然后使用开源神经网络库对正向模型网络进行训练,学习超表面结构参数(图6中右半部分的y1,y2……)与透射光谱(图6中右半部分的x1,x2……)的映射关系(“字典”)。其次,逆向设计模型网络的输出(图6中左半部分的y1,y2……)接入已训练好的正向模型网络,通过学习这本“字典”,就可以知道如何根据目标光学响应(图6中右半部分的x1,x2……)找到合适的超表面结构参数。也就是利用这本“字典”来辅助逆向设计模型网络完成从光学响应到结构参数的预测。最后,逆向设计模型网络根据光学目标预测结构参数,并通过比较正向网络的输出与目标响应的误差来更新自身参数使输入结果与预测结果的差异达到最小(即梯度下降算法),从而预测出符合条件的超表面结构参数,实现高效、准确的超表面设计。
图6:由一个逆向设计模型网络和一个预训练的正向模型网络连接而成的TN模型架构[5],其中,X表示输入和输出,即透射光谱数据,而Y表示中间层的输出,对应的是结构参数。
通过输入超表面结构的透射光谱参数:工作波段λ=1500 nm,线宽(共振峰的半高宽)△λ=5 nm,形状因子(用于描述光谱的不对称性)q=0.5(对应的光谱如图7黑色虚线所示),最终,在固定基本单元周期D=900 nm,纳米棒厚度150 nm的情况下,神经网络模型设计的纳米棒长宽度w=316 nm,长度L=580 nm,每个基本单元中两个纳米棒的间距2x0=378 nm,该结构对应的透射光谱如图7红色实线所示。可以看出,模型预测结构的光谱和输入光谱(目标结果)非常接近。
图7:输入透射光谱(黑色虚线)和神经网络模型预测结构的透射光谱(红色实线)比较[5]
如果利用传统的数值模拟方法,需要专业的计算机,并且至少花费秒量级的时间。基于这种方法,利用普通的计算机(Intel(R) Core(TM) i7-4770 CPU @ 3.40 GHz, RAM: 16.0 GB)在0.05s的时间就完成了光学超表面结构设计,设计效率得到了显著提升。
人工智能除了科研辅助研究人员用于光子结构设计,研究人员发现利用光子芯片还可以用于实现神经网络的光子结构。相较于传统的电子芯片,光子神经网络在计算速度与功耗上具有明显优势。比如,2022年Firooz等人实现了一个利用片上光子深度神经网络来实现对手写字母识别的系统(图8)。研究团队将手写字母图像每个像素点的光强信息通过光栅耦合器输入到系统中。通过对输入信号进行加权处理(Optical attenuator部分,光学衰减器),然后光进入光电探测器(PD部分)完成加法运算,接着由微环谐振器(Optical modulator部分)实现非线性变换(复杂特征提取),最终将光信号传递到下一层神经网络(Neuron optical output)。
nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />
图8:利用光子芯片识别手写字母[6]
这些成果展示了人工智能在光子器件中的巨大应用潜力,为开发新一代高效、功能丰富的光子器件打下了基础。我们相信,随着人工智能技术的迅速发展,微纳光子器件设计与应用领域将迎来一场巨大的技术变革。在不久的将来,现在所用的电子设备也许都会变成光子的世界。
我们可以大胆畅想一下,未来世界会是什么样的呢?
或许那时,凭借光子在高速信息传输和处理方面的优势,光量子计算机会像今天的智能手机一样走进千家万户。
参考文献
[1] WANG Q, HE Y, WANG H, et al. On-chip mode division (de)multiplexer for multi-band operation [J]. Opt. Express, 2022, 30(13): 22779-22787.
[2] DONG B, AGGARWAL S, ZHOU W, et al. Higher-dimensional processing using a photonic tensor core with continuous-time data [J]. Nat. Photon., 2023, 17(12): 1080-1088.
[3] YU N, GENEVET P, KATS M A, et al. Light Propagation with Phase Discontinuities: Generalized Laws of Reflection and Refraction [J]. Science, 2011, 334(6054): 333-337.
[4] 王东,马少平. 图解人工智能 [M]. 北京: 清华大学出版社, 2023.
[5] XU L, RAHMANI M, MA Y, et al. Enhanced light–matter interactions in dielectric nanostructures via machine-learning approach [J]. Advanced Photonics, 2020, 2(02): 026003.
[6] ASHTIANI F, GEERS A J, AFLATOUNI F. An on-chip photonic deep neural network for image classification [J]. Nature, 2022, 606(7914): 501-506.
来源:中国光学
编辑:未
转载内容仅代表作者观点
不代表中科院物理所立场
如需转载请联系原公众号