1. 量子力学基础
Lutz 教授的专著开篇没用多少篇幅便引入了能带的概念,这对笔者而言是第一个难点。因此,笔者希望从初高中化学学到的对原子的认识开始,结合检索到的信息,配合量子力学的知识一步步的解释能带。这里,我们用粒子 (Particle) 来统称微观世界的物质。
§1.1. 三个假设
- 能量量子化 (Energy Quantization)
- 波粒二象性 (Wave–Particle Duality)
- 不确定原理 (Uncertainty Principle)
关于第一个假设,微观世界的能量是不连续的,并且以能量包的形式进行转换。能量包的最小单位叫做光子 (Photon),能量包只能是光子的整数倍。光子作为粒子的一种,可以用方程(1-1)表示:
其中
注:一般使用
在第一条假设的基础上(光是一种粒子),De Broglie 认为粒子以波 (Wave) 的形式存在,即第二个假设。他假设粒子有相应的波长 (Wave Length),见方程(1-2):
其中
关于第三个假设,这个原理给出了微观世界中粒子的位置和动量的关系。位置越精确,则动量的误差越大,反之亦然。所以我们无法确定粒子的位置。这个假设直接决定了我们在量子力学中处理粒子的一个一般策略,即:既然无法确定粒子的准确坐标,就将其替换为确定某个坐标位置可能出现的概率。
§1.2. 波函数和薛定谔方程
有了这三个假设,我们就可以描述粒子的运动了,但是让我们先从宏观世界的经典力学开始分析。
众所周知,机械能由势能和动能组成,在一维坐标系
其中
到目前都还OK?那再复习一下线性代数。线性代数主要就是在讲各种向量和矩阵的运算,其中一个重要的概念叫特征值
(Eigen
Value)。怎么理解特征值呢?借用知乎高赞回答,其实矩阵运算的本质就是把一个向量旋转并且按系数伸缩。而特征值就是说,当矩阵作用在它们上面时,只伸缩向量而不让其旋转的值。我们的世界是三维的,所以描述空间的物体我们要用到三个坐标系的值,即一个
铺垫完毕,下面开始高能。
经典力学中,能量又被称为哈密顿量(还记得现代控制理论中的哈密顿方程吗?)哈密顿量
这里势能的物理意义是说,粒子被束缚在晶体之内,且边界条件为晶体的长/宽/高。所以势能的算符还是它自己。而动量的算符表示为:
这个方程的推导有点复杂,是把波函数转化为三角函数,再用欧拉公式和方程(2-1)和(2-2)得来,具体推导不再赘述。把(1-7)代入(1-6)得到:
现在矩阵有了,还缺特征值。当然了,由于粒子是运动的,我们需要一个本征态或者本征方程,通过这个方程就可以解特征值。而这个本征方程就是波函数
现在,我们就完成了从经典力学到量子力学的过渡。而方程(1-9)就是定态的薛定谔方程。再仔细观察一下这个方程,我们发现它是一个算子和一个本征方程(特征值)的组合。实际上,在薛定谔提出方程(1-9)后并不能赋予它真实的物理意义。后来马克斯波恩某天突发奇想,认为波函数的模平方代表了概率密度函数,薛定谔方程至此才有了物理意义,即测量一个处在波函数状态的粒子的能量。至此,我们可以归纳出两个重要结论:
- 经典力学中的信息以概率的形式被包含在波函数中
- 薛定谔方程相当于量子态的牛顿第二定律,它描述了粒子的运动状态。
如果我们让方程(1-9)中的势能为 0,解出对应的波函数,得到:
其中
其中
方程(1-11)表征了能量和波数的关系,这就是
2. 固体物理学基础
§2.1. 核外电子分布
关于单个原子 (Atom) ,我们知道:
- 原子由原子核 (Electron Core) 和核外电子 (Electron) 构成
- 其中原子核为正,电子为负,原子整体显电中性
- 根据薛定谔方程和波函数理论,核外电子围绕原子核在各自(不确定)的轨道 (Orbit) 中以波的形式存在
- 核外电子是分层 (Shell) 排布的。假设层数为
,则该层可以容纳的最大电子数为 - 最外层的电子受到原子核的吸引最少,因此也最不稳定
- IV 族元素的最外层核外电子数为 4,III 族为 3,V 族为 5
核外电子的分布遵循:
- 每一层可以细分为多个轨道,比如 s 轨道、p 轨道、d 轨道等等,每个轨道还可以细分为多个小轨道(严格意义上讲应该是电子云,并非一条确定的轨迹,这里为了方便理解使用轨道一词),详见电子排序图
- 一个小轨道最多只能排布两个电子
- 电子的分布和能量有关,距离原子核越远,其能量越大
还是以硅为例子,它每层的核外电子分别是 2,8,4。即第一层有一个能级 s , s 能级有一个小轨道,可以装 2 个电子。第二层有两个轨道 s 和 p ,s 能级有一个小轨道,装 2 个电子, p 能级有三个小轨道,装 6 个电子,一共 8 个电子。第三层也是两个轨道 s 和 p,只不过这时的 p 轨道只需要装满三个小轨道中的前两个即可。
§2.2. 电子跃迁和原子能级
先做个总结:
- 电子是粒子的一种,它的运动符合波函数
- 在原子中,核外电子的分布是按照能量的不同来划分的
我们把每一个轨道对应的能量称为能级 (Energy Level)。各个轨道之间的电子可以互相移动,被称为电子跃迁 (Electronic Transitions) 。跃迁的方式有三种:
- 电子吸收一个光子的能量,从低能级跃迁到高能级,被称为吸收 (Absorption)
- 电子自发的释放一个光子的能量,从高能级跃迁到低能级,被称为自发发射 (Spontaneous Emission)
- 电子在外部光子的参与下,释放一个光子的能量,从高能级跃迁到低能级,被称为受激发射 (Stimulated Emission)
读者可以把电子的跃迁想象成爬楼梯。楼层对应电子的层数。每一层楼有多少台阶就对应了电子轨道的个数。爬台阶消耗的能量就对应电子的能级。不仅如此,能级还具有“分立”的特点。还是以爬楼梯为例,人可以一次爬一个台阶,也可爬两个、三个台阶。但是不能爬1.5个台阶或者2.3个台阶。即,电子只能从一个轨道跃迁到另一个轨道,不能存在于两个轨道之间。 这里需要注意,只有光子的能量等于两个轨道的能级差,电子才会吸收光子。同理,电子在释放光子时,这个光子对应的能量也是两个轨道的能级差。如果光子的能量不等于能级差,则光子不会被电子吸收。图 2-1 描述了三种跃迁方式。
图 2-1:电子的三种跃迁方式,其中
§2.3. 晶体结构
如果无数个原子整齐的排列在一起,每个原子核对最外层电子都有吸引力。因此,原子之间会形成共价键 (Covalent Bond),彼此形成稳定的晶体结构 (Crystal Structure)。以硅元素 (Si) 为例,其原子序数为 14,各层电子数由内到外分别为 2,8,4。在晶体中,各个硅原子之间通过共价键共用 4 个价电子 (Valence Electron) ,从而达到 8 电子的稳定状态。
关于晶体结构,我们需要知道:
- 晶体分为单晶体 (mono-crystalline) 、多晶体 (polycrystalline) 和无定形 (non-crystalline).
- 对于功率半导体器件,我们只讨论单晶体结构,因为:
- 单晶体具有均匀的空间电荷区
- 能带中具有足够多的能级(见下节)
- 只有具备以上两点,半导体器件才能在反向时拥有高截止电压 (Blocking Voltage) 和低漏电流 (leakage current)
- 晶体结构内部原子的排列方式称为晶格
(Lattice)。不同元素的晶体拥有不同的原子排列方式,举三个例子:
- 硅为钻石结构 (Diamond Lattice)
- 碳化硅 (SiC) 为 4H 六角形 (4H-Hexangonal)
- 氮化镓 (GaN) 为 2H 六角形 (2H-Hexangonal)
- 温度的变化会导致晶格振动,我们引入声子 (Phonon) 来描述晶格的振动
- 从能量的角度看,电子被晶格束缚,我们用势阱 (Potential Well) 模型来描述。换言之,晶体中的电子都会受到晶格的势能作用
关于声子有必要做进一步解释。我们知道声音是由于振动产生的。从量子力学的角度看,这种振动可以类比简谐运动,也看作一种波函数。那么我们需要知道:
- 声子就是表征晶格振动的最小能量单位。
- 声子和光子并不是一回事。光子是真实存在的一种粒子,而声子只在一定的晶格间距内才有意义,并非真实存在,只能被称为“准粒子”。
§2.4. 能带理论
当我们在讨论能级时,都是在单个原子的层面进行讨论的。那么在晶体层面,就要引入能带 (Energy Band) 的概念了。
我们引入泡利不相容定理 (Pauli Exclusion Principle) 来解释能带的形成。关于定理的内容不做过多介绍,这个定理的结果是,相同的原子排列在一起时,它们的轨道会出现细微的不同,即一个原子的某一能级会比另一个原子的同一能级略高或略低。而在晶体中,同一轨道下,有无数个能级密集有序地排列,因此我们假设各个能带之间没有间隔。这样在能量轴上就形成了一条连续的带 (见图 2-2 ) ,被称为能带。
图 2-2:能级和能带关系的示意图
在介绍能带结构之前,先解释两个重要的概念:导带 (Conduction
Band) 和价带 (Valence
Band)。还是以硅为例,我们已经知道它有三个层,分别对应五个轨道
(1s, 2s, 2p, 3s, 3p)。充满了核外电子的轨道,被称为满带 (Filled Band)
。而满带中能量最高的那一条则被称为价带,用符号
图 2-3:能带模型示意图(未掺杂的)
当然,读者可能注意到,在图 2-3 中还有一个物理量
§2.5. 导体、半导体和绝缘体
有了能带模型,我们就可以根据带隙的大小来区分导体、半导体和绝缘体了:
- 导体的导带和价带是重叠的,这就导致价电子不需要能量跃迁就可以自由运动,所以金属的导电性强
- 绝缘体的带隙太大,以至于电子无法获得足够的能量进行跃迁,所以绝缘体的导电性弱
- 半导体 (Semiconductor) 的带隙大小刚刚好,我们可以让它的导电性时而表现为绝缘体,时而表现为导体。
§2.6. 直接和间接带隙
直接和间接带隙的区别如图 2-4 所示。
图 2-4:直接和间接带隙
从图中可以看出,当价带的波数
§2.7. 载流子
铺垫了这么多,终于到解答第一个问题的时候了:载流子是什么?
所谓载流子,就是指可以自由移动的带电荷的粒子。现在我们假设,晶格受热振动到达一定温度时,某一个共价键断裂了。由于只有价电子参与共价键的形成,位于价带的一个电子就可以在晶格上任意运动。把这个运动过程套在能带模型上,我们说价带的电子被激发 (excited) 到了导带上。
位于导带的电子不受任何束缚,被称为自由电子。只要外界施加电场,电子就会在导带上任意运动。需要注意的是,位于价带的电子并不是真正意义上的载流子,因为它们仍然被共价键束缚着,施加电场并不能让价带的电子运动。要知道,只有脱离共价键束缚的电子才能在宏观上形成电流,才具有载流子的特点。
由于半导体是电中性的,电子从价带被激发到导带后,原来价带的位置会出现一个带正电的电荷,被称为空穴 (Hole)。这时,其他位置的电子可以补上这个“洞”,继续形成稳定的共价键。那么在其他位置又会出现空穴。所以,我们也可以把空穴看作是运动的。从数学的角度上来说,引入空穴的概念能方便我们在价带中描述电子。打个比方,假设一个空间内可以装一百个球,其中有两个白球和九十八个红球。我们可以先数白球,然后用一百减去白球的数量就得到红球的数量。这样远比一个个数红球的数量来的方便。同理,在价带内,数空穴的个数远比在一堆电子中数自由电子方便。
综上可以得出结论:
- 空穴是电子运动的结果(反过来说也行)
- 载流子由自由电子和空穴组成。
§2.8. 有效质量
由于载流子在晶体中总是会受到晶格各种奇奇怪怪的影响,我们很难分析载流子受到的内力。于是为了简化计算,我们引入有效质量 (Effective Mass) ,并且把载流子强行看作是不受势能影响的。换言之,它是质量和内力共同作用的结果。这样一来,我们只需要考虑载流子受到的外力(即电场),其结果是让载流子产生动能,这可以直接用经典力学中的牛顿第二定律表示:
其中
有效质量的这种近似分析可以用于以下两种粒子:
- 位于导带底部的电子
- 位于价带顶部的空穴
§2.9. 状态密度函数
根据泡利不相容原理,一个电子只能占据一个量子态。所以我们可以说,量子态的数量表征了载流子的数量。既然能带是由无数个能级整齐排列形成的。那么每一条能带在空间上都占据一定的体积,这个体积内还包含着能量。自然,我们需要一个函数来表征单位体积和单位能量中量子态的数量,这就是状态密度 (Densities of States) 函数。关于状态密度函数的推导只说一下思路:
- 利用无限深势阱模型对载流子进行建模,得到状态密度函数
- 假设载流子的能量和动量之间是抛物线关系,根据 k 空间能带图求出能量
和 的关系,得到 - 用有效质量代替理想粒子质量得到有效状态密度 (Effective Densities of States)
导带中的有效电子状态密度为:
价带中的有效空穴状态密度为:
3. 统计力学基础
§3.1. 费米分布
统计力学是从微观的角度考虑热平衡的相关问题。还记得不确定原理吗?统计力学告诉我们,对于晶体,电子被占据的概率和温度以及能量有关,可以用费米分布(Fermi Distribution) 来表示:
其中
关于方程(3-1)我们需要知道:
- 对这个方程进行边界分析,分别取
指数部分的分子和分母为 0 ,即得出:- 绝对零度时,电子被占据的概率为 1
- 不管温度如何变化,当能量处于费米能级时,电子被占据的概率为 1/2
和 为对称关系,可以分别表征电子和空穴的费米分布
由于
怎么理解这个方程呢?再用楼房来举个例子。电子就相当于住在房间里的人。我们通常习惯先从底层开始住人,一层一层往上排。在冬天(绝对零度)天气太冷,大家都窝在房间里不出去,那么每个房间住人(电子被占据)的概率就是 1 。最上面住人的那一层被称为费米能级。在费米能级之上,没有人住,所以房间住人的概率为 0 。再高一些的温度时,人们就想活动活动,于是就有概率去别的房间住。但是,在底层,所有房间都住满了人,他们想去空房间就要爬很高的楼层,“搬家”比较费事,所以他们去别的房间住的概率就比较小。楼层越高,人们“搬家”越轻松,住空房间的概率就越高。但是不管天气如何变化,只要不是绝对零度,住费米这一层的人都有一半的概率去住更高的楼层。
§3.2. 费米能级
其实仔细观察图 2-3 会发现,费米能级处于能隙的位置,这显然违背了能级是“分立”的前提。其实费米能级并不是真正存在的能级,只是一个统计学上的值。那么我们为什么要引入这个分布呢?这是为了回答第二个问题:载流子在哪?做铺垫。