Research Paper Notes on Principle Component Analysis

Research Paper Notes on Principle Component Analysis

本文档除了包括推导, 疑惑 外,做 读书重点 的记录 $$$$

文献列表

 * A Tutorial on Principal Component Analysis, arXiv:1404.1100, by Jonathon Shlens
 * Principal component analysis of event-by-event fluctuations, arXiv:1410.7739, by Rajeev Bhalerao, Jean-Yves Ollitrault, Subrata Pal, and Derek Teaney
 * Principal component analysis of the nonlinear coupling of harmonic modes inheavy-ion collisions, arXiv:1711.07773, by Piotr Bozek
 * Principal Component Analysis of collective flow in Relativistic Heavy-Ion Collisions, arXiv:1801.03334, by Ziming Liu, Wenbin Zhao, Huichao Song

A Tutorial on Principal Component Analysis, arXiv:1404.1100, by Jonathon Shlens
本文讨论了所谓PCA方法的物理意义和具体操作.

这里有几个概念,测量值和测量值的方差,测量值所依赖的参数的数目,以及测量的数目和对应的方差和协方差.

实际上,具体操作就是把所谓协方差矩阵对角化.

通过变量重新定义,把每个测量量的平均值选为零,从而构造出协方差矩阵.矩阵的维度就是测量量的数目.协方差矩阵包含了所有测量量的协方差信息.

通过对角化,对测量参数进行适当的线性组合,使得组合后的任何测量量间的协方差都为零.换言之,本征值最大的本证矢量对应最重要的测量量的某种线性组合.其方差最大,对应不同测量本质上的最重要的差异.

并且,对应其他本征值对应的测量量的线性组合,都处于与最重要组合相垂直的方向上.其方差小,对应不同测量结果本质上的呈现的差异相对次要.协方差为零,对应不同测量间的不同线性组合在测量参数空间相互垂直,无依赖关系.

正如文中指出,在实际问题中,这可能并不是正确的,因为测量参数空间中相互垂直的测量量在物理上可能是有依赖关系的.比如粒子在三维空间中沿椭圆的运动,对空间坐标的测量,那么与最大和次大本证值对应的本证矢量相应的测量量其实不是相互独立的.这时这种分析方法失效.在实际中,这可以被体现为次大本征值与最大本征值差距不大.具体可见Fig.6涉及的两个例子.

在相对论重离子碰撞的应用中,"测量量"是每个事件的$$V_n$$,具体计算中涉及的是$$Q_n$$.协方差对不同的事件进行,即单次测量对应在某个事件.特别指出这里的协方差其实具有物理意义,和两粒子关联直接有关.协方差矩阵的维度,即测量参数的数目,对应于对动量(或者快度等)的离散化的数目.

所以PCA相当于通过对不同动量(或者快度等)的粒子关联的适当组合,最大本征值对应两粒子关联的最重要的信息.物理上,我们理解第二大本征值对应的是在上述结果的垂直方向上的偏差,所以 似乎 因此被解释为集体流的涨落.

本文档除了包括推导, 疑惑 外,做 读书重点 的记录 $$$$

Principal component analysis of event-by-event fluctuations, arXiv:1410.7739, by Rajeev Bhalerao, Jean-Yves Ollitrault, Subrata Pal, and Derek Teaney
Eq.(3)

这是通过计算事件平均值得到,因为结果是两粒子分布函数,原则上计算中不涉及到对粒子的平均.具体的,就是对两个同一事件的不同粒子,利用Eq.(1)的展开来求Eq.(2)的事件平均值.

在计算中,我们注意到,对不同事件的系综平均后,两个粒子夹角的函数应该和角度为零的方向无关,即系统分布具有转动对称性.所以我们只需要关心$$(\phi_1-\phi_2)$$的函数.因为这个函数是周期性的,那么我们就总可以做Eq.(3)右边的傅里叶展开.

Eq.(4)

从另一个角度来思考,就是假设两粒子分布函数是已经的,那么利用这个分布函数我们可以求不同事件的系综平均值.比如$$\langle\cos n(\phi_1-\phi_2)\rangle$$算的就是Eq.(3)的$$n$$阶傅里叶展开系数.注意到,因为是在求傅里叶系数,这里的平均不但包括事件平均,还包括粒子平均.

比如,为了计算$$\langle\sin n(\phi_1-\phi_2)\rangle$$以及$$\langle\cos n(\phi_1-\phi_2)\rangle$$,我们可以把Eq.(1)的单粒子分布应用到两个粒子后求系统平均和粒子平均.这样,我们注意到不同阶数的项的乘积对粒子平均后都为零.具体的,因为系统的旋转不变性,我们可以固定第一个粒子的角度,而仅对第二个粒子的角度进行积分,不然发现,因为傅里叶级数的基函数的正交性,只有同阶的项的乘积的积分才不为零,这样就得到Eq.(4).

另外注意如果计算平均值$$\langle\sin n(\phi_1+\phi_2)\rangle$$以及$$\langle\cos n(\phi_1+\phi_2)\rangle$$,那么会得到正比于$$\langle V_n(p_1) V_n(p_2)\rangle$$的贡献,而因为$$V_n$$中含有事件平面,$$V_n=v_n e^{in\Psi_n}$$,比如参见arXiv:1502.02502的Eq.(1)下面的讨论.所以,上述乘积$$\langle V_n(p_1) V_n(p_2)\rangle$$在对系统做平均后等于零.这是因为针对两个不同动量$$p_1,p_2$$但同阶的事件平面即便不完全相同,也很可能存在强关联,所以$$\langle V_n(p_1) V_n^*(p_2)\rangle$$涉及事件平面的差,一般不为零,但是$$\langle V_n(p_1) V_n(p_2)\rangle$$涉及的是事件平面的和的系综平均,由系综的旋转不变性推知为零.

文中指出,因为$$\langle V_n(p_1) \rangle=\langle V_n(p_2)\rangle=0$$,这就对应arXiv:1404.1100一文中定义的协方差矩阵.从而使用PCA方法进行分析.

Eq.(5)

注意到这里是通过任何真实的有限粒子的事件$$Q_n(p)$$来近似之前定义的展开函数$$V_n(p)$$.

这正是类似上面讨论中涉及的平均值的计算,可以类比椭圆流定义的形式$$v_n=\langle \cos(n\varphi)\rangle\to \frac{1}{M}\sum_i \cos(n\varphi_i)$$的复数推广. 注意到上面等式右边最后一步从统计的角度可以视为用某种无偏差的estimator来估计$$v_n$$,从物理的角度就是对积分的离散化. 虽然在此处没有对粒子对的数目进行归一化.这个归一化在后面Eq.(10)给予补偿.

Eq.(6)

事件平均在这里被引入.具体的,Eq.(5)是单个事件的,Eq.(6)是事件平均的.

这里是要算去掉了混合事件贡献的两粒子分布函数的傅里叶系数.所以不要(如文中提及的)把Eq.(5))看做$$V_n$$,而是直接把Eq.(5)代入Eq.(6)右边的第一项,发现这里的由Eq.(5)导致的粒子求和正对应对所有粒子对的平均(未考虑对的数目的归一),而其平均操作对应的是对事件的平均.所以忽略归一因子外,Eq.(6)右边第一项正是$$\langle \exp(in(\phi_1-\phi_2))\rangle$$,换言之,其实部和虚部正是上述$$\langle\cos n(\phi_1-\phi_2)\rangle$$和$$\langle\sin n(\phi_1-\phi_2)\rangle$$.

方程右边的第二项,如书中所言,对应的是当两个粒子动量一致时,按Eq.(6)右边第一项形式会导致的一个粒子和自身的配对,这必须扣除.

方程右边的第三项就是计算两粒子关联中常见的混合事件贡献.注意这里的混合事件没有把事件平面对齐,所以乘积两个因子互相独立,都等于零.但是文中指出,在转动不对称,探测器具有特殊方向的情况下,这一项不为零.

不难注意到,在$$n=0$$时,这个表达式对应的是粒子数涨落.而对于$$n\ge 2$$,在文章后面部分,把最主要的贡献理解为集体流,而其他本征值对应的贡献被理解为对集体流的涨落.

Eq.(7)

这里是PCA方法在相对论重离子碰撞的应用.与标准PCA方法比较,"测量量"是每个事件的$$V_n$$,具体计算中涉及的是$$Q_n$$.协方差对不同的事件进行,即单次测量对应在某个事件.特别指出这里的协方差其实具有物理意义,和两粒子关联直接有关.协方差矩阵的维度,即测量参数的数目,对应于对动量(或者快度等)的离散化的数目.

除此以外,还有两点值得讨论.第一,由于在$$n\ne 0$$时,$$V_n$$的事件平均值为零$$\langle V_n\rangle=0$$,故这时协方差矩阵的本征值就直接和"主分量"的$$V_n$$对应.这就是Eq.(9)基础.而对于$$n=0$$,情况不同,本征值与$$V_0$$无关,前者对应粒子数涨落,后者对应粒子数平均值.这在Eq.(10)的定义中要给予注意其区别.

第二,这个分析方法的现有形式无法得到$$V_n$$的高阶矩,所以 并不能 用于研究集体流的高阶矩.在后续文献arXiv:1711.07773中Piotr试图把这个方法推广到高阶混合关联,但是不难看到,这个推广是很牵强的.真正一般的推广到高阶集体流涨落似乎并不可行.究其本质,这是因为这个方法本身就是以二阶矩,即方差的计算为基础的.

最后,我们指出,主分量的物理意义其实并不是清楚的.这个方法表面上能成功的理由是不同动量位置的集体流的耦合本身就远小于集体流.

Eq.(9)

当已经得到矩阵的主分量分解形式,即Eq.(7-8),以后.我们不难发现.Eq.(9)是满足Eq.(4)和$$V_n$$事件平均为零的性质的.

将Eq.(9)代入Eq.(4)并比较Eq.(7),我们不难发现$$\xi^{(\alpha)}$$的确满足文中给出的性质,即平均值为零,协方差为$$\delta$$函数.再次强调,Eq.(9)中的$$V_n$$对应单个事件的物理量,而Eq.(4)或者Eq.(6)对应事件平均后的协方差,即PCA方法中的测量平均后的协方差矩阵.

Eq.(10)

这里为了与物理上的集体流系数保持一致,需要对本证矢除以$$V_0$$.注意到,在$$n=0$$时矩阵的本征矢并不对应$$V_0$$,而后者是通过Eq.(5)定义的$$Q_0$$来近似的.实际上,它与任何$$n\ne 0$$情况下的矩阵对角化过程无关,这样Eq.(10)的定义才是有意义的.

本文档除了包括推导, 疑惑 外,做 读书重点 的记录 $$$$

Principal component analysis of the nonlinear coupling of harmonic modes inheavy-ion collisions, arXiv:1711.07773, by Piotr Bozek
这里讨论的就是用PCA方法对混合调和系数的计算.

Eq.(19-20)

注意到,文章的阐述比较容易引起误解,表明上,文中进一步把动量分成几个区间,来做区块的计算.而实际上,按Eq.(10-11)以及之后Eq.(19-20)的讨论和数值结果可以看出,这些动量区间都是相同的,矩阵元的不同对应的是混合系数的搭配方法.这里的做法和分开做法有个区别,就是把当把矩阵尽量对角化而找到主要分量时,不同阶以及混合调和系数都采用同样的方式来对角化.不清楚这对应的物理意义.

这里Eq.(19-20)是指,如果不同事件平面的关联不重要,那么最主要的贡献仅来自同阶的两粒子关联.

本文档除了包括推导, 疑惑 外,做 读书重点 的记录 $$$$

Principal Component Analysis of collective flow in Relativistic Heavy-Ion Collisions, arXiv:1801.03334, by Ziming Liu, Wenbin Zhao, Huichao Song
Eq.(5)

这里计算的symmetric cumulant,就是协方差的形式,可以视为把原来的量做平移使得平均值为零.

本文档除了包括推导, 疑惑 外,做 读书重点 的记录 $$$$