基因集富集分析

2024-02-13

    基因集富集分析 :

该算法的基本原理是检测预先定义的代表特定生物功能的基因集合(比如收录在基因本体(Gene Ontology, GO)中的各类GO基因集)是否显著倾向于出现在一个有序排列的基因关联列表的顶端或底端。在全基因组关联研究(GWAS)分析中,这个有序的基因关联列表是通过对所有SNPs注释的基因按照统计显著性的强弱排序获得。

基因集富集分析(GSEA)算法的核心在于用Kolmogorov-Smirnov统计量(也称富集分值,enrichment score,ES)来描述基因集中的基因在整个有序基因列表中的分布状况,同时采用置换检验的方法模拟富集分值的理论分布,由此得出对基因集进行统计检验的P值。目前,基于基因集富集分析算法的分析工具包括GSEA-SNP、i-GSEA4GWAS等。在基因集富集分析之前,全基因组关联研究往往只关注最显著的几个单核苷酸多态性位点或基因,而忽略了与表型相关的基因之间的相互作用。将基因集富集分析应用到全基因组关联研究之后,不仅能够提高统计分析效力,而且有助于研究者们更好地理解与表型相关的基因通路和具体的生物机制。

基因集富集分析在主要的心理疾患研究中都有应用。比如:在精神分裂症全基因组关联研究的应用中,研究者们成功地找到了钙离子信号通路、神经发育相关通路等。而在双相情感障碍全基因组关联研究的应用中,研究者们发现了卵母细胞减数分裂、泛素介导的蛋白水解相关通路等可能参与了该疾病的发生。