如何白嫖数据库进行基因组数据挖掘
如何白嫖数据库进行基因组数据挖掘 by 生信菜鸟团
Title | Assessing the contribution of rare protein-coding germline variants to prostate cancer risk and severity in 37,184 cases |
---|---|
Online | https://www.nature.com/articles/s41467-025-56944-1 |
今天分享的这一篇文献,是公共数据挖掘类的文章。研究团队通过整合多个人群队列的WES或者WGS数据,如 UKB 、MCPS、100kGP 等来开展分析的。这些数据涵盖了不同种族和地域的人群,为研究提供了丰富的遗传多样性。这种方法不用花精力收集样本,不用花经费去测序,非常值得推广。
研究背景
前列腺癌是全球男性中第二常见的癌症,2022年估计有超过150万新发病例和39.7万死亡病例。尽管大多数局部前列腺癌患者可以被治愈或长期生存,但转移性前列腺癌的5年生存率仅为30%,且许多患者伴有治疗相关的并发症。前列腺癌的发病机制涉及遗传因素、体细胞突变和环境因素的复杂相互作用,其中遗传因素在前列腺癌风险中占有重要地位。
研究方法
患者和样本:该研究包括了五个队列的WES或WGS数据,共 19,926 例前列腺癌患者和187,705 名男性对照,另外还有一个队列的基因芯片数据,患癌人群根据现有临床数据将病例分为非侵袭性前列腺癌和侵袭性前列腺癌。
测序和数据分析:数据来自于多个队列,不同队列的测序策略有所不同:如WES数据读长有 75bp和150bp,分析流程是采用了Illumina DRAGEN Bio-IT Platform Germline Pipeline v3.0.7 ,100000 Genome Project 则采用 WGS 测序,使用 Isaac Genome Alignment 软件进行比对,并使用 Platypus call 变异。
基因水平分析:参考其他文献的方法,通过病例-对照分析,构建11个基因水平分析模型,这些模型根据一系列预测效应和群体频率阈值过滤了变异,测试了罕见有害变异在基因水平上与前列腺癌风险的关联。
单变异水平分析:通过外显子组关联研究(ExWAS),在三种遗传模型下,用 Fisher 的检验测试了变异与前列腺癌风险及其严重程度的关联:显性(XX + XY 与 YY)、等位基因(X 与 Y)和隐性(XX 与 XY + YY),其中 X 是替代等位基因,Y 是参考等位基因。
研究结果
基因水平关联测试:在病例对照分析中测试了与患前列腺癌总体风险相关的基因,发现 SAMHD1、BRCA2、ATM、CHEK2 、DMD 、TET2 基因中的罕见有害变异与前列腺癌风险显著相关。
侵袭性前列腺癌 (agg.PCa) 和非侵袭性前列腺癌 (non-agg.PCa)分析:研究者将病例分为侵袭性前列腺癌 (agg.PCa) 和非侵袭性前列腺癌 (non-agg.PCa),对WES数据进行分析,以识别与疾病严重程度相关的基因。发现 BRCA2 和 ATM 基因与侵袭性疾病显著相关。
单变异水平关联测试(ExWAS):通过 ExWAS 分析,首先发现了92 个与患前列腺癌风险相关的变异,其中 16 个在非芬兰欧洲人中是罕见的,这16个中又有 7 个是基因座的致病变异。这 7个致病变异都是非同义突变:CHEK2 中的移码变异,HOXB13、ANO7、SPDL1、AR 和 TERT 中的错义变异,以及 BIK 中的inframe deletion。
结论
本研究通过大规模的基因组数据分析,揭示了罕见蛋白编码生殖细胞变异在前列腺癌风险和严重程度中的重要作用。这些发现不仅加深了对前列腺癌遗传机制的理解,还为临床风险预测和治疗策略提供了新的潜在标志物和靶点。未来的研究需要进一步验证这些发现,并探索这些遗传变异在前列腺癌预防和治疗中的应用。
原文链接