单细胞数据挖掘进阶分析之亚群细分
单细胞数据挖掘进阶分析之亚群细分 by 生信补给站
单细胞亚群注释可以说是单细胞分析中最难的一个部分,本帖深入讨论上皮细胞、基质细胞、淋巴细胞和髓系细胞的亚群细分和注释,希望能够帮助大家了解单细胞亚群细分思路和命名策略!
一. 单细胞亚群细分之思路总结
首先,总结一下单细胞亚群细分的步骤框架:
具体来说,我们可以使用subset函数对首次分群的单细胞seurat数据提取目标亚群,用作后续的亚群细分,提取的框架主要是围绕这五个部分,上皮细胞,成纤维细胞、内皮细胞、淋巴细胞和髓系细胞。然后按照首次分群的代码,除了质控以外,重新运行一次,然后进行降维聚类和注释,这样就完成一个部分的亚群细分了。例如,这里我把首次分群里的髓系细胞包括DCs,pDCs和Mono/Mac利用subset函数提取出来,然后进行三步(包括标准化,特征选择和归一化分析),然后使用harmony或者其他整合算法进行整合去批次,在这个基础上进行降维聚类和注释,使用注释好的亚群进行例如细胞比例计算、富集分析等各种个性化分析。同样的,对上皮、成纤维、内皮和淋巴细胞依次操作一遍,一篇单细胞的文章框架就出来了。
二. 关于单细胞亚群注释及命名策略
当然,我认为单细胞亚群细分最难的部分就是注释环节,因为单细胞亚群的注释和命名非常复杂,需要具备本领域的专业知识(特别针对上皮/神经组织部分)和丰富的免疫知识体系(特别是淋巴细胞和髓系细胞)。在这里我也想向各位分享一些我自己的心得体会,但是由于涉及大量的生物学背景,因此很可能会挂一漏万,如果出现任何的错误,还请各位批评指正。
我认为亚群注释的核心原则应该是先大类和后小类,例如前列腺癌上皮细胞,后续的亚群细分可以围绕Basal、Luminal,Neuroendocrine cells这几种大家都认可的上皮细胞类型进行注释。基质细胞可以围绕CAFs、Myofibroblast、Pericyte和Endothelia进行后续的亚群注释。而淋巴/NK细胞可以围绕B、CD4T、CD8T、NKT、NK进行亚群注释。髓细胞细胞可以围绕Monocytes、Macrophage、Dendritic cell、Neutrophil和Mast cells这几个大类进行亚群注释。
具体的亚群注释命名风格:
数字命名法,例如C1,C2,C3,总体比较少见,但可多见于肿瘤细胞亚群细分; 第二种风格是按功能/特征分群:例如CD8T navie, CD8T memory,CD8T central memory, CD8T effect memory, CD8T exhausted等; 第三种风格是按Top基因(多为转录因子/功能性基因)分群:例如CD8T_LEF1,CD8T_GRP183,CD8T_GZMK,CD8T_LAG3等; 最后一种风格是把功能/特征和Top基因混合命名法,这种命名形式目前越来越流行,特别适合免疫细胞部分的注释。
接下来,我总结了每一块内容,同时结合几篇比较经典的文献,对单细胞亚群注释做一些讨论(个人心得)。
三. 单细胞亚群细分之上皮细胞篇
上皮细胞因组织区域不同,采用的注释策略不同:
第一种策略是对上皮细胞进行亚群细分:参考常规的亚群细分思路(标准化、特征选择、归一化、去批次和降维聚类分群注释); 第二种策略是不对上皮细胞进行细分,而是使用scNMF等无监督聚类工具识别重要的基因功能模块; 第三种分析策略是混合型,即将亚群细分+ scNMF无监督聚类组合起来。
例如这篇宫颈癌文章在上皮细胞注释部分采用的数字命名法:
例如这里的Epi1到Epi8,在此基础上进行基因和功能表征。由于肿瘤上皮细胞存在较大的异质性,因此这个数字命名法针对上皮细胞使用的频率还是比较高的。例如下面这篇CCR的卵巢癌文章仍采用这种分析策略:
另外,功能/特征命名法在上皮细胞部分也比较常见,例如这篇前列腺癌文章,将上皮细胞分为BE,basal细胞,ETG+和ERG-肿瘤细胞,还有非恶性LE就是Luminal细胞:
此外,2022年的EMM文章采用功能/特征和Top基因混合命名法,对肺上皮细胞进行注释命名,也非常值的学习:
除了细分注释以外,使用scNMF识别重要的基因模块,这种分析策略在肿瘤上皮细胞部分也非常常见。例如这篇2022年的NG文章基于恶性上皮细胞,识别到十余种基因功能模块,包括细胞周期,压力,干扰素,缺氧,氧化硫酸化和EMT等:
这篇最新的Nature文章对1000对例肿瘤上皮细胞样本进行无监督聚类,识别到十余种功能模块。
另外一种分析风格就是结合上皮细胞命名注释和scNMF,这样的分析对于上皮细胞部分来说也是非常扎实:
四. 单细胞亚群细分之基质细胞篇
介绍完上皮细胞部分,我们再来聊一聊基质细胞的注释。相对上皮细胞来说,基质细胞还是存在很多跨组织的通用型的细胞类型和标志物,随后我一一做介绍。内皮和成纤维一般可分开分析进行亚群细分,当然也有少数文章合在一起继续细分,同时大多数文章按照功能进行分群注释。
内皮细胞常见的亚群有
淋巴内皮细胞,LEC,经典的标志物有PROX1, PDPN, ALCAM; 静脉内皮细胞,VEC,经典的标志物有ACKR1, SELP, NR2F2; 动脉内皮细胞,AECs,特征的标志物有GJA4, GJA5, EFNB2; 尖端细胞,TipECs,特征标志物有CXCL12, CXCR4, ACKR3; 毛细血管内皮细胞,CapECs,特征标志物有CA4, CD36; 富含干扰素诱导基因的 内皮细胞,ISG+ECs,特征标志物有ISG20, IFIT1, IFIT3; 最后是增殖相关的内皮细胞,特征标志物有MKI67, TOP2A。
肿瘤相关成纤维细胞常见的亚群主要有
Myofibroblast,简写为myCAFs,高表达ACTA2, COL1A2, PDGFRB; 细胞外基质细胞成纤维细胞,可命名为mCAFs,其特征是高表达胶原相关标志物,包括COL5A1, COL5A2, COL6A3,以及POSTN,FN1等; 炎性相关CAFs,iCAFs,其特点是高表达炎性和补体相关标记物,包括FBLN1, IGFI, CXCL1, C3, C7; 抗原呈递相关CAFs,apCAFs,高表达抗原呈递相关标志物,包括CD74,HLA-DRA,HLA-DRB1; 脂质相关CAFs,LipCAFs,高表达脂质相关标志物,例如APOA2, CFD和APOD等; 周细胞,部分文章也描述为vCAFs,高表达GJA4和RGS5等周细胞标志物; 增殖相关CAFs,dCAFs,高表达MKI67和TOP2A等增殖标志物。
另外关于基质部分,我也推荐大家多阅读几篇综述,去理解内皮细胞和成纤维细胞的功能特点,例如我介绍过一篇肿瘤成纤维相关的综述文章【化敌为友:靶向肿瘤相关成纤维细胞】。
接下来,我介绍几篇大家平时做注释或者分析可以参考的范文。这是一篇发表于2020年的Cancer Cell文章,做的是肺癌,文章对内皮细胞亚群的剖析非常细致,除了一些通用性的内皮细胞亚群,还识别了很多肺组织特异性的内皮细胞亚群。这里的分析思路也和我开头总结的一致:
第二篇文章是一篇泛癌文章,发表于2020年的Cell research,文章识别了八种广泛存在的内皮细胞,这里主要是用Top基因结合内皮细胞功能和特征进行命名的:
同样还是这篇Cell research泛癌文章,作者识别了十余种广泛存在的成纤维细胞亚群,主要是用Top基因结合成纤维细胞的功能和特征进行命名的。这篇文章在分群注释之后的分析也非常值得参考和借鉴:
这篇肝内胆管癌的成纤维细胞部分的剖析也是非常经典的一篇范文,作者识别到6个成纤维细胞亚群,然后用差异分析和GO富集分析表征每一个亚群的基因和通路特征。这篇文章的注释和分析思路,被后续很多高分文章模仿和沿用:
这里再补充2篇最近发表的顶刊内皮细胞图谱文章:
Pan-cancer integrative analyses dissect the remodeling of endothelial cells in human cancers
Tumour vasculature at single-cell resolution
五. 单细胞亚群细分之淋巴细胞篇
介绍完基质部分之后,我们再聊一聊免疫细胞。可以说淋巴细胞和髓系细胞的亚群注释是难点中的难点,要求分析者有比较深厚的生物学功底。首先是淋巴细胞部分。大多数文章会把T细胞和NK细胞合并进行亚群细分,B细胞单独拿出来细分。当然也有一些文章把T,NK和B细胞合在一起进行亚群。淋巴细胞的注释策略比较多,大多数是使用TOP基因命名法或者功能特征命名法。不过目前越来越多的文章采取了混合命名法。
T细胞常见的大类有CD4T, CD8T,T Cycling和NKT细胞几类,再进一步分类,可以分为
T naïve,高表达naïve相关的标志物,包括LEF1,CCR7和TCF7等; T memory,记忆T细胞,高表达IL7R,CD69和GRP183等; Effect/Cytotoxic (Tem/Teffe),效应或者毒性T细胞,高表达GZMK,IFNG,GNLY等毒性相关的标志物; Exhausted (Tex),耗竭T细胞,高表达耗竭相关的标志物,包括LAG3,PDCD1和CTLA4等; HSP+ (Tstr),HSP+T细胞,高表达stress相关的标志物,包括HSP+相关标志物,DNAJB1等; Tissue-resident (Trm),组织驻留T细胞高表达一些驻留相关的标志物,包括XCL1, XCL2和ITGAE等; Treg,属于CD4T细胞,高表达FOXP3和耗竭相关标志物; Th1/Tfh也属于CD4T细胞,高表达CXCL13, IL6ST, ICOS等; Th17属于CD4T细胞,高表达一些炎性相关的标志物,包括IL17A, IL23R和RORC; Proliferating (T cycling),高表达增殖相关的标志物,包括MKI67和TOP2A。
NK细胞一般可以分为CD56bright NK细胞和CD56dim NK,B细胞可以进一步分为Naïve,memory,浆细胞和浆母细胞等,相应的标志物也贴在这里:
NK细胞:
CD56bright NK: KLRC1, CD44, COTL1, XCL1, XCL2, TBX21, EOMES;
CD56dim NK: GZMB, FGFBP2, PRF1, FCGR3A, TBX21;
B细胞:
Naïve: IGHD,IL4R,FCER2,TCL1A;
Memory: CD27,IGHG1,AIM2, TNFRSF13B;
Plasma: PRDM1, MZB1;
Plasmablasts: XBP1,SDC1 (high XBP1 and low SDC1);
Short-lived plasma cells: high SDC1l;
Long-lived plasma cells: high SDC1, STAT3, IKZF3.
然后我们看几篇范文。第一篇是泛癌T细胞顶刊之作,来自张泽民老师团队,发表于2021年的science,这篇文章对T细胞进行了非常细致的亚群细分,分析的手段和思路也非常漂亮,非常推荐大家去仔细阅读和学习:
第二篇NK泛癌文章也是来自张泽民老师团队,发表于2023年的cell,做的也是非常仔细和漂亮,值得学习:
关于B细胞的亚群细分和分析,大家可以参考这篇2022年的Science文章,这篇文章的通讯也是领域内的大佬:
当然,最近也有两篇关于B细胞泛癌图谱的顶刊文章,第一篇是Science,第二篇是Cell,通讯作者大家都非常熟悉了:
A blueprint for tumor-infiltrating B cells across human cancers Pan-cancer single-cell dissection reveals phenotypically distinct B cell subtypes
六. 单细胞亚群细分之髓系细胞篇
最后,我介绍一下髓细胞的亚群细分。这是髓细胞的亚群细分框:
髓系细胞主要包括Monocytes、Macrophage、Dendritic cells、Neutrophil和Mast cells,大多数文章按照功能或TOP基因进行分群注释,常见的功能/特征亚群有:CD14+ Mono,CD16+ Mono,巨噬细胞一般没有比较统一的分类标准,可以按照Top基因进行分群,例如Macro_INHBA,Macro_SPP1,Macro_NLRP3,Macro_ LYVE1,Macro_ C1QC。需要强调的是,传统的M1和M2分类一般在单细胞层面无法区别。树突状细胞可以用这几种通用性的标志物分为4类,pDC,cCD1,cCD2和cCD3。对Mast cell和中性粒细胞目前进行亚群细分的文章比较少。最后,髓系里也有一群增殖细胞。
Mono CD14+: CD14,S100A9,S100A8; Mono CD16+: FCGR3A,LST1,LILRB2; Macro: 一般没有比较统一的分类标准,可以按照Top基因进行分群,例如Macro_INHBA,Macro_SPP1,Macro_NLRP3,Macro_ LYVE1,Macro_ C1QC。需要强调的是,传统的M1和M2分类一般在单细胞层面无法区别; pDC: LILRA4,GZMB,IL3RA; cDC1: CLEC9A,FLT3,IDO1; cDC2: CD1C,FCER1A, HLA-DQA1; cDC3: LAMP3,CCR7,FSCN1; Mast: KIT,TPSAB1,CPA3; Neutrophil: CSF3R,S100A9,FCGR3B,ALPL,CXCR1; Proliferating/Cycling: MKI67, STMN1, TOP2A.
然后我介绍2篇髓系细分的参考范文,2篇都来自张泽民老师团队。第一篇是发表于2021年的Cell髓系泛癌文章:
第二篇文章做的是结直肠癌,这篇文章不仅包括髓系细胞,也包括其他免疫细胞,主要采用Top基因命名法,发表于2022年的Cancer cell。非常适合大家作为范文学习单细胞的行为思路:
更多的内容在【这是一套诚意满满的单细胞分析及应用教程!】
◆ ◆ ◆ ◆ ◆
精心整理(含图PLUS版)|R语言生信分析,可视化(R统计,ggplot2绘图,生信图形可视化汇总)
RNAseq纯生信挖掘思路分享?不,主要是送你代码!(建议收藏)
原文链接