【原】这近100种单细胞亚群的2348个标记基因好用吗

  我喜欢肉眼看自己收集整理好的基因列表去人工给标准降维聚类分群后的单细胞亚群生物学名字,比如前面我们系统性梳理了各种器官的上皮细胞的细分亚群,以及其对应的标记基因列表:

  乳腺上皮细胞单细胞亚群肝上皮细胞单细胞亚群肺上皮细胞单细胞亚群结直肠上皮细胞单细胞亚群胃上皮细胞单细胞亚群肾上皮细胞单细胞亚群这样的单细胞转录组数据分析的标准降维聚类分群,并且进行生物学注释后的结果。可以参考前面的例子:人人都能学会的单细胞聚类分群注释 ,我们演示了第一层次的分群。如果你对单细胞数据分析还没有基础认知,可以看基础10讲:

  01. 上游分析流程02.课题多少个样品,测序数据量如何03. 过滤不合格细胞和基因(数据质控很重要)04. 过滤线粒体核糖体基因05. 去除细胞效应和基因效应06.单细胞转录组数据的降维聚类分群07.单细胞转录组数据处理之细胞亚群注释08.把拿到的亚群进行更细致的分群09.单细胞转录组数据处理之细胞亚群比例比较但是这样的人工给标准降维聚类分群后的单细胞亚群生物学名字非常依赖于自己收集整理好的基因列表,我们给大家的标准代码里面 是有很多基因列表,详见:小鼠的5个样品的10x技术单细胞转录组上游定量(文末赠送全套代码)

  不过我整理的基因列表仅仅是符合我的生物学背景,而且偏向于肿瘤学研究领域。最近看到了2023年6月的文章:《scQCEA: a framework for annotation and quality control report of single-cell RNA-sequencing data》里面提到了作者整理好的这近100种单细胞亚群的2348个标记基因。包括了:95 pre-defined reference gene sets, and 2348 marker genes, and is available at https://github.com/isarnassiri/scQCEA/tree/Repository-of-Cell-Type-Specific-Gene-Sets.

  作者在这里把血液免疫细胞跟其它细胞区分开了:

  以及:

  有意思的是,作者收集整理的基因跟我想象的很不一样,比如;

  而且作者这里也不是采用我们标准的单细胞可视化标记基因的方法。以前我们做了一个投票:可视化单细胞亚群的标记基因的5个方法,下面的5个基础函数相信大家都是已经烂熟于心了:

  VlnPlot(pbmc, features = c("MS4A1", "CD79A"))FeaturePlot(pbmc, features = c("MS4A1", "CD79A"))RidgePlot(pbmc, features = c("MS4A1", "CD79A"), ncol = 1)DotPlot(pbmc, features = unique(features)) + RotatedAxis()DoHeatmap(subset(pbmc, downsample = 100), features = features, size = 3)是比较自动化的AUCell包的算法 :

  

  AUCell包的算法