单细胞聚类方法调研

Review of Single Cell Clustering

Posted by Cheereus on February 14, 2020

单细胞聚类方法调研

一、介绍

关于背景暂时不作赘述。

首先从无监督学习和监督学习两个大方向进行每个方法的分别介绍,然后从流程上根据是否对原始数据进行降维、去噪和dropout等预处理操作来进行进一步分类讨论和总结。

二、无监督学习

Corr 差异相关系数方法 [2]

本方法未进行原始数据的预处理,核心思想在于新定义了一个体现成对细胞间相似性的差异相关系数(differentiability correlation)。

假设具有 $p$ 个基因表达量的 $n$ 个细胞数据,其第 $i$ 个细胞的基因表达情况表示为向量:

对于两个细胞 $i$ 和 $j$,定义两个基因集合 $V_{i_j}^+$ 和 $V_{i_j}^-$,其中 $V_{i_j}^+$ 表示细胞 $i$ 中表达水平高于除了细胞 $j$ 以外其他所有细胞的平均水平的基因, $V_{i_j}^-$ 则表示细胞 $i$ 中表达水平低于除了细胞 $j$ 以外其他所有细胞的平均水平的基因,即:

使用上述的 $V_{i_j}^+$ 和 $V_{i_j}^-$ 来给细胞 $i$ 中的基因 $k$ 定义差异状态,其规则为:

同理可以定义出细胞 $j$ 中基因 $k$ 的差异状态 $U_{j_{i} k}, k=1, \ldots, p$。于是可以定义细胞 $i$ 和细胞 $j$ 之间的不相似度:

其中

那么差异相关系数 $\left(1-S_{i j}\right)$ 则可以表示细胞 $i$ 和细胞 $j$ 之间相对于其他细胞的差异的相关性,并以此作为距离来进行层次聚类。

三、监督学习

参考文献

[1] Kiselev, V. Y., Andrews, T. S., & Hemberg, M. (2019). Challenges in unsupervised clustering of single-cell RNA-seq data. Nature Reviews Genetics, 20(5), 273–282. https://doi.org/10.1038/s41576-018-0088-9

[2] Jiang, H., Sohn, L. L., Huang, H., & Chen, L. (2018). Single cell clustering based on cell-pair differentiability correlation and variance analysis. Bioinformatics. https://doi.org/10.1093/bioinformatics/bty390/4996592