百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

单细胞预测Doublets软件包汇总|过渡态细胞是真的吗?

toyiye 2024-06-30 09:57 9 浏览 0 评论

作者:苑晓梅
校对:生信宝典

写在前面

Doublets:一个液滴或一个微孔中包含了2个或多个细胞 。

对于高通量方法,在细胞捕获效率和doublets比例之间存在折中,通常的做法是以1-5%的doublets为目标(Ziegenhain et al., 2017)(http://refhub.elsevier.com/S0098-2997(17)30049-3/sref115)

以前在分析单细胞数据的时候,我其实从来没有注意过这样一个问题,即使知道可能会出现doublet,还是会天真地认为自己的专业知识是可以把这一部分避免掉,比如当同时在一类细胞中发现两种不同的细胞Marker(他们之间不可以相互转化),我一般会果断的定义为污染。可是随着看的文献越来越多,发现细胞之间的特异性marker越来越模糊,一些不能进行相互转化的细胞marker可能存在于某一小类细胞中。

当然,这些R包并不一定能够解决这些问题,多数的Doublet软件对异质性较高的细胞之间的预测较好,但希望通过总结这类软件,提醒大家在定义过渡态细胞时一定要反复去验证,保证数据的真实性。

Doublet软件包汇总

1.DoubletFinder

DoubletFinder是一种R包,可预测单细胞RNA测序数据中的doublet。

实现DoubletFinder:Seurat> = 2.0(https://satijalab.org/seurat/)

DoubletFinder由Cell Systems于2019年4月出版:https://www.cell.com/cell-systems/fulltext/S2405-4712(19)30073-0

安装(在R/RStudio中)

devtools::install_github('chris-mcginnis-ucsf/DoubletFinder')

依赖包

  • Seurat (>= 2.0)
  • Matrix (1.2.14)
  • fields (9.6)
  • KernSmooth (2.23-15)
  • modes (0.7.0)
  • ROCR (1.0-7)

DoubletFinder概述

DoubletFinder可以分为4个步骤:
(1)从现有的scRNA-seq数据中生成artificial doublets;

(2)预处理合并的real-artifical data;

(3)执行PCA并使用PC距离矩阵查找每个单元的artificial k
最近邻居(pANN)的比例;
(4)根据预期的doublets数量排序和计算阈值pANN值;

缺点:DoubletFinder对同种类型细胞间的doublets不敏感 - 即从转录相似的细胞状态衍生的doublets。

Example

## Pre-process Seurat object -------------------------------------------------------------------------------------------------
seu_kidney <- CreateSeuratObject(kidney.data)
seu_kidney <- NormalizeData(seu_kidney)
seu_kidney <- ScaleData(seu_kidney, vars.to.regress = "nUMI")
seu_kidney <- FindVariableGenes(seu_kidney, x.low.cutoff = 0.0125, y.cutoff = 0.25, do.plot=FALSE)
seu_kidney <- RunPCA(seu_kidney, pc.genes = seu_kidney@var.genes, pcs.print = 0)
seu_kidney <- RunTSNE(seu_kidney, dims.use = 1:10, verbose=TRUE)

## pK Identification ---------------------------------------------------------------------------------------------------------
sweep.res.list_kidney <- paramSweep(seu_kidney, PCs = 1:10)
sweep.stats_kidney <- summarizeSweep(sweep.res.list_kidney, GT = FALSE)
bcmvn_kidney <- find.pK(sweep.stats_kidney)

## Homotypic Doublet Proportion Estimate -------------------------------------------------------------------------------------
homotypic.prop <- modelHomotypic(annotations)           ## ex: annotations <- seu_kidney@meta.data$ClusteringResults
nExp_poi <- round(0.075*length(seu_kidney@cell.names))  ## Assuming 7.5% doublet formation rate - tailor for your dataset
nExp_poi.adj <- round(nExp_poi*(1-homotypic.prop))

## Run DoubletFinder with varying classification stringencies ----------------------------------------------------------------
seu_kidney <- doubletFinder(seu_kidney, PCs = 1:10, pN = 0.25, pK = 0.09, nExp = nExp_poi, reuse.pANN = FALSE)
seu_kidney <- doubletFinder(seu_kidney, PCs = 1:10, pN = 0.25, pK = 0.09, nExp = nExp_poi.adj, reuse.pANN = "pANN_0.25_0.09_913")

## Plot results --------------------------------------------------------------------------------------------------------------
seu_kidney@meta.data[,"DF_hi.lo"] <- seu_kidney@meta.data$DF.classifications_0.25_0.09_913
seu_kidney@meta.data$DF_hi.lo[which(seu_kidney@meta.data$DF_hi.lo == "Doublet" & seu_kidney@meta.data$DF.classifications_0.25_0.09_473 == "Singlet")] <- "Doublet_lo"
seu_kidney@meta.data$DF_hi.lo[which(seu_kidney@meta.data$DF_hi.lo == "Doublet")] <- "Doublet_hi"
TSNEPlot(seu_kidney, group.by="DF_hi.lo", plot.order=c("Doublet_hi","Doublet_lo","Singlet"), colors.use=c("black","gold","red"))

详情可以点击DoubletFinder(https://github.com/ddiez/DoubletFinder)对自己的数据进行一下预测哦!

2.scrublet

Single-Cell Remover of Doublets

用于识别单细胞RNA-seq数据中doublets的Python代码。可以参考 Cell Systems(https://www.sciencedirect.com/science/article/pii/S2405471218304745) 上的文章或者 bioRxiv(https://www.biorxiv.org/content/early/2018/07/09/357368).

Quick start:

给定原始(非标准化)UMI计算矩阵counts_matrix,其中细胞为行,基因为列,计算每个cell的doublet分数:

import scrublet as scr
scrub = scr.Scrublet(counts_matrix)
doublet_scores, predicted_doublets = scrub.scrub_doublets()

scr.scrub_doublets()模拟数据的doublets,并使用k-最近邻分类器是每个转录组计算连续的doublet_score(在0和1之间)。分数是由自动设定的阈值生成
predict_doublets,一个布尔数组,预测是doublets时为True,否则为False。

Best practices:

1.处理来自多个样品的数据时,分别对每个样品运行Scrublet。Scrublet用于检测由两个细胞的随机共包封形成的doublets,所以它可能在合并数据集上表现不佳;

2.在2-D嵌入(例如,UMAP或t-SNE)中可视化doublets预测;

Installation:

To install with PyPI:

pip install scrublet

To install from source:

git clone https://github.com/AllonKleinLab/scrublet.git
cd scrublet
pip install -r requirements.txt
pip install --upgrade .

详情可以点击scrublet(https://github.com/AllonKleinLab/scrublet)对自己的数据进行一下预测哦!

3.DoubletDecon

一种细胞状态识别工具,用于从单细胞RNA-seq数据中去除doublets.

具体步骤可以参见文章:

bioRxiv(https://www.biorxiv.org/content/early/2018/07/08/364810)

安装

if(!require(devtools)){
  install.packages("devtools") # If not already installed
}
devtools::install_github('EDePasquale/DoubletDecon')

依赖包

  • DeconRNASeq
  • gplots
  • dplyr
  • MCL
  • clusterProfiler
  • mygene
  • tidyr
  • R.utils
  • foreach
  • doParallel
  • stringr
source("https://bioconductor.org/biocLite.R")
biocLite(c("DeconRNASeq", "clusterProfiler", "hopach", "mygene", "tidyr", "R.utils", "foreach", "doParallel", "stringr"))
install.packages("MCL")#进行安装依赖包

Example

以下数据的应用均来自于:

bioRxiv(https://www.biorxiv.org/content/early/2018/07/08/364810)

location="/Users/xxx/xxx/" #Update as needed
expressionFile=paste0(location, "counts.txt")
genesFile=paste0(location, "Top50Genes.txt")
clustersFile=paste0(location, "Cluster.txt")

newFiles=Seurat_Pre_Process(expressionFile, genesFile, clustersFile)
filename="PBMC_example"
write.table(newFiles$newExpressionFile, paste0(location, filename, "_expression"), sep="\t")
write.table(newFiles$newFullExpressionFile, paste0(location, filename, "_fullExpression"), sep="\t")
write.table(newFiles$newGroupsFile, paste0(location, filename , "_groups"), sep="\t", col.names = F)

results=Main_Doublet_Decon(rawDataFile=newFiles$newExpressionFile,
                           groupsFile=newFiles$newGroupsFile,
                           filename=filename,
                           location=location,
                           fullDataFile=NULL,
                           removeCC=FALSE,
                           species="hsa",
                           rhop=1.1,
                           write=TRUE,
                           PMF=TRUE,
                           useFull=FALSE,
                           heatmap=FALSE,
                           centroids=TRUE,
                           num_doubs=100,
                           only50=FALSE,
                           min_uniq=4)

详情可以点击:

DoubletDecon(https://github.com/EDePasquale/DoubletDecon)对自己的数据进行一下去除doublets哦!

4.DoubletDetection

DoubletDetection是一个Python3包,用于检测单细胞RNA-seq计数矩阵中的doublets(技术错误)。

安装

git clone https://github.com/JonathanShor/DoubletDetection.git
cd DoubletDetection
pip3 install .

运行基本doublet分类:

import doubletdetection
clf = doubletdetection.BoostClassifier()
# raw_counts is a cells by genes count matrix
labels = clf.fit(raw_counts).predict()

raw_counts是scRNA-seq计数矩阵(基因细胞),并且是阵列式的
labels是一维numpy ndarray,值1表示检测到的doublet,0表示单细胞,np.nan表示模糊的细胞。

分类器在以下情况运行最适合

  • 数据中存在几种细胞类型;
  • 它在聚合计数矩阵中每次单独运行;

参见jupyter notebook ,链接为:

https://nbviewer.jupyter.org/github/JonathanShor/DoubletDetection/blob/master/tests/notebooks/PBMC_8k_vignette.ipynb,可以看到举个栗子!

详情可以点击:

DoubletDetection(https://github.com/JonathanShor/DoubletDetection)对自己的数据进行一下预测吧!

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码