百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

哈佛生信大牛刘小乐课题组数据库教程集锦!总有一款你能用上

toyiye 2024-06-21 11:56 14 浏览 0 评论

如果说起生物信息领域的女科学家,大家肯定会脱口而出一个名字,那就是刘小乐,一头帅气的短发也是她的标志。刘小乐教授开发了很多生物信息工作者和生物方向研究者使用的网站和软件,是大家口中的大神级人物,我们这次主要跟大家介绍一下刘小乐教授实验室开发过的网站和软件。

背景介绍

我们先简单了解下刘小乐教授,1992 年考入北京大学生物系,2002 年于斯坦福大学取得生物医学信息学博士和计算机科学辅修博士学位后, 被直接聘为哈佛大学终身制助理教授,目前同时任职于美国哈佛大学及Dana-Farber癌症研究所,Fig 1是刘小乐教授的主页,网址是 https://www.dfhcc.harvard.edu/insider/member-detail/member/xiaole-shirley-liu-phd/,2018年成为AACR历史上首位在主会议上发表演讲的华人女性科学家,见Fig 2。

刘小乐教授的研究兴趣主要包括四个大的方面,Cancer Epigenetics,CRISPR screens,Cancer Immunology,Single Cell,并且也发表了很多高水平的文章,Fig 4列举了刘小乐教授近些年的一些文章。

Fig 5是我们今天的主角,这张图也是刘小乐教授在最近的生物信息开发者大会上讲自己最新的COP1这个基因工作的情况时放出来的,当天会议的气氛感觉很棒,刘小乐教授一直在致力于新领域、新研究方向的开发,这次做的就是通过一种新的方法来大批量研发潜在药物。下面我们将按照顺序逐一介绍下刘小乐教授开发的这些在线网站或者软件的使用。


网站和软件

1TRUST4

第一个工具是TRUST4,网址是https://github.com/liulab-dfci/TRUST4 ,这个工具大家应该显得稍微陌生点,这个工具主要是用来分析实体组织,包括肿瘤组织的RNA测序的数据的TCR和BCR序列,这部分内容其实也比较火热,主要是免疫组库(Immune Repertoire,IR)的内容,免疫组库指的是机体内 T 淋巴细胞和 B 淋巴细胞多样性的总和,反映机体免疫系统在特定时间段内应对外界刺激应答的能力。可以通过检测免疫组库来检测患者的免疫能力的高低,TRUST4主要是通过对高可变的V, J, C基因的可变区域进行de novo assembly,并通过比对免疫数据库IMGT的序列,得到样本的TCGR和BCR序列的多样性,TRUST4可以接受单端或者双端的测序数据,并且不限制测序的read长度。我们可以直接通过git克隆代码库就可以使用这个软件了,软件参数见Fig 6

2TIMER

第二个是一个在肿瘤,免疫领域被大家广泛引用的网站TIMER,这个网站分为2个版本,https://cistrome.shinyapps.io/timer/ TIMER: Tumor IMmune Estimation Resourcehttp://timer.cistrome.org/ TIMER2.0。TIMER于2017年发表在Cancer Research上,截止至2020.08.14已经被引用431次;TIMER2.0于2020年发表在Nucleic Acids Research,截止至2020.08.14已经被引用5次。TIMER2.0相对于TIMER来说最大的改变就是,TIMER只使用了一个单一的算法,当是在TIMER2.0使用了更多的更稳健的算法来评估TCGA数据库或者使用者自己提交的表达数据,也就是结果更准确,更具有更可靠的生物学意义,而且TIMER这个版本1网页长时间不点击就会自动断开。如Fig 7所示。

TIMER2.0主要包括3个模块,Immune Association,Cancer Exploration,Immune Estimation。其中Immune Association主要包括四大子模块,Gene,Mutaion,sCNA,Outcome;Cancer Exploration主要包括四大子模块Gene_DE,Gene_Outcome,Gene_Mutation,Gene_Corr;Immune Estimation只包括一个子模块Estimation。

下面我们每个大模块抽取一个示范一下使用。我们进入每个模块点击页面最上方的这一排的图标进入。

在Immune Association我们选择子模块Outcome。我们就选择默认参数,点击submit参数即可返回得到结果。根据图中的标注,我们可以看到使用EPIC这个工具,在BLCA这个肿瘤中,T cell CD8+是一个显著的增加风险的细胞类型。

在Exploration模块我们选择Gene_Corr这个子模块,在Gene Expression这个选项,我们可以一次选择多个基因去和我们的Interested Gene做相关性计算,并且我们可以决定是否勾选Purity Adjustment,这个主要是根据我们是否得到了自己所需要的结果进行调整。

在Esimation模块,我们可以看到右边这个Instrction清晰的告诉我们该怎么选择数据,这里使用的数据一般使用的是TPM的数据,我们以示例数据为例。先点击Example获取示例数据,然后上传,然后选择AUTO,然后点击RUN,就会在右侧下方看到进度条,google浏览器没成功的话可以选择火狐浏览器。Fig 10是我们的示例数据,一共5个样本。得到的结果一共分为2个图片讲解。Fig 10我们可以看到检测到数据是LUAD类型,跟我们下载的是一致的肿瘤类型。Fig 12是每个细胞在预测工具得到的在每个样本的比例。这些结果可以跟着这些细胞代表的特殊的生物学意义来说明我们研究的内容的一些特殊的属性。


3TIDE

TIDE数据库的全称是Tumor Immune Dysfunction and Exclusion,翻译为中文就是肿瘤免疫功能障碍和排斥,网站地址是http://tide.dfci.harvard.edu/,而且这个网站必须注册才能使用。这个数据库大家平时用到的可能性比较小,因为一般人也拿不到这样的数据,里面主要用到的数据集是TCGA和PRECOG。我们知道目前通过免疫检查点抑制剂(immune checkpoint blockade,ICB)的肿瘤治疗只有一部分人可以长期获益,这个网站是用来推测调节肿瘤免疫的基因的功能,用来综合分析免疫功能障碍和排斥对两种肿瘤(黑色素瘤和非小细胞肺癌)的免疫逃逸机制,从而来有效预测免疫检查点抑制治疗的效果。所以这个数据库针对的肿瘤是有限的。网站的截图如Fig 13。

4TISCH

TISCH这个网站主要是关注的单细胞数据集研究免疫微环境,网站地址是http://tisch.comp-genomics.org/home/ 。一共包括79个数据集,大约200万个细胞。Fig 14描述了这个网站的数据集的各个肿瘤的组成,比如BLCA有2个数据集。

我们还可以搜索单个关心的基因在不同数据集的的不同细胞类型的平均表达,作者在这里也不建议选择所有的肿瘤类型,因为那样太慢了。并且数据集的个数也可以自己勾选。Fig 15是热图,颜色越深,说明表达量越高,Fig 16是小提琴图,根据小提琴图的高度也可以反映表达量的高低。

4Cistrome Data Browser

Cistrome Data Browser是一个研究顺势调控元件的数据库,网站地址是http://cistrome.org/db/#/ ,这里面主要是小鼠和人的CHIP-seq数据,我们可以选择数据的来源以及关心的转录因子。并且网站还专门提供了两个另外的工具。一个是当我们比较关心我们选择的基因被什么转录因子调控,或者我选择的这个区域被什么转录因子调控,就可以使用CistromeDB Toolkit,网站地址是http://dbtoolkit.cistrome.org/ ,但是这个没法选择不同的参考基因组版本,如图Fig 17。如果你有转录因子的CHIP-seq的数据,就可以利用Cistrome-GO来研究这个转录因子潜在的位置功能,网站地址是http://go.cistrome.org/ ,并且可以选择不同的参考基因组版本,如图Fig 18。

5LISA

LISA主要是可以用来当你有差异表达的基因,并且希望了解有什么转录因子可能参与了这个过程,那么你就可以使用这个工具,这也是刘小乐教授在推特的原话,如图Fig 19

如图Fig 20这个网站可以用来做人和小鼠的数据研究,至少需要属于一个基因组,不少于50个结果会更加准确,也可以自己输入背景基因集,还可以选择不同的方法,并且可以设置邮箱来提醒结果。

6 MAESTRO

MAESTRO是一个软件,全称是Model-based AnalysEs of Single-cell Transcriptome and RegulOme,可以在https://github.com/liulab-dfci/MAESTRO看到,是一个分析单细胞转录组数据和ATAC-seq数据的流程,使用snakemake编写,可以从fastq数据开始处理,可以做数据质控,差异分析,聚类,调控网络分析,目前支持Smart-seq2, 10x-genomics, Drop-seq, SPLiT-seq 的转录组数据; microfudics-based, 10x-genomics , sci-ATAC-seq的scATAC-seq数据,可以通过conda便捷的安装,并且版本更迭一直在做,软件只能在linux运行,需要Python (>= 3.0)和R (>= 3.6.1)支持,安装过程见Fig 21

7MAGeCKFlute

MAGeCKFlute是一个用来分析大批量CRISPR敲除基因功能研究的一个R包,存放在bioconductor。这个可能一般人也用得上,这个实验做起来也不便宜。其实之前刘小乐教授已经开发了MAGeCK and MAGeCK-VISPR来研究CRISPR的相关研究。更细致的描述可以参考Fig 22。

8

CARE主要是来预测靶向治疗和耐药的调节基因,全称是Computational Analysis of Resistance,网址是 http://care.dfci.harvard.edu/,如图在Fig 23我们输入EGFR之后,会跳出如图Fig 24要求我们进一步筛选,比如我们选择最后一个,然后就可以得到网站的评分结果,如图Fig 25,图片可以通过PDF下载,表格数据可以下载CSV格式,这个就需要大家有一些临床用药的知识,不一定每个人都能看懂这个意思。

在本篇文章中,我们有详细,也有简略的介绍了刘小乐教授开发的一些软件和网站,主要是围绕肿瘤,但是大家也可以看到刘小乐教授研究的领域幅度之广阔,令人很是佩服。

点击链接免费报名解螺旋训练营

解螺旋服务号

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码