如果说起生物信息领域的女科学家,大家肯定会脱口而出一个名字,那就是刘小乐,一头帅气的短发也是她的标志。刘小乐教授开发了很多生物信息工作者和生物方向研究者使用的网站和软件,是大家口中的大神级人物,我们这次主要跟大家介绍一下刘小乐教授实验室开发过的网站和软件。
背景介绍
我们先简单了解下刘小乐教授,1992 年考入北京大学生物系,2002 年于斯坦福大学取得生物医学信息学博士和计算机科学辅修博士学位后, 被直接聘为哈佛大学终身制助理教授,目前同时任职于美国哈佛大学及Dana-Farber癌症研究所,Fig 1是刘小乐教授的主页,网址是 https://www.dfhcc.harvard.edu/insider/member-detail/member/xiaole-shirley-liu-phd/,2018年成为AACR历史上首位在主会议上发表演讲的华人女性科学家,见Fig 2。
刘小乐教授的研究兴趣主要包括四个大的方面,Cancer Epigenetics,CRISPR screens,Cancer Immunology,Single Cell,并且也发表了很多高水平的文章,Fig 4列举了刘小乐教授近些年的一些文章。
Fig 5是我们今天的主角,这张图也是刘小乐教授在最近的生物信息开发者大会上讲自己最新的COP1这个基因工作的情况时放出来的,当天会议的气氛感觉很棒,刘小乐教授一直在致力于新领域、新研究方向的开发,这次做的就是通过一种新的方法来大批量研发潜在药物。下面我们将按照顺序逐一介绍下刘小乐教授开发的这些在线网站或者软件的使用。
网站和软件
1TRUST4
第一个工具是TRUST4,网址是https://github.com/liulab-dfci/TRUST4 ,这个工具大家应该显得稍微陌生点,这个工具主要是用来分析实体组织,包括肿瘤组织的RNA测序的数据的TCR和BCR序列,这部分内容其实也比较火热,主要是免疫组库(Immune Repertoire,IR)的内容,免疫组库指的是机体内 T 淋巴细胞和 B 淋巴细胞多样性的总和,反映机体免疫系统在特定时间段内应对外界刺激应答的能力。可以通过检测免疫组库来检测患者的免疫能力的高低,TRUST4主要是通过对高可变的V, J, C基因的可变区域进行de novo assembly,并通过比对免疫数据库IMGT的序列,得到样本的TCGR和BCR序列的多样性,TRUST4可以接受单端或者双端的测序数据,并且不限制测序的read长度。我们可以直接通过git克隆代码库就可以使用这个软件了,软件参数见Fig 6
2TIMER
第二个是一个在肿瘤,免疫领域被大家广泛引用的网站TIMER,这个网站分为2个版本,https://cistrome.shinyapps.io/timer/ TIMER: Tumor IMmune Estimation Resource;http://timer.cistrome.org/ TIMER2.0。TIMER于2017年发表在Cancer Research上,截止至2020.08.14已经被引用431次;TIMER2.0于2020年发表在Nucleic Acids Research,截止至2020.08.14已经被引用5次。TIMER2.0相对于TIMER来说最大的改变就是,TIMER只使用了一个单一的算法,当是在TIMER2.0使用了更多的更稳健的算法来评估TCGA数据库或者使用者自己提交的表达数据,也就是结果更准确,更具有更可靠的生物学意义,而且TIMER这个版本1网页长时间不点击就会自动断开。如Fig 7所示。
TIMER2.0主要包括3个模块,Immune Association,Cancer Exploration,Immune Estimation。其中Immune Association主要包括四大子模块,Gene,Mutaion,sCNA,Outcome;Cancer Exploration主要包括四大子模块Gene_DE,Gene_Outcome,Gene_Mutation,Gene_Corr;Immune Estimation只包括一个子模块Estimation。
下面我们每个大模块抽取一个示范一下使用。我们进入每个模块点击页面最上方的这一排的图标进入。
在Immune Association我们选择子模块Outcome。我们就选择默认参数,点击submit参数即可返回得到结果。根据图中的标注,我们可以看到使用EPIC这个工具,在BLCA这个肿瘤中,T cell CD8+是一个显著的增加风险的细胞类型。
在Exploration模块我们选择Gene_Corr这个子模块,在Gene Expression这个选项,我们可以一次选择多个基因去和我们的Interested Gene做相关性计算,并且我们可以决定是否勾选Purity Adjustment,这个主要是根据我们是否得到了自己所需要的结果进行调整。
在Esimation模块,我们可以看到右边这个Instrction清晰的告诉我们该怎么选择数据,这里使用的数据一般使用的是TPM的数据,我们以示例数据为例。先点击Example获取示例数据,然后上传,然后选择AUTO,然后点击RUN,就会在右侧下方看到进度条,google浏览器没成功的话可以选择火狐浏览器。Fig 10是我们的示例数据,一共5个样本。得到的结果一共分为2个图片讲解。Fig 10我们可以看到检测到数据是LUAD类型,跟我们下载的是一致的肿瘤类型。Fig 12是每个细胞在预测工具得到的在每个样本的比例。这些结果可以跟着这些细胞代表的特殊的生物学意义来说明我们研究的内容的一些特殊的属性。
3TIDE
TIDE数据库的全称是Tumor Immune Dysfunction and Exclusion,翻译为中文就是肿瘤免疫功能障碍和排斥,网站地址是http://tide.dfci.harvard.edu/,而且这个网站必须注册才能使用。这个数据库大家平时用到的可能性比较小,因为一般人也拿不到这样的数据,里面主要用到的数据集是TCGA和PRECOG。我们知道目前通过免疫检查点抑制剂(immune checkpoint blockade,ICB)的肿瘤治疗只有一部分人可以长期获益,这个网站是用来推测调节肿瘤免疫的基因的功能,用来综合分析免疫功能障碍和排斥对两种肿瘤(黑色素瘤和非小细胞肺癌)的免疫逃逸机制,从而来有效预测免疫检查点抑制治疗的效果。所以这个数据库针对的肿瘤是有限的。网站的截图如Fig 13。
4TISCH
TISCH这个网站主要是关注的单细胞数据集研究免疫微环境,网站地址是http://tisch.comp-genomics.org/home/ 。一共包括79个数据集,大约200万个细胞。Fig 14描述了这个网站的数据集的各个肿瘤的组成,比如BLCA有2个数据集。
我们还可以搜索单个关心的基因在不同数据集的的不同细胞类型的平均表达,作者在这里也不建议选择所有的肿瘤类型,因为那样太慢了。并且数据集的个数也可以自己勾选。Fig 15是热图,颜色越深,说明表达量越高,Fig 16是小提琴图,根据小提琴图的高度也可以反映表达量的高低。
4Cistrome Data Browser
Cistrome Data Browser是一个研究顺势调控元件的数据库,网站地址是http://cistrome.org/db/#/ ,这里面主要是小鼠和人的CHIP-seq数据,我们可以选择数据的来源以及关心的转录因子。并且网站还专门提供了两个另外的工具。一个是当我们比较关心我们选择的基因被什么转录因子调控,或者我选择的这个区域被什么转录因子调控,就可以使用CistromeDB Toolkit,网站地址是http://dbtoolkit.cistrome.org/ ,但是这个没法选择不同的参考基因组版本,如图Fig 17。如果你有转录因子的CHIP-seq的数据,就可以利用Cistrome-GO来研究这个转录因子潜在的位置功能,网站地址是http://go.cistrome.org/ ,并且可以选择不同的参考基因组版本,如图Fig 18。
5LISA
LISA主要是可以用来当你有差异表达的基因,并且希望了解有什么转录因子可能参与了这个过程,那么你就可以使用这个工具,这也是刘小乐教授在推特的原话,如图Fig 19
如图Fig 20这个网站可以用来做人和小鼠的数据研究,至少需要属于一个基因组,不少于50个结果会更加准确,也可以自己输入背景基因集,还可以选择不同的方法,并且可以设置邮箱来提醒结果。
6 MAESTRO
MAESTRO是一个软件,全称是Model-based AnalysEs of Single-cell Transcriptome and RegulOme,可以在https://github.com/liulab-dfci/MAESTRO看到,是一个分析单细胞转录组数据和ATAC-seq数据的流程,使用snakemake编写,可以从fastq数据开始处理,可以做数据质控,差异分析,聚类,调控网络分析,目前支持Smart-seq2, 10x-genomics, Drop-seq, SPLiT-seq 的转录组数据; microfudics-based, 10x-genomics , sci-ATAC-seq的scATAC-seq数据,可以通过conda便捷的安装,并且版本更迭一直在做,软件只能在linux运行,需要Python (>= 3.0)和R (>= 3.6.1)支持,安装过程见Fig 21
7MAGeCKFlute
MAGeCKFlute是一个用来分析大批量CRISPR敲除基因功能研究的一个R包,存放在bioconductor。这个可能一般人也用得上,这个实验做起来也不便宜。其实之前刘小乐教授已经开发了MAGeCK and MAGeCK-VISPR来研究CRISPR的相关研究。更细致的描述可以参考Fig 22。
8
CARE主要是来预测靶向治疗和耐药的调节基因,全称是Computational Analysis of Resistance,网址是 http://care.dfci.harvard.edu/,如图在Fig 23我们输入EGFR之后,会跳出如图Fig 24要求我们进一步筛选,比如我们选择最后一个,然后就可以得到网站的评分结果,如图Fig 25,图片可以通过PDF下载,表格数据可以下载CSV格式,这个就需要大家有一些临床用药的知识,不一定每个人都能看懂这个意思。
在本篇文章中,我们有详细,也有简略的介绍了刘小乐教授开发的一些软件和网站,主要是围绕肿瘤,但是大家也可以看到刘小乐教授研究的领域幅度之广阔,令人很是佩服。
点击链接免费报名解螺旋训练营