如何不费洪荒之力学会挖掘肿瘤转录组数据
牛津大学出版社出版的《核酸研究》杂志,是小编的最爱。因为总有神器推荐。这不,广大肿瘤研究团队老师们心心念念的肿瘤在线数据挖掘神器出来了---Cancer RNA-Seq Nexus数据库。这个在线数据库收集了当下具有肿瘤研究宝藏之称的TCGA数据库以及NCBI GEO数据库中所有肿瘤相关的RNA测序数据(瞄准转录组)。关键是,该网站可以轻松实现数据的查询和挖掘。认真读完这篇Cancer RNA-Seq Nexus使用指南,挖掘肿瘤转录组数据不再需要消耗洪荒之力。
该数据库在此:syslab4.nchu.edu.tw/
该数据库参考文献在此: Li, J.R., et al., Cancer RNA-Seq Nexus: a database of phenotype-specific transcriptome profiling in cancer cells. Nucleic Acids Res, 2016. 44(D1): p. D944-51.
另外, 深深感谢國立中興大學的台湾同胞为我们打造的挖掘神器。
A数据库/肿瘤类型
该数据库纳入了54组人类肿瘤RNA-seq数据,其中28组来源于TCGA,26组来源于GEO,共计326种表型和11,030例样本。
B此处有惊喜!还有各种亚组信息
对于大多数癌种,还可以依据不同的亚组再进行分析。比如breast cancer stage II;ER+ breast cancer ;Her2+ breast cancer。
C是的!一次点击就能获得高大上共表达网络图
这里点击进去以后,可以进行任意一对mRNA和lncRNA的共表达分析,比如下图是EZH2基因和HOTAIR 的共表达分析。
说明:依据左图的legend可以看出,橘色是差异表达基因,绿色是差异表达的lncRNA。放射状的中心点对应的是我们要研究的EZH2基因和lncRNA HOTAIR,由于EZH2有多个转录本,所以橘色的中心点有3个。放射状的边缘,是基于表达量数据找到的,和EZH2基因或lncRNA HOTAIR 存在共表达的基因或者lncRNA。蓝色线为负相关,红色线为正相关。
此功能内部还有惊喜!点击Layout,还可以把共表达图换成你想要的其它模式,比如换成如下的圈图。
后记:本文推荐的神器,专门用于肿瘤转录组数据的挖掘。
目前能够从TCGA数据库中提取数据的综合性处理工具还有cBioPortal(cbioportal.org/public-portal/cgds_r.jsp),ICGC(dcc.icgc.org/download/current)和GenePattern(broadinstitute.org/cancer/software/genepattern/download/index)
如果你想问挖掘这些数据有啥用?小编这里就不回答了,因为答案实在太多。一大波参考文献丢给你看:
只用TCGA数据进行挖掘,发表生信文章:
ncbi.nlm.nih.gov/pubmed/27165743
nature/ncomms/2014/140707/ncomms4963/full/ncomms4963.html
利用GEO+TCGA数据作为discovery阶段的样本进行分析,得到candidate后利用自己的样本进行验证
ncbi.nlm.nih.gov/pubmed/25657825
挖掘TCGA数据库发表文章的要求和示例,转载了一个帖子,点击阅读全文可看:
创新基因科技,成就科学梦想