vivala,初学者如何学习TCGA数据库?
初学者如何学习TCGA?

在肿瘤研究领域,相信没有人不知道The Cancer Genome Atlas (TCGA)。
TCGA是美国国家癌症研究所(National Cancer Institute)和美国人类基因组研究所(National Human Genome Research Institute)共同监督的一个项目,旨在应用高通量的基因组分析技术,以帮助人们对癌症有个更好的认知,从而提高对于癌症的预防、诊断和治疗能力。
作为目前最大的癌症基因信息数据库,TCGA的全面不仅仅体现在众多癌型上(覆盖33种癌症类型,超过30000例肿瘤样本,超过20000个基因的表达信息),还体现在多组学数据(包括基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP等)。
TCGA作为肿瘤研究中资源最丰富,数据最权威的数据库,自然受到广大科研工作者的深入挖掘。无数的文章脱胎于通过挖掘TCGA数据,同时也促使了不计其数的衍生的数据库用于挖掘可视化TCGA这个巨大的资源。
壹
TCGA相关数据库
1
综合型数据库
在这些不计其数的数据库中,有那么几个数据库由于其超强实用的功能,为肿瘤研究者青睐,受到普遍关注。
➱TCGA官方网站
官网https://portal.gdc.cancer.gov/
最权威的网站资源(数据可以无代码下载,当数据较大时也可以通过GDCRNAtools工具包下载)
➱cBioPortal
官网http://www.cbioportal.org/
一个基于TCGA数据库,进行可视化分析的网页,不需要代码,里面内容十分丰富,提供了最详细的TCGA在线分析展示。业界人称“TCGA数据挖掘终结者”。(数据可以无代码下载,也可以通过CGDSR工具包下载)
➱Oncomine
官网
https://www.oncomine.org/resource/login.html
目前最大的癌症基因芯片数据库,里面不仅包含TCGA数据,还包括了其他有关的肿瘤的数据信息,非常全面(对于普通免费用户而言,里面的TCGA数据不支持批量下载,但是其他项目中肿瘤数据可以链接到GEO数据库中下载)
➱ GEPIA
官网http://gepia.cancer-pku.cn/
国人开发的TCGA数据库可视化网站,方便快速可视化肿瘤与癌旁组织的基因表达量
➱UCSC Xena
官网https://xena.ucsc.edu/
集合TCGA,ICGC(International Cancer Genome Consortium/国际癌症基因组联合体)资源大成的数据库(数据可以无代码下载,也可以通过UCSCXenaTools工具包下载)
➱Broad GDAC Firehose
官网http://gdac.broadinstitute.org/
最人性化的TCGAR语言工具包下载,下文实例讲解)
2
专一型数据库
除上文的综合型数据库之外,还包括一些特异分析TCGA某一数据的数据库,比如:
➱TCGA生存分析oncolnc
官网http://www.oncolnc.org/
➱基于TCGA的蛋白芯片分析神器TCPA
官网http://www.tcpaportal.org/tcpa/
➱基于TCGA的甲基化神器mexpress
官网http://mexpress.be/
接下来,本文通过RTCGAToolbox这个R语言包/数据下载和分析操作简便,向大家演示怎样从Broad GDAC Firehose下载TCGA数据为自己所用。
贰
RTCGAToolbox操作TCGA数据
因为TCGA数据量庞大,分析的手段多样复杂,并非所有人都可以轻松的下载与管理数据库中的数据。RTCGAToolbox是Firehose项目科学家专门开发供科研工作者下载感兴趣的TCGA level 3/4数据(将原始数据预处理后的数据量小很多的数据)的一个工具包。该包主要包括以下几个功能:
查询Firehose项目提供的TCGA数据的信息
下载数据
后续数据分析与可视化
安装与加载RTCGAToolbox
1
查询Firehose中TCGA数据
⑴ 查看肿瘤类型(以下都是肿瘤简称)
⑵ 查看数据库中的更新情况
(每个日期代表着一批数据,因为TCGA数据在不断的测序更新,所以可得到的数据也在不断的更新,最新版的结果就会覆盖所有TCGA中的样本)
RTCGAToolbox可下载的数据类型包括:
RNAseqGene 来源于RNA测序的基因表达数据,原始数据
Clinical 临床信息,包括样本的分期,生存信息,年龄,性别等
miRNASeqGene miRNA测序数据
RNAseq2GeneNorm RNA测序的基因表达数据,标准化处理后的值
CNASNP 体细胞拷贝数变异数据
CNVSNP 生殖细胞拷贝数变异数据
CNASeq 体细胞拷贝数测序数据
CNACGH CGH芯片测序的体细胞拷贝数据
Methylation 芯片分析的甲基化数据
Mutation 基因水平的突变数据
mRNAArray 芯片分析的基因表达数据
miRNAArray 芯片分析的miRNA表达数据
RPPAArray 蛋白质芯片测序结果
2
下载TCGA数据
⑴ 下载结肠癌数据
(你可以下载自己感兴趣的任何肿瘤类型,此处自己选择结肠癌)
代码中:
getFirehoseData() 函数是该包最核心的函数。通过此函数,我们可以从Firehose中下载我们感兴趣的数据
dataset="COAD" 选择自己感兴趣的肿瘤类型
runDate="20160128" 数据的版本号
forceDownload=TRUE 设置分析的时候重新下载数据
clinical=TRUE 获临床数据(临床数据默认值TRUE,其他数据类型默认值FALSE)
Mutation=TRUE 获取突变数据
当然,你可以选择任何自己感兴趣的数据类型下载,此处仅下载结肠癌的临床信息与突变数据。(但是不是所有的TCGA数据在Firehose中的数据都可以下载,有的数据还是需要权限,具体可以下载的数据列表如下图,最新版的可供下载的数据信息)
⑵ 数据下载结果
可以看到下载的数据中包含三种类型的数据:临床信息,体细胞拷贝数变化情况,基因突变信息(GISTIC:用于在肿瘤的众多SCNA/somatic copy number alteration中选择出具有统计意义的SCNA的方法)
叁
数据简单分析与可视化
1
提取下载的结肠癌数据中的临床数据子集
(同理,可以提取自己感兴趣的任何数据)
RTCGAToolbox不仅可以下载的数据,还贴心的提供了5个基本的数据分析工具:
差异表达分析 比较肿瘤组织与癌旁组织的基因表达量,且根据不同的平台会自动选择合适的分析工具
基因表达量与拷贝数的相关性分析
基因突变频率分析
生存分析
数据的简单可视化报告
因为本例中,我们仅仅是下载了数据量比较小的结肠癌的突变数据与临床数据,所以可以操作的分析局限于基因的突变频率与基于临床资料的简单生存分析
2
基因突变频率分析
3
查看生存情况
RTCGAToolbox给我们提供了一条下载,管理TCGA数据相对便捷的方式。你自己也可以结合其他工具包来灵活操作TCGA的数据,比如可以用RTCGAToolbox下载数据,但是用suivival工具包来更灵活做生存分析,用ggplot2来绘制火山图,热图,柱状图等。(当然,RTCGAToolbox自带的数据分析工具也很强大,做的图一样美观,以下图都是该包可视化分析的图)
RTCGAToolbox可以通过一个函数便捷的完成所有数据的下载,包括下载并解压缩,读入R环境,非常方便。另外,下载的各种类型的数据会被自动封装在一个文件中,比如上文中的COADData数据包括三种数据类型。
CodePlay的单曲viva?
《Viva La Vida》西班牙语:生命万岁
网上比较神的翻译: I used to rule the world
Seas would rise when I gave the word
Now in the morning I sleep alone
Sweep the streets I used to own
我曾是世界的主宰
一聲令下,大海亦屈膝而拜
如今却清晨還醉生夢死,
在曾属于我的街街巷巷独自徘徊
I used to roll the dice
Feel the fear in my enemy's eyes
Listen as the crowd would sing:
"Now the old king is dead! Long live the king!!!"
彼時敵寇生殺僅于我一念,
细嘗其眼底的恐懼萬端
亦曾領教愚民們高喊唱出:
“斯王已逝,新君萬世!!!”
One minute I held the key
Next the walls were closed on me
And I discovered that my castles stand
Upon pillars of salt and pillars of sand
彼時權杖尚握手中,
转瞬却被重(chong)墙紧紧锁住
這才恍然大悟,城堡那雄偉根基,
竟只是堆堆沙樁鹽柱
I hear Jerusalem bells a ringing
Roman Cavalry choirs are singing
Be my mirror my sword , my shield
My missionaries in a foreign field
For some reason I can't explain
Once you go there was never,
never an honest word
That was when I ruled the world
我聽見耶路撒冷一聲鐘響久久回蕩
羅馬騎兵唱詩班戰歌嘹亮
就做我的明鏡、我的寶劍、我的坚盾吧,
我的傳教士們飞奔在异域远方!
却因為一些無法明言的机緣
自從你走後,我再也未能,
再也未能聽過隻字忠言
這就是我 主宰世界的年月
It was the wicked and wild wind
Blew down the doors to let me in.
Shattered windows and the sound of drums
People couldn't believe what I'd become
是那阵凶邪的狂风,
衝破重門將我押入,
瑰窗颤碎,鼓聲隆隆,
子民該如何料到帝王之终?
Revolutionaries wait
For my head on a silver plate
Just a puppet on a lonely string
Oh who would ever want to be king?
革命军们虎視眈眈
僅為等我的頭顱端上銀盤
不過一只命懸一線的傀儡罢!
既念及今,孰願為君?
I hear Jerusalem bells a ringing
Roman Cavalry choirs are singing
Be my mirror my sword , my shield!
My missionaries in a foreign field
For some reason I can't explain
I know Saint Peter won't call my name
只聽見耶路撒冷一聲鐘響久久回蕩
羅馬騎兵唱詩班仍戰歌嘹亮
快成為我的明鏡、我的寶劍、我的坚盾吧
我的傳教士們尚飛奔在異域遠方
却因為一些無法明言的机緣,
我深知 我的名字聖彼得已不會再念
Never an honest word
But that was when I ruled the world
這世上其实從未有過 哪怕片語真言,
不過 那却是我 主宰世界的年月
衣服上带有LA标志是什么牌子?
LA是意大利服饰品牌。
LA PERLA是意大利顶级奢侈时尚的骄傲,比意大利另一个著名的内衣品牌LEVANTE更加让人疯狂。LA PERLA是一场梦,是一个贵族的梦幻。LA PERLA不仅仅出品最尊贵的内衣裤、海滩装、长统丝袜、连衣裙、晚礼服等等,还生产顶级的高跟鞋与香水。
LA PERLA下属还有诸如MALIZIA、MARVEL、GIORGIO PERLA男装,JOELLE睡袍等副牌。
naturals牌子好吗?
Viva Naturals产品甄选优质自然原料,在生产过程中始终基于科学研究和传统经验,力求保留产品的风味和成分。Viva Naturals主要生产苹果醋、可可粉、可可碎粒、嘉种子、椰子粉、椰子油、椰子糖、亚麻籽、枸杞等有机食品。
viva是什么衣服牌子?
VlⅤA VOCE来自巴黎,是华润服饰旗下高档女装品牌。
VIVA VOCE一直与米兰著名时装设计工作室紧密合作,在法国巴黎也拥有研发团队,VIVA VOCE的创意团队有着强劲的原创动力与国际视野。我们的足迹遍及四大时装周,全球最新的设计展乃至艺术画廊,非常善于捕捉最前沿的时尚潮流。
薇娃惟斯是VIVA VOCE的中文品牌名,意为来自生活的声音。VIVA VOCE注重观念陈述,灵感来源于创作者丰富而深刻的生命体验,映衬设计师内心的情感层次和智慧层次,抽象表象之后凝练出生活本质之美,以简约的形包含无穷气象表达无限的可能性。


还没有评论,来说两句吧...