超详细2021年3分+ceRNA纯生信文章套路复现!
大家好!今天我们来复现2021年3月发表在Frontiers in Genetics 上的一篇ceRNA纯生信文章。ceRNA套路可咸可甜,影响因子可高可低,不会过时哟。本篇文章作者花样凑数据真真做得很好。让我们一起来品品吧。
期刊简介
本文脉络
复现工具
仙桃学术(https://www.xiantao.love/products)R & Rstudio:clusterProfiler,Venn(http://bioinformatics.psb.ugent.be/webtools/Venn/)STRING (http://string-db.org)Cytoscape: STRING; MCODE; CytoHubbaGEPIA (http://gepia.cancer-pku.cn/)Metascape (http://metascape.org/gp/index.html#/main/step1)Mirtarbase (http://mirtarbase.cuhk.edu.cn/php/search.php#target)Starbase (http://starbase.sysu.edu.cn/)Oncolnc (http://www.oncolnc.org/)Firehose database (http://firebrowse.org/)LncBase Predicted v.2 database (http://carolina.imis.athena-innovation.gr/diana_tools/web/index.php?r=lncbasev2/index-predicted)GSEA (https://www.gsea-msigdb.org/gsea/index.jsp)Cmap(Connectivity Map)(https://portals.broadinstitute.org/cmap/) (https://clue.io/)PubChem (https://pubchem.ncbi.nlm.nih.gov/)文章复现
本文共10张图片和3个表格,我们跟随作者的脚步,一一进行。
Fig.1 作者向我们展示了本文的流程图,可以理解为基础文章中的模式图。
作者通过GEO数据库筛选自己想要的且合适的GSE50161,结合TCGA数据库TCGA-GBM,共两个数据集。一般我们会选择2-4个数据集,一个作为筛选数据集,1-3个作为验证数据集。本文思路:
本文思路
用两个数据集筛选共表达基因【挑】;进行GO/KEEGG,MCODE,筛选hub基因(8个);Hub基因差异表达和生存分析,进一步筛选具有预后的hub基因(5个);通过5个hub基因反向预测调控其的miRNA,并筛选hub miRNA(has-9-5p);通过hub miRNA预测与其有交互作用的lncRNAs,并筛选hub lncRNA(10个);只有CRNDE具有降低GBM OS的作用;mRNA-miRNA-lncRNA做成ceRNA模式;此外,作者用筛选到的具有预后hub基因中的三个做了单基因GSEA分析和治疗药物预测。现在我们进入复现环节
Fig.2 筛选GSE50161和TCGA共表达差异基因 → 【表达差异(挑)】
做差异基因,挑是第一步,挑得好后面的模块做得才会好。挑这一步就算是老司机也要费不少时间的哟。
幸运的是我们现在有【仙桃学术】助力,【挑】有很多工作可以【仙桃学术】来实现:如差异分析和差异基因是否预后意义。
写在前面:GEO数据库的GEO2R功能拯救了很多不会R语言的学员,我们大师兄深深感受到了大家的渴望,开发出了比GEO2R更友好的数据集检索&分析板块。真真强烈推荐!!!
复现步骤
1
进入仙桃学术→ 数据集检索(做自己的课题需要用自己的疾病/基因检索) → 挑选样本(可以随机选择样本哟) → 进入样本库 → 分组 → 进行差异分析。
2
点击说明 → 查看差异分析结果及图表会发现,GEO2R有的功能和图,【仙桃学术】都有,包括样本信息,标准化处理后展示,PCA图,UMAP图,差异分析结果情况,很香的火山图和热图。重重重点是:图具有【细节修改】这一友好功能。觉得图不够美观,点【细节修改】;想要展示自己筛选的基因,点【细节修改】。爽歪歪有没有!!!
3
Fig.2A火山图可直接使用,但美化下比较好:说明→细节修改或分析工具→数据集模块→火山图进入。GEO数据集相应的数据会在历史记录和【分析工具】的【数据集模块】展示,并助大家一臂之力,得到自己既想要又美观高大尚的图哟
4
Fig.2B 热图展示了所有差异基因,目前仙桃学术数据集模块最多可以展示200个差异基因,【表达差异(挑)】的复杂热图可展示600个差异基因;我们就以top600差异基因为例来调整热图。下载GSE50161差异分析结果和表达矩阵 → 查看正常样本位置,正常样本位置需放在前面 → 获取top600差异基因表达谱数据 → 制作复杂热图。
提取top600差异基因表达谱数据并设置复杂热图相应的参数
进入仙桃学术,选择差异分析(挑)→复杂热图 → 下载示例数据 →根据示例数据调整GSE50161数据(见上图)→ 可视化展示
5
对于Fig.2CD 我们有神操作哟,进入【仙桃学术】,选择差异分析→非配对样本分析→疾病选择TCGA-GBM(TPM数据)→点击确认,然后在说明文档【数据下载】→打开百度云超链接→下载TPM数据
TPM数据展示
下载的数据包括175个样本信息,有三种类型:原发性肿瘤,复发性肿瘤和正常样本,文中作者对于样本信息进行了筛选,只取原发性肿瘤和正常样本。
差异分析
多数分析工具和在线数据库(NetworkAnalyst)是对counts数据进行差异分析,所以对于TCGA FPKM和TPM数据进行差异分析还是绕不开R语言;解螺旋官网有很多R语言相关课程,在这里建议掌握简单的数据清洗;后续工作再在工具中进行。效率更高哟
TCGA-GBM差异分析我直接在R语言进行处理,差异分析结果展示(框中为我们后续分析需要的数据及上下调基因标识):
火山图制作
按照【仙桃学术】火山图制作要求,从TCGA-GBM差异分析数据中提取火山图所需数据;然后用分离工具里的【表达差异(挑)】→ 【火山图】进行作图
作图 & 展示
Fig.2D热图制作同Fig.2B.
6
Fig.2EF韦恩图制作:分别提取GSE50161和TCGA-GBM上下调基因 → 基础绘图 →韦恩图
上下调基因提取
韦恩图制作
方法一:Calculate and draw custom Venn diagrams(http://bioinformatics.psb.ugent.be/webtools/Venn/):以下调基因为例
缺点:下载后的数据所有的基因在同一列,不够体贴;韦恩图显示不全,需下载后调整。
方法二:仙桃学术;以上调基因为例,可以以同样的方式制作共表达下调基因韦恩图。根据韦恩图制作示例数据制作韦恩图所需数据:将GES50161上调基因和TCGA-GBM上调基因放在一个表格里即可。
韦恩图制作:仙桃学术支持制作6组数据集的韦恩图。直接用【仙桃】默认参数制作的韦恩图就很美观啦,不过为了配合作者的风格,我们对参数做了下调整,详细步骤标注在下图中。
我们在这里展示下共表达基因,这种格式显然比较舒服,后期提取共表达基因也会比较方便:复制黏贴就搞定了。
美美的Fig.2就完成啦!
Attention:TCGA前期数据处理借助于R语言比较好,建议学习一点数据清洗和差异分析的代码,需要的时候换下数据集就出来结果啦,其它的部分再用分析工具。
Fig.3 共表达基因GO/KEGG分析:
本图把得到的有统计学意义的差异基因,又分为上下调基因进行GO/KEGG分析,得到的图就会翻倍哟。一眼望去:图多,美容丰富。
复现步骤
上下调基因GO/KEGG分析为同样的方式,我们这里以上调基因为例
1
进入【仙桃学术】 → 【功能聚类(圈)】中的GO/KEGG富集分析 → 复制韦恩图中GSE50161和TCGA-GBM上调基因共表达基因至分子列表中,点击确认。参数里的【富集分析】一般选择默认,【全部GO/KEGG】已经最全了。
2
下载GO/KEGG分析结果 → 选择文献中展示结果 → 复制GO/KEGG ID
3
GO/KEGG可视化:必须做完GO/KEGG富集分析,才能做可视化,因为可视化用的是上一步GO/KEGG富集分析的结果。这步与上步不同的是,上步是获取上调基因富集到
了哪些生物过程,分子生物学功能,细胞学组分和通路。可视化是展示富集到的,我们想要的,感兴趣的和有价值的分析结果。可视化步骤详见下图:
注:GO是基因本体论联合会建立的一个数据库,旨在建立一个适用于各种物种的、对基因和蛋白功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。GO注释分为三大类,分别是:分子生物学功能(Molecular Function,MF)、生物学过程(Biological Process,BP)和细胞学组分(Cellular Components,CC),通过这三个功能大类,对一个基因的功能进行多方面的限定和描述。
4
我们以相同的方式获得KEGG-UP和GO/KEGG-DOWN可视化结果
Attention:Fig.3D作者放错图了,操作时要注意哈
Fig.4 共表达基因进行MCODE分析
这一步主要是通过STRING数据库和Cytoscape结合完成;早期我们需要在STRING数据库网页上传共表达基因后,导出数据到Cytoscape进行绘图和美化;现在不需要进去STRING数据库了,Cytoscape就可以直接获取STRING数据库的数据了,只需要安装STRING插件。此外建议安装下STRING 富集分析插件,这样的话GO/KEGG分析都可以在Cytoscape完成哟。
复现步骤
1
提取GSE50161和TCGA-GBM所有共表达基因(上调+下调)list →打开Cytoscape→network页面→STRING→STRING protein query→复制黏贴共表达基因→生成网络图
2
点击搜索后,会出现下面的对话框,这里主要是:a. 对有疑问的基因做一个选择;b. 可信度调整:0.4为中可信度,还可以根据自己的结果再在后面步骤中做调整。
3
上图中点击【Import】就出来下面漂亮的【STRING】元素的图啦。图中包含了很多信息,我们有设置Cytoscape的单元课,对Cytoscape感兴趣的童鞋可以系统学习;但通过以上三步也可以完成一张比较漂亮的图。
4
MCODE分析:这部分我们直接上图哈
5
Fig.4AB 选择第一个cluster→新建一个网络→调整参数
调整参数时,右侧框框中可以设置STRING数据库相应的参数,与在线数据局一样的,图片调整还会用到【layout tool】在下图的左下角,可以缩小和放大node的尺寸,以便获得更美观的图;图片中node太多时,比较好用。
对cluster 1所有基因进行功能富集
方法一:
直接在Cytoscape进行:选择所有的node → 右侧STRING参数框 nodes界面点击【功能富集】,确认后页面下方就会展示富集结果;这里不止是GO/KEGG结果,还会包括其它数据库的富集结果。
结果展示:
选择与文中一样的GO ID即可得到Fig.4B.
方法二:
获取cluster1(MCODE1)基因list :将MCODE1的nodes(基因)全部导出
仙桃学术:GO/KEGG分析;GO/KEGG可视化,方法同Fig.3 这里不再赘述
6
同样的方法获得Fig.4C-J
Fig.5 5个差异基因的生存分析结果
这就是我们常见的基因差异,单个基因在肿瘤和正常组织中表达有什么不一样很直观地展示出来;生存分析:作者选取的是四分位数,其它还有中位数、自定义比例,仙桃学术还有神仙操作:最小p值。
作者还就筛选到的5个基因进行GO富集分析。需要指出的是:目前就5个基因进行GO富集分析的在线数据库较少,但Metascape这个在线数据库可以。真真是:不管是黑猫白猫,能抓住老鼠的就是好猫。
复现步骤
差异分析和生存分析大家都比较熟悉了,这块我们直接上图哈
1
Fig.5 A-E (我们以ITGA5为例)
方法一
GEPIA (http://gepia.cancer-pku.cn/) 图片可直接用于发表,GEPIA这个数据库比较好用,相信大家也比较熟悉哈了,我们直接上图哈
1.差异表达
2.生存分析
方法二
仙桃学术(https://www.xiantao.love/products) 我们还是以ITGA5为例
1.差异分析
2. 生存分析
我们以同样的方式复现Fig.5 C-E
2
Fig.5 FG复现:
方法一
进入Metascape(http://metascape.org/gp/index.html#/main/step1)→三步走(加载基因list → 选择物种 → 进行分析)
分析结果展示和下载
方法二
cytoscape → STRING → 基因富集(但结果与方法一差别较大),重点是我们掌握一种新方法。
Fig.6 5个差异表达基因(mRNA)反向预测miRNA
复现步骤 (我们以PTX3为例)
1
miRTarbase(http://mirtarbase.cuhk.edu.cn/php/index.php)→ search内输入基因名→下载结果
Starbase(http://starbase.sysu.edu.cn/)→ miRNA-mRNA → 更改【target】
Starbase数据库界面友好,操作方便,比较推荐。
2
合并miRTarbase和Starbase数据库结果并保存
3
制作miRNA_target nodes表格和miRNA_target属性表格
4
Cytoscape→载入miRNA_靶基因和属性表格 → 生成网络并美化
Fig.7 用cytoscape插件cytohubba筛选与5个mRNA相关的miRNAs,并通过在线数据库Oncolnc分析筛选后的miRNA预后情况;→ 其中一个miRNA具有预后价值。
Cytoscape插件cytohubba是常用的筛选hub基因的一个插件,用起来很不错哟
Fig.7A 在Fig.6的基础上进行cytohubba筛选hub miRNA
1
首先选择目标网络(Fig.6)→ 点击【Calculate(计算)】→ 选择nodes(基因),可以像作者一样选择TOP9 miRNA(图片中选择TOP14是包括mRNA在内);也可以选择自己感兴趣的基因,在⑦【特定的nods】里输入自己感兴趣的基因 → 点击【submit】,即可获得hub 基因,并生成新的网络。
2
Hub基因显示为不同的颜色
3
选中top14 hub 基因,生成新的网络(Fig.7A),调整基因位置至美观(Fig.7A展示)
Fig.7B 复现
1
进入FIREHOSE(http://gdac.broadinstitute.org/)
2
点击GBM那一行的【browse】,即可进入GBM具体数据显示页面
3
在【view expression profile】输入has-9-5p,点击搜索小图标,进入has-9-5p分析页面
遗憾的是Has-mir-9-5p基因名称试了好多个都不行
4
我们用其它基因(如:EGFR)展示一下,首先我们看到了EGFR在泛癌中表达情况;点击【filter】显示紫色框框中选项;点击【select none】;选择【GBM】;点击【submit】。即可获得EGFR在GBM中的表达差异
5
EGFR在GBM中的表达差异展示
Fig.7C 复现
Oncolnc数据库页面非常简洁,我们进入后只需在框框中输入基因名称,点击【submit】即可进入基因在各个肿瘤中的情况列表
1
进入Oncolnc(http://www.oncolnc.org/)→输入hsa-9-5p → 提交
2
Has-9-5p在21个肿瘤中的表达情况和生存分析情况 → 找到GBM所在行 →点击【Yes Please!】→ 进入has-9-5p生存分析页面
3
首先会让输入高低组比例,我们输入50:50(即中位数)→点击【submit】即可显示Has-9-5p生存分析情况。
此处作者选的是中位数;也可以根据自己的数据自定义
Oncolnc数据库还很友好的列出了has-9-5p高表达组和低表达组的生存时间的状态。
Fig.8 由miRNA预测lncRNA,并用GEPIA数据库进行差异表达和预后分析 → lncRNA CRNDE 具有预后价值
Fig.8A复现:
作者通过Starbase和LncBase Predicted v.2两个数据库分别预测has-9-5p上游的lncRNA;然后取交集;进而筛选出更准确的lncRNA.
1
Starbase(http://starbase.sysu.edu.cn/)→ miRNA-lncRNA → 更改【miRNA】为has-mir-9-5p → 更改【target】为all → 点击【Quick Search】→ 点击【Download】下载数据
2
LncBase Predicted v.2(http://carolina.imis.athena-innovation.gr/diana_tools/web/index.php?r=lncbasev2%2Findex-predicted)→ 输入目标miRNA → 自动搜索并显示结果(简洁快速)→ 下载数据
3
两个数据库下载数据展示:
Lncbase数据库下载的数据不太友好,它把ensemble号与基因名放在一起了;不过好在excel有【分列】功能
分列获取基因名:选中【ensemble号与基因名】→ 点击菜单栏【数据】里的【分列】→ 【(】作为分列标识 → 获得 【Gene_ID】和【Gene_Name)】两列 → 用同样的方式对【Gene_Name)】进行分列处理 → 得到蓝色框框中【Gene_Name】列。大功告成。
4
方法一
Calculate and draw custom Venn diagrams(http://bioinformatics.psb.ugent.be/webtools/Venn/):
分别复制starbase和lncbase数据库基因list,并命名(左图);然后点击【submit】就可以获得韦恩图(右图)啦
方法二
仙桃学术(https://www.xiantao.love/products)
1. 整理数据:分别复制starbase和lncbase数据库基因list,黏贴进excel中
2. 选择仙桃学术-分析工具 → 基础绘图 → 韦恩图→上传Fig.8A数据 → 调整参数 → 点击【确认】→ 韦恩图就好啦
Fig.8BC复现 本部分复现方法详细步骤见Fig.5,此处我们直接上图
方法一
GEPIA(http://gepia.cancer-pku.cn/detail.php)
1.差异表达(同Fig.5)
2. 生存分析(同Fig.5)
方法二
仙桃学术(https://www.xiantao.love/products)
1.差异表达(同Fig.5)
2.生存分析(同Fig.5)
Fig.9 3个基因的单基因GSEA富集分析结果
Attention:相信做过GSEA的童鞋都受过GSEA数据制作的毒打,我也觉得很是麻烦,所以我们直接用【仙桃学术】哈。Fig.9A需要用Cytoscape。
复现步骤 (我们以PTX3为例)
1
单基因差异分析:生信工具_分析工具中的【表达差异挑(挑)】→【差异分析】→【单基因差异分析】→疾病选择【TCGA-GBM】→【分子】里输入“PTX3”,其他参数默认 → 点击【确认】→ 【结果】出显示分析结果。下载在历史记录里。
2
下载PTX3单基因差异分析结果&展示 → 提取PTX3 GSEA分析数据
3
PTX3 GSEA分析 和 数据下载&展示(操作方法及步骤同Fig.3)
4
PTX3 GSEA可视化(操作方法及步骤同Fig.3)
5
按照以上步骤复现Fig.9 B-D
6
提取GSEA富集分析结果 → 制作网络图(Cytoscape)(Fig.9A)
1. 提取三个基因富集分析结果
2. 准备网络表格:excel复制黏贴即可
3. 打开Cytoscape并导入网络表格(同Fig.4)
网络展示
注:Cytoscape仅支持同时上传两个node列
4. 在Cytoscape 网络图界面添加两个node(has-9-5p和CRNDE)并命名:在网络图中单击右键→【add】→【node】→ 选中添加的node →单击右键 → 【edit】→ 【renamed node】→ 【输入has-9-5p/CRNDE】
5. node table自定义一列type → 分别标注 CRNDE, has-9-5p,(PTX3/MMP9/STX1A),通路为lncRNA, miRNA, mRNA和pa(pathway)→ 在【style】里更改node颜色 → 调整nodes 位置,即可得到美美的Fig.9A啦。
Fig.10 根据三个基因预测治疗GBM的三个药物
复现步骤
1
Cmap(https://portals.broadinstitute.org/cmap),用三个基因预测药物
制作三个基因的signature:需要的是基因的探针ID
2
获取基因探针ID并制作grp文件:打开GSE50161 差异分析结果 → 发现有探针列和基因列 → 点击【查找和替换】并输入STX1A进行查找即可获得STX1A的探针值 → 同样的方式获得MMP9和PTX3的探针值 → 将三个基因的探针值按照上下调基因分别复制黏贴到两个新的excel,保存后把后缀改成“.grp”即可。
上下调基因grp文件展示
3
点击【Query】→【quick query】→ 根据网页提示上传上下调文件 → 点击【execute query(执行搜索)】→ 进入结果页面 → 点击【查看结果】会直接下载结果 → 打开文件 → 查找并标记作者选择的5个药物。
4
pubchem(https://pubchem.ncbi.nlm.nih.gov/)获取药物结构并展示,我们以Clemizole为例。
1. 文本框输入clemizol → 点击搜索图标 → 进入clemizol信息页面,第一个就是我们想要找的,点击进入 →
2. Clemizole详细信息页面,有pubchem CID(ID号),结构展示(作者向我们展示的是3D结构),分子式等
Bacitracin结构暂时没有,其它3个药物可以用相同的方式在pubchem数据库验证。
最后,我们来看下table,table的信息来自于图片,作者把同一个结果分别用图和表分别表示,花样展示数据。
Table1 即Fig.5 生存分析的结果
Table2 Fig6 cytohubba计算结果的排名及score
Table 3 药物预测结果展示 为Fig.10的补充
总结
1. 作者共使用了12个在线数据库和R语言来给我们展示了一篇具有丰富结果的ceRNA纯生信文章。从分析策略上来看,本文始终围绕着【挑圈联靠】进行,我们直接上图:
2. 整个流程下来,除了TCGA-GBM tpm数据差异分析,ceRNA基因预测和Cytoscape,其它部分【仙桃】均能实现,一站式搞定哟。
好啦!我们完美地复现了一篇ceRNA的文章,是不是没有想象中那么难了,快快行动起来吧。
还没有评论,来说两句吧...