2021年最新4+非肿瘤生信套路,只要有数据集,我就可以发篇SCI给你看!(附完

  分分钟搞定4分+非肿瘤生信文章

  大家好,我是浮浮~好多小伙伴们反馈希望增加非肿瘤文献的复现操作,那么今天我就用仙桃工具带大家复现一篇干细胞成骨相关的生信文章“Bioinformatics analysis of the biological changes involved in the osteogenic differentiation of human mesenchymal stem cells”,该文章于2020年11月发表在Int J Mol Med上,最新影响因子4.1分,下面我们一起来看看这篇文章都做了什么吧。

  

  期刊简介

  

  复现任务

  先来梳理一下全文。本文一共2表6图,以生信分析为主,辅助表型功能相关的实验进行简单验证,下面梳理一下本文的展开逻辑思路:

  图1| 筛选对照组与成骨对照组中的差异基因

  

  图2| 对上调和下调的基因进行GO富集分析

  

  图3| 对表达差异的基因构建PPI蛋白互作网络,查看蛋白之间的互作关系,并且找到hub基因

  

  图4| HPA数据库和Bgee数据库显示Hub基因在人体组织中的表达情况

  

  图5| 对Hub基因进行功能富集

  

  图6| WB、免疫荧光、茜素红和ALP染色验证成骨功能

  

  表1| hub基因信息

  

  表2| hub基因富集结果列表

  可以看到,本文工作量并不大,两张表也都是生信分析过程中的“副产品”,其实完全可以放到补充材料中的;实验部分验证的其实和生信分析的基因没有很强的相关性,并没有验证Hub基因在成骨过程中的重要性。不过本文整合了三个GEO的数据集,进行了非肿瘤的生信分析,虽然工作量少,但是进行了“降维打击”,如果是肿瘤领域,这些工作量肯定发不过3分的。好啦,话不多说,我们一起来看看如何复现这篇文章吧。

  文章复现

  本文使用了GSE12266,GSE18043和GSE37558三个GEO数据集,由于GSE12266和GSE18043已经收录到仙桃工具中,并且两个数据集都是GPL570平台,我们就用这两个数据集演示如何利用仙桃,快速、简便地合并相同平台的数据集进行分析。

  图1| 筛选对照组与成骨对照组中的差异基因

  首先进入仙桃学术主页:https://www.xiantao.love/

  点击“数据集检索”

  

  在检索框中数据数据集ID,点击“检索”

  检索到样本后,点击右下角“选择样本”,选择自己想纳入的样本,然后将样本“添加到样本库”

  

  这里再简单介绍一下数据集的搜索功能,在网页左侧有筛选条件:

  

  如图所示,目前可以对物种、数据类型(芯片还是测序)、数据集中纳入的样本数量进行筛选;GEO2R分析是指官网的分析,比如GSE12266,右下角会显示“GEO2R”,点击后会直接跳转到GEO官网:

  

  后续步骤就是在GEO官网上进行操作。

  最后还可以根据样本库是否收录进行筛选。如果小伙伴们想要使用仙桃工具进行后续分析,可以筛选我们目前已经收录的数据集。我们的程序员小哥哥还在日夜赶工,争取早日收录更多平台的数据集,大家不要着急,敬请期待啦~

  同样的方法将GSE18043中的样本加入样本库中,然后点击左侧“进入我的样本库”

  

  进入样本库后,选择相应的样本设置分组。这里分组与GEO官网类似,但是要更加直观,直接设置“参考组”和“实验组”,防止弄反。

  

  设置好分组后直接“提交分析”,高级版每日有20次提交分析限制,基础版和免费版每日使用次数减少。

  

  我们可以直接下载校正前后的箱式图、PCA、UMAP图,以及火山图和热图。这里无法更改配色信息,我们可以下载表达谱、样本信息、表达差异(CSV表格和TXT)数据,然后在仙桃工具中进行绘图。

  

  能够直接看到火山图和热图,这样图1我们就复现好了。

  

  

  这里的火山图和热图其实也满足了大多数杂志发表的要求,里面显示的内容也可以下载后在AI或者PS中进一步完善。不过我们已经可以下载所需要的数据,也可以直接在仙桃工具中进行绘图。

  火山图示例整理

  根据表达差异文件就可以轻松整理火山图需要的数据

  这里是下载的表达差异文件

  

  整理好的火山图数据文件。我们可以看到,只需要复制Gene.Symbol、logFC、pvalue、padj然后依次粘贴即可

  

  

  复杂热图示例整理

  复杂热图数据的整理比火山图稍微复杂了一点,但是也都是可以通过复制粘贴实现的。

  根据“表达谱”文件整理“热图”子文件

  “表达谱”文件

  

  整理好的“热图”子文件

  

  根据“样本表格”文件整理“上注释”子文件

  “样本表格”文件

  

  整理好的“上注释”子文件,这里可以将group中的中文替换为英文

  

  按照分组情况重新编辑注释信息

  

  后面内容如果没有空着就可以。上传数据,点击“确认”,我们就能够得到如下热图:

  

  可以通过仙桃的拼图工具将火山图和热图拼在一起,这个在之前推文中也提过很多次了,我在这里就不赘述了。

  图2| 对上调和下调的基因进行GO富集分析

  接下来我们看图2,分别对上调和下调的基因进行GO富集分析。文献原文中使用了Metascape数据库进行分析,操作也很简单,在线分析、可视化,结果可以进行打包下载,我们就不过多介绍了,感兴趣的小伙伴可以去试一试。

  在这里,我们使用仙桃工具来达到相同的效果,并且能获得更加好看、个性化的图片,一起来看看吧。

  在表达差异文件中,筛选,logFC>1作为上调的基因集;logFC

  

  我们这里以上调的基因集为例,这里获得37个基因的列表

  进入生信工具,在左侧的功能聚类板块中选择GO|KEGG下拉项目中的“GO|KEGG富集分析”模块,然后在右侧参数栏的分子列表中,粘贴基因列表,点击“确认”进行分析

  

  保存结果进行后续可视化分析

  

  选择左侧“GO|KEGG可视化”,然后在“云端数据”中选择刚才保存的结果,参数可以设置为气泡图,点击“确认”可以直接出图

  

  

  是不是要比原文中的更加丰富、美观呢?这张图中涵盖了GO和KEGG分析,默认分别展示前三项结果。有的小伙伴想要将GO和KEGG分别展示,或者自己选择展示项目,这个应该如何操作呢?

  其实也很简单,在参数设置中,有一项“基本参数”,里面可以更改“ID List”,大家在这里输入想要展示项目的ID,即可更改显示内容。注意:这里输入的ID和选择的云端数据要对应,如果云端数据中不存在,那么也不会显示的。

  图3| 对表达差异的基因构建PPI蛋白互作网络,查看蛋白之间的互作关系,并且找到hub基因

  图2就复现完成啦,我们继续进行图3的复现。这是PPI网络图,我们点击生信工具中交互网络(联)的部分,选择“STRING蛋白互作”下拉中的“PPI蛋白互作分析”

  

  在右侧“参数”的“分子列表”中将上调和下调的差异基因一起输入进去,点击“确认”进行分析

  

  这样就得到了差异基因之间的分子相关的数据,下载结果到本地

  

  点击进入“高级网络图”模块

  

  根据刚才PPI互作网络结果和之前表达差异结果,按照高级网络图的数据格式进行整理,可输入分类信息,即上调、下调基因

  

  

  上传数据,验证成功后点击“确认”。在参数中可以选择网络图的类型

  

  

  在参数设置中可以调整形状、颜色等参数,具体功能也可以查看帮助文档,这里就不详细说明了。接下来是分别找上调和下调基因中的hub基因,仙桃工具目前还不能实现,这步我们使用cytoscape进行绘制

  

  原文分别分析了上调和下调基因的PPI互作网络,寻找Hub基因。在这里,我直接使用刚才仙桃工具得出的结果,将所有差异基因相互作用情况上传到cytoscape中,使用MCODE插件寻找Hub基因

  

  cytoscape的使用教程可以在解螺旋官网上面找到免费的教程,还有相应的训练营,这里就不详细介绍了。

  图4| HPA数据库和Bgee数据库显示Hub基因在人体组织中的表达情况

  接下来作者又在数据库中对比了Hub基因在骨组织和脂肪组织中的表达量。我们一起来看下这张图如何进行复现

  登录HPA(Human Protein Atlas)数据库(https://www.proteinatlas.org/),可以直接在检索框分别检索Hub基因

  

  在检索结果中点击“Tissue”

  在新的页面下拉,能够看到该基因在各个组织中的表达情况,鼠标移到柱状图上,能够看到表达量。同样的方法将所有Hub基因的表达量汇总,绘制柱形图即可

  

  作者又使用Bgee数据库(https://begg.org/)进行Hub基因表达量的比较。进入数据库点击“Gene search”

  界面很简洁,直接在检索框中输入基因名即可

  我们仍然以NUSAP1为例,找到在骨组织、软组织等的表达量,用相同的方法汇总其他Hub基因的表达值,即可绘制原文所示的柱状图

  

  下面就到了图5,作者对Hub基因再次做了富集分析,这步其实和之前的富集操作是一样的,我们也不再重复了。

  图6| WB、免疫荧光、茜素红和ALP染色验证成骨功能

  最后一张图是实验验证,这里作者做的不是很好,前面已经提到过了,这部分实验其实和生信结果关系不是很大,也没有联系到差异基因,不是很推荐增加这样的实验。其实如果作者在这张图中再增加一个Hub基因在成骨过程中的表达差异的qPCR结果,那么这个验证会更好。如果再继续延伸,可以敲低/过表达Hub基因,观察对成骨功能的影响。

  非肿瘤领域的生信分析模块简单,可以实现“降维打击”,表达差异+富集分析都可以发到4+,小伙伴们还在等什么,抓紧时间复现吧~祝大家能够早日发表自己的SCI。

  欢迎大家关注解螺旋生信频道-挑圈联靠公号~

  —END—

  撰文丨水主沉浮

  排版丨四金兄

  主编丨小雪球