迈杰转化医学研究(苏州)有限公司

杰论系列 | 上车!生信小白零代码也能在公共数据库挖掘差异表达基因
来源: 时间:2024-07-25
GEO(Gene Expression Omnibus)数据库由美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)建立。该数据库存储了全球范围内科研工作者上传的高通量数据的初步分析结果,包括微阵列芯片、转录组二代测序表达量文件,甲基化结果文件等。GEO的结果文件可以免费下载,是进行数据挖掘的理想数据库。本文中,迈杰生信老司机将带你在GEO数据库中零代码挖掘差异表达基因并进行通路富集分析。

GEO数据库网址为https://www.ncbi.nlm.nih.gov/geo/,我们可以在数据库中搜索符合条件的数据集。我们以“lung cancer”为例(图1):

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_30.jpg

图1:GEO主页


点击 Search 后进入搜索结果页面(图2),左侧可以对搜索结果进行进一步过滤, Organism 可以指定物种名称,本次我们选择Homo sapiens;Study type可以指定数据的类型,如基因表达量数据,甲基化数据,基因变异数据等,本次我们选择基因表达量数据“Expression profiling by array”和“Expression profiling by high throughput sequencing”; Author 可以指定数据集的上传作者; Attribute name 可以指定样本为组织或细胞系等类型; Publication dates 指定数据上传的时间范围。点击每个过滤项底部的 Customize .. 对相应的选项进行条件添加,条件显示在数据库后,再次点击该条件,使其显示√,表明目前搜索结果已进行该条件过滤。


20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_32.jpg

图2:GEO搜索界面

搜索结果中,每一个结果内容代表一个数据集,点击可查看该数据集详细的实验及测序处理信息。若一个数据集展示了 Analyze with GEO2R 字样,表明该数据集支持在线分析差异表达基因,为我们需要的数据集。若无该标记,表明该数据不支持在线分析,需要下载结果后由生信人员自行处理

本次我们选择GSE237935数据:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE237935。

进入界面后, Platforms 处表明该数据集使用了illumina NovaSeq 6000进行测序。 Samples 处展示了数据集每个样本的GEO数据库ID和样本名称,点击ID可进一步查看该样本信息,如细胞系名称,样本的实验处理方式,测序数据的处理步骤等(图3)。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_34.jpg

图3:GSE237935数据集测序平台和样本信息


我们找到Analyze with GEO2R按钮(图4),点击进行差异分析:

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_36.jpg

图4:GEO2R分析按钮

在分析页面我们首先创建需要进行比较的组别,我们点击 Define groups 处,创建siCTL组和siG4组。随后依次点击每行数据集,再点击对应的组别,使该样本 Group 列显示该样本的组别名称。在 Options 处选择差异分析的校正方法,一般默认为Benjamini & Hochberg (False discovery rate)。设置P值和Log 2 fold change值,P值通常为0.05,Log 2 fold change值为两组数据基因表达量的差异倍数取2的对数,通常≥1(图5)。当一个基因在两组数据的表达量的P值小于0.05,且大于设置的Log 2 fold change值,则认为该基因在两组数据的表达量存在显著差异。此处选项是为后续差异分析作图进行基因筛选。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_38.jpg

图5:分析参数设置


设置完成后,点击 GEO2R 处的 Analyze ,开始分析(图6)。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_40.jpg

图6:点击按钮开始分析


分析完成后,可得到差异表达分析列表以及火山图,主成成分图,韦恩图等结果。差异表达结果中, GeneID 列为该基因的NCBI ID,padj为校正后的P值,只显示小于我们设置(0.05)的结果, Symbol 为基因名称。点击Download full table 可下载全部的分析表格结果(图7)。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_42.jpg

图7:差异分析在线结果

将结果拷贝至EXCEL,使用筛选功能进行padj<0.05和log2FoldChange≥1筛选,得到最终的差异表达基因。

我们使用Metascape( http://metascape.org/gp/index.html#/main/step1) 对差异表达基因进行富集分析。Metascape是一个在线富集分析的网站,整合了GO、KEGG、UniProt和DrugBank等多个数据库,且操作简便。


进入网站后,可以上传基因列表,或直接将基因列表粘贴后递交。基因列表格式为一个基因名称一行。也可以在右边绿色方框处下载示例文件进行测试(图8)。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_44.jpg

图8:Metascape 分析界面


Step1 处上传或粘贴基因列表后,点击Submit 按钮。在Step2 处选择对应物种,本次我们选择H.sapiens。在Step3 处点击Express Analysis 按钮开始分析(图9)。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_46.jpg

图9:分析参数设置

分析完成后点击 Analysis Report Page 查看分析结果(图10)。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_48.jpg

图10:点击开始分析

分析结果网页展示了Metascape的结果图片及表格,包括了GO富集分析,Pathway富集分析,PPI蛋白网络互作分析等多种分型结果,点击 All in One Zip File 可下载全部的分析结果(图11)。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_50.jpg

图11:分析结果页面


下载的结果中包含以下文件(图12)
metascape_result.xlsx:分析结果的汇总表格,包含了每个基因的功能注释以及通路的富集分析结果。
AnalysisReport.pptx:分析结果的PPT,易于使用者进行分析展示。
AnalysisReport.html:分析结果的网页展示模式。
README.txt:分析结果的介绍文件,打开可以查看每个分析结果文件的意义。
压缩包中的文件夹为每种分析的具体分析文件。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_52.jpg

图12:下载的结果文件


至此,我们零代码完成了从公共数据挖掘差异表达基因并进行功能富集分析的全部步骤。

相关资讯