杰论系列 | 上车！生信小白零代码也能在公共数据库挖掘差异表达基因-迈杰转化医学

杰论系列 | 上车！生信小白零代码也能在公共数据库挖掘差异表达基因

来源：时间：2024-07-25

GEO（Gene Expression Omnibus）数据库由美国国立生物技术信息中心（National Center for Biotechnology Information，NCBI）建立。该数据库存储了全球范围内科研工作者上传的高通量数据的初步分析结果，包括微阵列芯片、转录组二代测序表达量文件，甲基化结果文件等。GEO的结果文件可以免费下载，是进行数据挖掘的理想数据库。本文中，迈杰生信老司机将带你在GEO数据库中零代码挖掘差异表达基因并进行通路富集分析。

GEO数据库网址为https://www.ncbi.nlm.nih.gov/geo/，我们可以在数据库中搜索符合条件的数据集。我们以“lung cancer”为例（图1）：

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_30.jpg

图1：GEO主页

点击 Search 后进入搜索结果页面（图2），左侧可以对搜索结果进行进一步过滤， Organism 可以指定物种名称，本次我们选择Homo sapiens；Study type可以指定数据的类型，如基因表达量数据，甲基化数据，基因变异数据等，本次我们选择基因表达量数据“Expression profiling by array”和“Expression profiling by high throughput sequencing”； Author 可以指定数据集的上传作者； Attribute name 可以指定样本为组织或细胞系等类型； Publication dates 指定数据上传的时间范围。点击每个过滤项底部的 Customize .. 对相应的选项进行条件添加，条件显示在数据库后，再次点击该条件，使其显示√，表明目前搜索结果已进行该条件过滤。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_32.jpg

图2：GEO搜索界面

搜索结果中，每一个结果内容代表一个数据集，点击可查看该数据集详细的实验及测序处理信息。若一个数据集展示了 Analyze with GEO2R 字样，表明该数据集支持在线分析差异表达基因，为我们需要的数据集。若无该标记，表明该数据不支持在线分析，需要下载结果后由生信人员自行处理。

本次我们选择GSE237935数据：

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE237935。

进入界面后， Platforms 处表明该数据集使用了illumina NovaSeq 6000进行测序。 Samples 处展示了数据集每个样本的GEO数据库ID和样本名称，点击ID可进一步查看该样本信息，如细胞系名称，样本的实验处理方式，测序数据的处理步骤等（图3）。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_34.jpg

图3：GSE237935数据集测序平台和样本信息

我们找到Analyze with GEO2R按钮（图4），点击进行差异分析：

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_36.jpg

图4：GEO2R分析按钮

在分析页面我们首先创建需要进行比较的组别，我们点击 Define groups 处，创建siCTL组和siG4组。随后依次点击每行数据集，再点击对应的组别，使该样本 Group 列显示该样本的组别名称。在 Options 处选择差异分析的校正方法，一般默认为Benjamini & Hochberg (False discovery rate)。设置P值和Log 2 fold change值，P值通常为0.05，Log 2 fold change值为两组数据基因表达量的差异倍数取2的对数，通常≥1（图5）。当一个基因在两组数据的表达量的P值小于0.05，且大于设置的Log 2 fold change值，则认为该基因在两组数据的表达量存在显著差异。此处选项是为后续差异分析作图进行基因筛选。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_38.jpg

图5：分析参数设置

设置完成后，点击 GEO2R 处的 Analyze ，开始分析（图6）。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_40.jpg

图6：点击按钮开始分析

分析完成后，可得到差异表达分析列表以及火山图，主成成分图，韦恩图等结果。差异表达结果中， GeneID 列为该基因的NCBI ID，padj为校正后的P值，只显示小于我们设置（0.05）的结果， Symbol 为基因名称。点击Download full table 可下载全部的分析表格结果（图7）。

20210705143929001060/resource/images/e9fc68abcdcb4c92904e1baf57f77415_42.jpg