DAVID 进行 GO/KEGG 功能富集分析

摘要:
什么是功能富集分析?下图显示了GO和KEGGPathway的外观。根据DAVID的要求,基因总数不得超过3000个。红色框中显示的折叠框分别是GO和KEGG的分析结果。如下图所示,功能富集分析的结果中有多个折叠列,包括Gene_ Ontology中有三个列:GOTERM_BP_FAT、GOTERM_CC_FAT、GOTERM_MF_FAT是我们想要的GO功能富集分析结果。

何为功能富集分析?

功能富集分析是将基因或者蛋白列表分成多个部分,即将一堆基因进行分类,而这里的分类标准往往是按照基因的功能来限定的。换句话说,就是把一个基因列表中,具有相似功能的基因放到一起,并和生物学表型关联起来。

何为GO和KEGG?

为了解决将基因按照功能进行分类的问题,科学家们开发了很多基因功能注释数据库,。这其中比较有名的一个就是Gene Ontology(基因本体论,GO)和Kyoto Encyclopedia of Genes and Genomes(京都基因与基因组百科全书,KEGG)。

其中,GO是基因本体论联合会建立的一个数据库,旨在建立一个适用于各种物种的、对基因和蛋白功能进行限定和描述的、并能够随着研究不断深入而更新的语义词汇标准。GO注释分为三大类:分子生物学功能(Molecular Function,MF)、生物学过程(Biological Process,BP)和细胞学组分(Cellular Components,CC),通过这三个功能大类,对一个基因的功能进行多方面的限定和描述。

而KEGG,大多数人会将其当做一个基因通路(Pathway)的数据库,其实KEGG的功能远不止于此。KEGG是一个整合了基因组、化学和系统功能信息的综合数据库。KEGG下属4个大类和17个子数据库,而其中有一个数据库叫做 KEGG Pathway,专门存储不同物种中基因通路的信息,也是用的最多的一个,久而久之,KEGG被大家当做一个通路数据库了。

下面两个图展示了GO和KEGG Pathway的面貌。

DAVID 进行 GO/KEGG 功能富集分析第1张

DAVID 进行 GO/KEGG 功能富集分析第2张

如何做功能富集分析?

做功能富集分析的算法有很多,能够做功能富集分析的工具也非常多,见下面的列表

DAVID 进行 GO/KEGG 功能富集分析第3张

 Funrich 也可以做功能富集分析

以上的工具中,DAVID最为常用也最为权威。DAVID是由美国Leidos生物医学研究公司的LHRI团队开发的一个在线基因注释及功能富集网站(https://david.ncifcrf.gov/)

使用DAVID做功能富集分析

第一步

打开DAVID官网:https://david.ncifcrf.gov/

点击左侧功能菜单:Functional Annotation

DAVID 进行 GO/KEGG 功能富集分析第4张

 进入到如下的页面中,页面中的红框中就是进行分析所用的主要操作区域。

DAVID 进行 GO/KEGG 功能富集分析第5张

 第二步

进入分析页面后,通过如下三步即可完成分析:

提交基因列表 --> 选定提交列表类型 --> 开始分析

具体操作如下:

(1) 在 "Enter Gene List" 中上传基因列表,格式是每行一个基因。按照 DAVID 的要求,总的基因个数不得超过 3000 个。

(2) 在 “Select Identifier” 中选择上传的基因类型,因为我们上传的是基因名(Gene Symbol),所以在下拉菜单中选择 “OFFICIAL_GENE_SYMBOL”

(3) 在 “List Type” 中有两个单选框,我们统一选择 “Gene List” 这一项

(4) 点击 “Submit List” 即可

DAVID 进行 GO/KEGG 功能富集分析第6张

 点击 “Submit” 提交基因列表之后,经过几秒钟的等待,如果分析顺利,就会弹出下面一个提示(如下图所示):Please note that multiple species have been detected in your gene list. 这句话的意思就是在我们提交的基因列表中检测到多个物种,需要我们选择相应的物种。怎么选择物种?点击弹出框中的 “确定”,然后在 “List” 中的选择相应物种,这里我们选择 “Homo sapiens”,并点击下方的 “Select Species” 即可。

DAVID 进行 GO/KEGG 功能富集分析第7张

 DAVID 进行 GO/KEGG 功能富集分析第8张

第三步

操作完成后,就可以得到如下图所示的分析结果。红框所示折叠框中分别就是GO和KEGG的分析结果。

DAVID 进行 GO/KEGG 功能富集分析第9张

第四步

做完了分析,我们就来看看如何提取结果,并实现结果的可视化吧。

如下图所示,在功能富集分析的结果中有多个折叠栏,其中 Gene_Ontology 这一折叠栏中有有三个栏目:GOTERM_BP_FAT、GOTERM_CC_FAT、GOTERM_MF_FAT 就是我们想要的 GO 功能富集分析结果。而 Pathways 里面有一个 KEGG_PATHWAY 就是我们想要的结果。如何找到 BP、CC、MF 和 KEGG 对应的详细结果呢? 点击每个栏目后面的 “Chart” 即可。

DAVID 进行 GO/KEGG 功能富集分析第10张

 点击 “Chart” 之后,即可出现如下图所示的结果,这里面有几列数据分别是:Category、Term、RT、Genes、Count、%、P-Value 和 Benjamini。这几列中我们比较关心的是:Term(GO语义)、P-Value(P值)、Count(基因数)、%(基因比例)。后面我们要解决的问题是,如何将这些结果下载下来?点击红框中的 Download File 即可。打开一个新的网页,新打开的网页就是分析结果的文本文件,可以下载或者导入到作图软件中进行后续的操作。

DAVID 进行 GO/KEGG 功能富集分析第11张

 DAVID 进行 GO/KEGG 功能富集分析第12张

第五步 结果导出和可视化

DAVID 进行 GO/KEGG 功能富集分析第13张

阅读文献时,大家遇到最多的就是柱状图(一般是水平柱状图),柱子的高低与 P-value 相关,柱子越高则越显著。

高级气泡图用来表征富集分析的结果,x轴是 Gene Ratio,对应的就是 DAVID 结果表格中的 % 一列;y轴是富集出来的通路或者 GO Term;点的大小表示 Gene 数;点的颜色最为重要,代表 P值的高低。

免责声明:文章转载自《DAVID 进行 GO/KEGG 功能富集分析》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇linux下使用convert命令修改图片分辨率【转】css画图下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

[NewLife.XCode]百亿级性能

NewLife.XCode是一个有10多年历史的开源数据中间件,支持nfx/netcore,由新生命团队(2002~2019)开发完成并维护至今,以下简称XCode。 整个系列教程会大量结合示例代码和运行日志来进行深入分析,蕴含多年开发经验于其中,代表作有百亿级大数据实时计算项目。 开源地址:https://github.com/NewLifeX/X(求s...

oracle之检查点(Checkpoint)

检查点是一个数据库事件,它把修改数据从高速缓存写入磁盘,并更新控制文件和数据文件。检查点分为三类:1)局部检查点:单个实例执行数据库所有数据文件的一个检查点操作,属于此实例的全部脏缓存区写入数据文件。触发命令:svmrgrl>alter system checkpoint local;这条命令显示的触发一个局部检查点。2)全局检查点:所有实例(对应并...

【sql server镜像】SQL SERVER 基于数据库镜像的主从同步(数据库镜像实践汇总)

SQL SERVER 基于数据库镜像的主从同步 Author:chaoqun.guocreatetime:2019-03-26 1、概念 1.1、服务器概念 ◆ 主体服务器(Principal Server) 其中一个实例为客户端提供服务,这个实例称为"主体服务器"。该服务器"扮演"主体角色",其数据库副本为当前的"主体数据库"。 ◆ 镜像服务器(Mirr...

【技术贴】java插入mysql中文乱码解决|java插入mysql数据库显示问号?

【技术贴】java插入mysql中文乱码解决|java插入mysql数据库显示问号? 在你要连接到mysql 的代码里写上?useUnicode=true&characterEncoding=UTF-8" 比如 "jdbc:mysql://localhost:3306/chenluancl1?useUnicode=true&characte...

对“空间数据库”的理解

空间数据库和非空间数据库有什么区别? 反正都是关系型数据库不是? 它们存储的数据有哪些相同与不同?  相同点是它们都是数字,而且也都是关系型数据,不同点是查询上的区别 所以说空间数据库是数据库的一个分支,是在原来的数据库原理的基础上开发出来的,所以保留了数据库的一般特性 正是由于数据上的不同,导致它们的应用上的差别,带有地理坐标的特性,具有空间位置、空间属...

数据库——单表查询、多表查询的常用关键字

数据库——单表查询、多表查询的常用关键字 一 单表查询 1、前期表与数据准备 # 创建一张部门表 create table emp( id int not null unique auto_increment, name varchar(20) not null, sex enum('male','female') not null defau...