UFO中文网

 找回密码
 注册会员
查看: 162|回复: 0
收起左侧

常用的生物信息学数据库

[复制链接]
online_member 发表于 2023-3-4 17:25:18 | 显示全部楼层 |阅读模式
1、常用生物信息学数据库的介绍和使用方法

一级数据库:储存原始的基础生物数据资源:核苷酸数据库;基因组数据库
蛋白质数据库:序列数据库;结构数据库
二级数据库:在初级数据库和相关文献等数据基础上经加工和增加相关信息,构建具有特殊生物学意义和专门用途的数据库。
如:真核生物启动子序列库(EPD);蛋白质一般结构或功能域数据库(PROSITE)
2、核苷酸数据库、蛋白质数据库、文献数据库、其他数据库、数据提交

核苷酸数据库:GenBank(美国),ENA(欧洲),DDBJ(日本)
蛋白质数据库:Uniport(序列数据库),PDB(结构数据库)
文献数据库:PubMed(文献摘要数据库),Agricola
其他数据库:KEGG(代谢途径数据库),MetaLights(代谢组学数据库)
数据提交:①打开GenBank页面,submissions,用sequin批量提交或Bankit在线提交少量数据,然后立刻收到临时编号,2天内会受到Accession number
②UniPortKB:只接受蛋白质测序方法直接测得的数据
③大规模数据需要用邮件联系
3、数据库文件格式:FASTA、GenBank flatfile、EMBL等序列格式

FASTA:分为两部分:首行,即描述行,以>为起始,后跟这段序列的描述信息(可选)
原始序列,即首行之后的信息
FSATAQ:四行来表示,多了序列的质量信息
   第一行包含数列的名称等其他描述信息,以@开头
   第二行为序列的具体信息
   第三行与第一行内容相同,以+开头,+后面的内容可省略
   第四行为序列的质量信息,与第二行碱基序列一一对应
GenBank flatfile(GBFF):为GenBank数据库使用的格式记录
分为三个部分:①描述符信息:包括了整个记录的相关信息,比如位置,定义,检索号等
②注释信息:描述基因和基因产物以及序列相关的生物学特征,对该序列的mRNA,CDS等进行描述。
    ③序列部分:核苷酸序列本身,末尾的//是结束符
EMBL:内容与GenBank flatfile相同,只不过每一行的起始会有两、三个字符的缩写
4、EST、STS、GSS、HTGS、WGS、PAT、TPA、TSA、ENV、SYN等分类,相应功能有何不同?

注释信息丰富:ENV:环境混合微生物得到的序列,比如肠道微生物
SYN:人工合成序列,包括引物,载体,人工合成的密码子优化的序列
只是单纯的序列:
EST:表达序列标签:mRNA上的勘测序列,没有功能注释,但可用于注释基因的结构,评估基因的表达量以及挖掘基因变异等
STS:序列标签位点:每一个STS包含一对引物,用于作为一个标记,将基因组中的大片段进行排序,有助于组装基因组
GSS:基因组勘测序列:来源于基因组DNA,是基因组短序列,用于获得对所要研究基因组的初步了解,是设计标记的源泉。
HTGS:高通量基因组序列:逐步克隆法基因组测序过程中产生的过渡数据。
WGS:全基因组鸟枪法测序序列:全基因组鸟枪法测序过程中产生的数据
TSA:转录组鸟枪法测序拼接位点:通过组装多条EST或转录组测序获得的片段(只能是你产生的序列,你自己来拼接,否则就是TPA)
非实验获得,只能由原始序列的研究者递交
PAT:已申请专利的序列:
TPA:第三方提供注释,可以是一条已知序列的一部分或多条序列经软件拼装得到的
5、Contigs与Scaffolds的区别

Contigs(重叠群):拼接出来的比较完成完整的不含有N的序列
Scaffolds:中间含有N的长片段(中间序列不知道时)
Contigs N50:评价基因组组装质量的指标,将序列从上至下,从长到短排序,排序序列/总序列=50%,长度加到总长的50%
拼接质量越好,N50越长。
您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

UFO中文网

GMT+8, 2024-5-20 08:51

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表