238 积分	0 好友	16 主题

发消息

常用的生物信息学数据库（下）

发表于 2023-3-4 17:32:56 | 查看: 313| 回复: 0

Unigene、Gene和HomoloGene数据库的不同

Unigene：对大量EST数据整合分析产生的数据库，可获得基因的表达部位，时期，表达丰度等信息
Gene: 模式生物或基因组资源比较丰富的物种基因
HomoloGene：针对1-20个模式生物构建的数据库，可以找到某个基因在不同物种中的分布
如何获得某个物种的所有核苷酸序列？EST序列？基因列表？基因组是否测序完成？

所有核苷酸序列：到Genbank里选genome project 找对应的物种，再选择整条染色体，就可以获得该物种的所有核苷酸序列，比如小鼠X染色体上的：找mouse再找chromosome X
EST序列：到NCBI Web下载，打开官网，搜索需要的物种，可以看到EST结果，然后下载
基因列表：
基因组是否测序完成：
RefSeq与GeneBank/INSDC序列的不同？

①GeneBank:其中的数据记录由数据发现者提供，不是一个校正的数据库
RefSeq是基于NCBI和其他组织合作的校正的数据库，包括了官方的基因符号和可选符号
②GeneBank是一个多序列的存储池，对每个基因都含有许多序列
RefSeq是基因数据库，标准的为人类基因组的功能注解提供基础，数据库被设计为每个人类位点挑出一个代表序列来减少重复，是NCBI提供的矫正的序列数据和相关的信息。
SWISS-PROT和TrEMBL的不同。UniRef100，UniRef50是什么意思？

UniPort，包括了SWISS-PORT和TrEMBL两个数据库的内容，且与100多个数据库相互参照。
Swiss-Prot：蛋白质序列经过了人工检验和注释（金色图标）
TrEMBL：蛋白质序列是自动化翻译的结果（蓝色图标）
UniRef100：非冗余的UniProt蛋白质序列
UniPort50：聚类UniPort90中一致性超过50%且80%重叠的蛋白质，取最长的一条（序列数压缩79%）
可以让数据信息更加均一，去冗余，有利于研究
Protein、Pfam、CDD、PDB、KEGG这些数据库的功能

Protein：用来获取蛋白质序列
Pfam：是一个蛋白质家族数据库，包括蛋白质家族的注释以及通过隐马尔可夫模型产生的多条序列联配结果。
CDD：协作药物发现
PDB：蛋白质结构数据库
KEGG：包括大量酶和代谢，信号转导通路数据库
PDB：收录了通过实验数据获得的蛋白质和核酸及其复合体的三维结构
Literature、Genes、Proteins、Genomes、BLAST、Clinical、PubChem数据库的功能？

Literature：文献参考数据库
Genes：适用于基因组测序完成的物种
Proteins：蛋白质序列，三维结构和研究功能蛋白域和活性位点的工具
Genomes：提供了物种介绍和基因组测序方法，组装情况和注释信息情况等信息，如果想知道某个物种的基因组有多大，是否已经被测序，包含多少基因等信息，可以通过该数据库查询。（基因组序列装配，大规模的功能基因组数据，和生物样本的来源）
BLAST：专门用来与数据库中的序列做比对的
Clinical：很多临床试验数据
PubChem：化学信息、分子途径和生物活性筛选工具的数据库

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			注册会员