数据库

genebank拥有多少万个碱基？

发布时间：2024-12-26 18:57

访问量：0

来源：破盾编程

一、genebank拥有多少万个碱基？

GenBank数据库是1982年由美国国立生物技术信息中心(NCBI)建立并维护的综合性序列数据库。大约每2个月会更新一次版本，截止到2004年9月最新的版本是Release143，共有37，343，937 条序列纪录，大约包含了来源于约140，000个物种的41，808，045，653个碱基。所有数据记录被划分在若干个文件里，如细菌类、病毒类、灵长类、啮齿类，以及 EST 数据、基因组测序数据、大规模基因组序列数据等 16 类，其中 EST 数据等又被各自分成若干个文件。它的数据直接来源于测序工作者提交的序列；由测序中心提交的大量EST序列和其它测序数据；以及与其它数据机构协作交换数据。Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库，和日本的DNA数据库(DDBJ)交换数据，使这三个数据库的数据同步。

实验工作人员使用GenBank的功能之一就是通过GenBank提供的2个软件工具把本实验的研究序列提交到数据库中从而获取序列号，这样发表文献时便于引用，成为学术界承认的实验工作样品，从而其他人可以重复实验，现在权威的刊物都需要提供序列的存储编号。这2个工具的地址在http://www.ncbi.nlm.nih.gov/Sequin/，http://www.ncbi.nlm.nih.gov/BankIt/

BankIt是一系列表单，包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后，会从电子邮件收到自动生成的数据条目，GenBank的新序列编号，以及完成注释后的完整的数据记录。用户还可以在BankIt页面下修改已经发布序列的信息。BankIt适合于独立测序工作者提交少量序列，而不适合大量序列的提交，也不适合提交很长的序列，EST序列和GSS序列也不用BankIt提交。BankIt使用说明和对序列的要求可详见其主页面。

大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释，并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列，可以加入比对的数据。Sequin除了用于编辑和修改序列数据记录，还可以用于序列的分析，任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。在不同操作系统下运行的Seq

二、genebank怎么把线性序列换成环形序列？

打开snap gene后台设置，点击系统更改，把线性改为环状，确认更改

三、什么是基因的fasta序列和genebank？

根据资料可知：GenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的，用于数据库查询。

FASTA就是简单的碱基序列。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。GenBank中最常用的是序列文件。序列文件的基本单位是序列条目，包括核苷酸碱基排列顺序和注释两部分。目前，许多生物信息资源中心通过计算机网络提供该数据库genbank库FASTA格式序列。

四、如何根据基因genebank序列号查找序列？

有基因序列号,你就可以直接上genebank下载其序列,下载到全序列,你需要扩增的CDS区,也就是编码区,可以全外显子扩增,这样简单一点,也可以做cDNA克隆,然后再做,前者的话就可以直接根据其基因序列NG号设计引物,如果是做CDNA的话就根据其mRNA的序列NM号设计引物.

你是根据其cDNA设计的引物,你需要下提取mRNA,然后反转录成cDNA,才能够扩增出来.如果是根据其基因序列设计的,你需要先将你的目的序列定位到GENE上,然后设计引物

五、如何将基因序列上传到Genebank？

有两中方法可以提交你的序列：1、进入NCBI网站，左侧有sequence submissions ，点击进入Submit to GenBank利用BankIt在线投递，特点是比较方便，你按照程序的说明一步步跟着操作就可以了，满简单的。

2、从NCBI的ftp上下载提交序列的软件sequin,利用软件进行提交。

NCBI的ftp地址是ftp.ncbi.nih.gov如果只提交单条序列，可以到NCBI站点用方法1直接提交。

如果批量提交很多条序列，建议用sequin软件，这样更具有效率。

六、如何通过已知ID在Genebank上查找基因序列？

通过ID或蛋白名字，进入NCBI 核酸数据库，即可找到对应基因，里面有cds的序列，注意选好物种！希望对你有帮助！

七、如何建立数据库，利用什么软件建立数据库？

啥叫数据库？excel也可以算，access也可以算，mysql也可以算，hbase也可以算，你要数据库干啥，决定了你怎么搭建数据库。

八、数据库设计?

本文档明确数据库设计原则和规范，规范数据库对象命名方式，见名知意，强化分工，保证数据库高效稳定运行

1 数据库设计原则

1) 充分考虑业务逻辑和数据分离，数据库只作为一个保证ACID特性的关系数据的持久化存储系统，尽量减少使用自定义函数、存储过程和视图，不用触发器。

2) 充分考虑数据库整体安全设计，数据库管理和使用人员权限分离。

3) 充分考虑具体数据对象的访问频度及性能需求，结合主机、存储等需求，做好数据库性能设计。

4) 充分考虑数据增长模型，决策是否采用“分布式（水平拆分或者垂直拆分）”模式。

5) 充分考虑业务数据安全等级，设计合适的备份和恢复策略。

2 设计规范

2.1 约定

1) 一般情况下设计遵守数据的设计规范3NF，尽量减少非标准范式或者反模式使用。

3NF规定：

Ø 表内的每一个值都只能被表达一次。

Ø 表内的每一行都应该被唯一的标识（有唯一键）。

Ø 表内不应该存储依赖于其他键的非键信息。

常见关键字（不得直接作为相关命名）：range、match、delayed、select、and、from、where、not、in、out、add、as、user、name、key、index、type、group、order、max、min、count、concat、by、desc、asc、null等等，更多请参考 MySQL 官方保留字。

2) 数据库和表的字符集统一：字符集（utf8mb4），排序规则（utf8mb4_general_ci）

2.2 表设计规范

1) 应该根据系统架构中的组件划分，针对每个组件所处理的业务进行组件单元的数据库设计；不同组件间所对应的数据库表之间的关联应尽可能减少，确保组件对应的表之间的独立性，为系统或表结构的重构提供可能性。

2) 采用领域模型驱动的方式和自顶向下的思路进行数据库设计，首先分析系统业务，根据职责定义对象。对象要符合封装的特性，确保与职责相关的数据项被定义在一个对象之内，不会出现职责描述缺失或多余。

3) 应针对所有表的主键和外键建立索引，有针对性地建立组合属性的索引。

4) 尽量少采用存储过程。

5) 设计出的表要具有较好的使用性。

6) 设计出的表要尽可能减少数据冗余，确保数据的准确性。

2.3 字段规范

1) 一行记录必须表内唯一，表必须有主键。

2) 如果数据库类型为MYSQL ，应尽量以自增INT类型为主键。如果数据库类型为ORACLE，建议使用UUID为主键。

3) 日期字段，如需要按照时间进行KEY分区或者子分区，则使用VARCHAR2类型存储，存储格式为：YYYYMMDD 。如若不需要以KEY形式作为分区列，则使用DATE或者DATETIME类型存储。不建议使用时间戳存储时间。

4) 字段名称和字段数据类型对应，如DATE命名字段，则存储时间精确到日，如TIME命名字段，则存储时间精确到时分秒，甚至毫秒。

2.4 命名规范类

2.4.1 约定

1) 数据库对象命名清晰，尽量做到见名知意，在进行数据库建模时备注对象，便于他人理解。

2) 数据库类型为MYSQL,采用全小写英文单词

3) 数据库类型为ORACLE，则使用驼峰式命名规范

4) 数据库对象命名长度不能超过30个字符

3 管理范围

管理数据库中所有对象，包括库，表，视图，索引，过程，自定义函数，包，序列，触发器等

3.1 建库

1) 数据库名：采用小写英文单词简拼或汉字小写拼音,多个单词或拼音采用下划线"_"连接

2) 数据库编码规则及排序规则：字符集（utf8mb4），排序规则（utf8mb4_general_ci）

3) 建库其他要求：库名与应用名称尽量一致

3.2 建表

表名应使用名词性质小写英文单词。如果需要单词词组来进行概括，单词与单词之间使用英文半角输入状态下_连接。如果超长，则从前面单词开始截取，保留单词前三位，保留完整的最后一个单词，如果依然超长，则保留前面单词首字母，直接和最后一个单词连接；临时表命名以TMP开头，命名格式为TMP_模块/用途名称_名字拼音首字母；表名不能直接采用关键字命名

1) 表命名：采用“业务名称_表的作用”格式命名（例如：alipay_task / force_project / trade_config）

2) 建表其他要求：表名长度不能超过30个字符；一定要指定一个主键字段；必须要根据业务对表注释；如果修改字段含义或对字段表示的状态追加时，需要及时更新字段注释；

3) 表必备字段：

`is_delete` tinyint(1) unsigned NOT NULL DEFAULT '0' COMMENT '状态（1删除、0未删除）',

`is_enabled` tinyint(1) unsigned NOT NULL DEFAULT '1' COMMENT '状态（1启用、0作废）',

`op_first` varchar(50) DEFAULT NULL COMMENT '创建人',

`op_first_time` datetime DEFAULT NULL COMMENT '创建时间',

`op_last` varchar(50) DEFAULT NULL COMMENT '更新人',

`op_last_time` datetime DEFAULT NULL COMMENT '更新时间',

3.3 建字段

1) 字段命名：

表中标识唯一性字段必须以标识性简称+id命名。其余字段根据存储信息，使用名词性质英文单词表示，如需要单词词组来进行概括，单词与单词之间使用英文半角输入状态下_连接。外键引用字段使用外键表_id的形式命名；字段名必须使用小写字母或数字，禁止出现数字开头，禁止两个下划线中间只出现数字；表达是与否概念的字段，必须使用 is_xxx 的方式命名，数据类型是 unsigned tinyint；表达逻辑删除的字段名 is_deleted，1 表示删除，0 表示未删除

2) 字段类型、长度

如果存储的字符串长度几乎相等，使用 char 定长字符串类型；小数类型为 decimal；id 必为主键，类型为 bigint unsigned；应尽量以自增INT类型为主键；优先选择符合存储需要的最小的数据类型；将字符串转化为数字类型存储；对于非负数据采用无符号整形进行存储signed int -2147483648-2147483648，unsigned int 0-2147483648，有符号比无符号多出一倍的存储空间；varchar(n) n代表字符数，不是字节数，varchar(255)=765个字节，过大的长度会消耗更多的内存；避免使用text\BLOB数据类型，建议text\BLOB列分离到单独的扩展表中，text\BLOB类型只能使用前缀索引；避免使用enum数据类型，修改enum需要使用alter语句，enum类型的order by操作效率低，需要额外操作，禁止使用数值作为enum的枚举值；尽可能把所有列定义为not null，索引null列需要额外的空间来保存，所以要占用更多的空间，进行比较和计算时要对null值做特别的处理；禁止字符串存储日期型的数据，缺点1：无法用日期函数进行计算和比较，缺点2：用字符串存储日期要占用更多的空间；使用timestamp或datetime类型存储时间，timestamp存储空间更小；财务的相关金额使用decimal类型，decimal类型为精准浮点数，在计算时不会丢失精度，float、double非精准浮点数

3) 字段其他要求

字段名称长度不能超过30个字符、尽量减少或者不使用联合主键、字段尽可能不允许为null(为null时设定默认值)、文本类型字段，属性字符集（utf8mb4），排序规则（utf8mb4_general_ci）、字段必须根据业务进行注释。

3.4 建索引

主键索引名为 pk_字段名；唯一索引名为 uk_字段名；普通索引名则为 idx_字段名。

说明：pk_ 即 primary key；uk_ 即 unique key；idx_ 即 index 的简称。

3.5 创建数据库表视图

1) 视图命名：以"v_项目名/模块名_用途"格式命名

2) 视图其他要求：视图名称长度不能超过30个字符

3.6 建存储过程及自定义数据库函数

1) 存储过程命名：以"sp_用途"格式命名

2) 自定义数据库函数：以“fn_用途”格式命名

3) 存储过程或自定义数据库函数：参数命名以“p_”开头命名；内部变量命名以“v_”开头命名；游标命名以“cur_loop_”开头命名；循环变量命名以“i_found_”开头命名。

3.7 建数据库用户

用户命名：采用授权用户姓名全拼小写命名

3.8 其他要求

1) 查询大数据表，参数字段需建索引；

2) 数据库表、字段删除或变更操作（a-不需要的表或字段，一般备注“作废”即可;b-需要修改的表或字段，先备注作废原表或原字段，再创建新表或新字段，且备注好作废原因。）；

九、数据库类型有哪些，目前主流数据库是哪种？

关系型数据库，非关系型数据库（NoSQL），键值（Key-value）数据库。主流的数据库那就是关系型数据库了，特别是关系型数据库中的分布式数据库。墨天轮最新排名（2022.11）数据库前十榜单中关系型数据库占了1-9名，前二十榜单中也仅有两个非关系型数据库。关系型数据库之所以占了绝大部分数据库份额，是因为关系型数据库作为成熟的数据库技术理念，其精髓的范式设计，严谨的一致性，原子性，完整性等优势是无法被取代的。

AntDB在运营商深耕了十几年，覆盖了OLTP与OLAP场景，是非常典型的HTAP类型的关系型数据库，业务覆盖计费、CRM等核心交易，同时覆盖清算分析等分析型业务。比如AntDB数据库服务于中国电信某省计费系统上云，包含数据层、批价和出账流程等大规模业务。在系统设计上，将资源、资产等交易热数据迁移到AntDB数据库，极大地提高了业务关键数据的访问效率，整体提高了话单事务的处理性能。AntDB数据库支撑10亿用户的通信交易场景，进行在线交易与数据分析处理的HTAP混合负载，帮助客户解决核心系统解决海量数据管理难题，基于分布式的架构设计，实现了在线弹性伸缩、强一致性事务、跨机房高可用等能力。

十、数据库设计案例?

以下是一个简单的MySQL数据库设计案例，以存储学生和课程信息为例：

假设我们有两个实体：学生（Student）和课程（Course），每个学生可以选择多个课程，每个课程可以被多个学生选择。

首先，我们创建两个表来表示学生和课程：

Student表

列名	类型
student_id	INT (主键)
name	VARCHAR
age	INT
gender	VARCHAR

Course表

列名	类型
course_id	INT (主键)
name	VARCHAR
credit	INT
instructor	VARCHAR

接下来，我们需要创建一个关联表来存储学生和课程之间的关系，表示学生选择了哪些课程：

Student_Course表

列名	类型
student_id	INT (外键)
course_id	INT (外键)

在Student_Course表中，student_id和course_id列分别作为外键，关联到Student表和Course表的主键。

这种设计模式称为"多对多"关系，通过使用关联表来实现学生和课程之间的多对多关系。

通过以上的数据库设计，你可以存储和查询学生、课程以及学生选择的课程的信息。当然，具体的数据库设计取决于你的实际需求和业务规则，上述仅提供了一个简单的示例。

上一篇：公路网的路网结构？

下一篇：zigbee标准？

热点信息

1
python中怎么查看函数的用法？

在Python中，要查看函数的用法，可以使用以下方法： 1. 使用内置函数help()：在Python交互式环境中，可以直接输入help(函数名)来获取函数的帮助文档。例如，...
2
java 连接数据库

一、java 连接数据库在当今信息时代，Java 是一种广泛应用的编程语言，尤其在与数据库进行交互的过程中发挥着重要作用。无论是在企业级应用开发还是...
3
idea连接mysql数据库

一、idea连接mysql数据库 php connect_error) { die("连接失败: " . $conn->connect_error);}echo "成功连接到MySQL数据库！";// 关闭连接$conn->close();?> 二、idea连接mysql数据库连...
4
python如何安装modbus-tk？

要在Python中安装modbus-tk库，您可以按照以下步骤进行操作： 1. 确保您已经安装了Python解释器。您可以从Python官方网站(https://www.python.org)下载和安装最新版本...

数据库

genebank拥有多少万个碱基？

一、genebank拥有多少万个碱基？

二、genebank怎么把线性序列换成环形序列？

三、什么是基因的fasta序列和genebank？

四、如何根据基因genebank序列号查找序列？

五、如何将基因序列上传到Genebank？

六、如何通过已知ID在Genebank上查找基因序列？

七、如何建立数据库，利用什么软件建立数据库？

八、数据库设计?

1 数据库设计原则

2 设计规范

2.1 约定

2.2 表设计规范

2.3 字段规范

2.4 命名规范类

2.4.1 约定

3 管理范围

3.1 建库

3.2 建表

3.3 建字段

3.4 建索引

3.5 创建数据库表视图

3.6 建存储过程及自定义数据库函数

3.7 建数据库用户

3.8 其他要求

九、数据库类型有哪些，目前主流数据库是哪种？

十、数据库设计案例?

热点信息

最新信息

您想找？

数据库

genebank拥有多少万个碱基？

一、genebank拥有多少万个碱基？

二、genebank怎么把线性序列换成环形序列？

三、什么是基因的fasta序列和genebank？

四、如何根据基因genebank序列号查找序列？

五、如何将基因序列上传到Genebank？

六、如何通过已知ID在Genebank上查找基因序列？

七、如何建立数据库，利用什么软件建立数据库？

八、数据库设计?

1 数据库设计原则

2 设计规范

2.1 约定

2.2 表设计规范

2.3 字段规范

2.4 命名规范类

2.4.1 约定

3 管理范围

3.1 建库

3.2 建表

3.3 建字段

3.4 建索引

3.5 创建数据库表视图

3.6 建存储过程及自定义数据库函数

3.7 建数据库用户

3.8 其他要求

九、数据库类型有哪些，目前主流数据库是哪种？

十、数据库设计 案例?

热点信息

最新信息

您想找？

十、数据库设计案例?