基于Bioperl的生物二次数据库的设计与实现

人气指数:点发布时间:2014-06-18 16:38 来源：http://www.zgqkk.com 作者：张宁等

分享到：

　　摘要：在分子生物学研究中，建立二次数据库可以更深入的进行特色物种的研究。通过分析了构建生物信息二次数据库的复杂性和必要性，在MySQL数据库的基础上利用Bioperl相关技术提出了可行性方案，并给出了关键的构建步骤，最后建立了一个生物信息研究平台。

　　关键词：二次数据库；MySQL；Bioperl

　　1 概述

　　自从人类基因组计划实施以来，国际上生物分子相关的数据库就如雨后春笋般地涌现出来，有数据全面、面向世界开放的一级数据库，如著名的三大核酸数据库GeneBank、DDBJ和EMBL，人类基因组数据库GDB，蛋白质序列数据库PIR、SWISS-PROT和PROSITE，蛋白质结构数据库PDB、SCOP、FSSP和MMDB等等。数据库虽多，但也存在诸多问题。例如国际上著名的核酸数据库就存在数据过多、重复、分类较粗的问题[1]，因此才有了众多源自公共一级数据库的、适应某一方面研究或特定实验室的二级数据库[2]，如PROSITE、Profiles和Pfam。二级数据库力求实现数据格式的统一，整合已有的优秀数据资源，避免数据库的重复建设[1]。它不是重复存储大型数据库已有的未处理数据，而是收集存储经分析处理过的有意义的数据，以满足人们对不同数据的需要[3]。相对而言这些数据库中数据的针对性强，准确性高，不足之处是大部分数据库都不对外开放，提供服务的数据库也存在服务质量不高、不能满足用户需要等[4]。因此建立自己的专用数据库十分必要。

　　2 生物信息处理软件包Bioperl

　　针对生物信息的复杂性及其分析工具的复杂性，可以利用Bioperl进行二次软件开发，Bioperl是一个功能全面、源代码全部开放的生物信息学软件包，受到国际上生物信息领域软件开发的普遍欢迎[5]，它基本上是以模块或函数库的方式给出，在此基础上进行二次软件开发将较大幅度地提高软件开发的效率，可提高软件的可用性和可扩展性。

　　Bioperl软件包含了基本程序集合，提供多种操作基类和数据基本接口，提供大量的生物信息学常用算法的源代码、二次数据库结构及数据操作接口，可以很方便地调用各种第三方程序。

　　3 生物二次数据库的设计与实现

　　3.1生物二次数据库的功能

　　生物二次数据库适用于需要对生物信息数据库进行检索、比对、分析的单位或个人。它的主要功能是将网上各种常用的生物信息学数据库中的不同结构、不同语义的数据整合在一起，保存在本地关系型数据库中，使用户可以在统一的界面上方便地查询和分析生物信息数据。

　　对数据库的使用者，生物二次数据库提供下载数据，转换数据格式，加载到本地数据库和数据维护等功能。对生物信息数据的使用者，生物二次数据库提供对各种序列数据进行查询、检索、序列对比和同源性分析，以及统计分析等功能。

　　3.2生物二次数据库的基本结构

　　由于生物二次数据库所需的许多基因和蛋白数据散落在文献和各大数据库中，数据格式各不相同。为了兼容多种格式的生物序列数据，数据库中的表设计需要一定的冗余，为了与国际接轨，生物二次数据库将在Biosql软件中给出的数据模型基本结构的基础上做适应性调整，其关键部分的E-R图参见图1[6]。

　　图1中表biodatabase存放的是数据库的名称，用来存放的不同种类的数据。表bioentry是二次数据库序列目录，存放序列的id号、版本号等，它们与表bioentry_keywords、表bioentry_reference构成二次数据库的核心。表biosequence存放具体的序列数据，表comment与表reference分别存放序列的注释和序列信息的引用文献资料。

　　3.3生物二次数据库的接口

　　生物二次数据库中的数据主要来源于Internet上异构的数据库，且不是源数据库的直接拷贝，而是其中一部分所需要数据的采集和重新组织。因此在设计数据库时，一方面利用Bioperl对公共数据库的专用接口编程实现国际上公共数据库中数据的自动获取，另一方面通过Perl脚本编程实现本地实验数据的导入。

　　数据库处理的数据来自这三方面：GenBank、SwissProt等位于Internet上公开的大型公共数据库；Internet上其它没有专用接口的公共数据库或本地ftp下载或构建的其它数据库；本地实验数据：FASTA、EMBL等格式的平面数据文件。针对不同的数据源，数据库提供的不同的接口模块对数据文件或数据库进行操作。对于GenBank等公共数据库，使用Bioperl对公共数据库的专用接口对数据进行处理；对于Internet上其它没有专用接口的公共数据库，使用Perl DBI接口；对于平面数据文件，使用SeqIO序列文件操作接口。这些处理可以保证使用者使用生物二次数据库能通过多种渠道获得尽可能多的相关数据源。

　　3.4生物二次数据库的运行环境

　　由于生物信息数据量大、类型复杂、关联性强等特点，而传统的串行算法和单一结点的计算机很难适应庞大的生物信息处理的需要，主要体现在处理海量数据时，系统无法提供足够大的内存和速度以满足应用的需求。所以集群系统适合作为构建生物二次数据库的平台。

　　集群系统一般使用单台或联网的多台计算机或服务器，将其中一台与外网连接的计算机设定为主节点，集群的控制管理工作在主节点上完成，主节点也参与运算，同时又是计算节点。其余计算机为从节点，即计算节点。以后可以使用同样的方式增加节点数目，对集群的规模进行扩展。整个集群中的各个节点都使用双绞线通过网卡和交换机以星型方式连成局域网络，见图2。

　　本研究的集群系统使用了实验室的4台浪潮英信服务器、一台快速以太网交换机和若干5类双绞线。每台服务器的配置：两个四核的Intel（R） Xeon（R） CPU E5504@2.00GHz处理器、2GB 内存、320GB 硬盘×4，32位总线、两块高性能千兆网卡。使用的天工iSpirit2924G型号的交换机的配置：10/100/1000Mbps传输速率、13.6Gbps背板带宽、6.6Mbps包转发率、24个百兆和两个千兆RJ45端口。该系统共有处理机8个，节点4个，其中一台服务器作为主节点，它的一块网卡通过与外网联接远程获取一级数据库中的数据，另一块与集群系统中的快速以太网交换机相连，实现节点与计算节点间的通信。其余三台服务器作为计算节点，通过网卡联接在交换机上。生物二次数据库的构建在控制节点上进行。

　　3.5生物二次数据库的构建

　　抗逆生物二次数据库采用面向对象的方法设计数据模型。为在数据内容更新、支持高效事务处理的前提下减少数据冗余，优化数据模型和存储结构，采用MySQL和XML技术并行构建两套数据库系统，以便在本地集群的并行计算平台上，实现生物信息分析软件的并行化，以达到高效分析与处理大量复杂生物数据的目的。

期刊库（http://www.zgqkk.com），是一个专门从事期刊推广、投稿辅导的网站。
　　本站提供如何投稿辅导，寻求投稿辅导合作，快速投稿辅导，投稿辅导格式指导等解决方案：省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。

　　【免责声明】本文仅代表作者本人观点，与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。

基于Bioperl的生物二次数据库的设计与实现

投稿辅导服务咨询与期刊合作加盟

期刊推荐