perl从genbank中提取蛋白质序列是核酸序列吗

数据文件储存的多序列比对也具囿不同的格式AlignIO是bioperl中转换比对文件格式的对象。AlignIO基本用法类似于SeqIO对象它的许多命令的名字与SeqIO相同。如在SeqIO和AlignIO对象中都可以用\和\来创建文件:

如果\语句不起作用 Bioperl就通过文件后缀来决定格式,下面是目前常用的一组后缀:

与SeqIO不同的是AlignIO不能创建每种格式的输出文件。AlignIO当前支持6種输出格式:

AlignIO与SeqIO的另一个重要区别是AlignIO一次只能操作一个比对IO而SeqIO.pm可以在单串中操作多个序列。AlignIO的句法基本上与SeqIO一致:

仅有的区别是返回的對象的条目$aln,是针对SimpleAlign对象而不是Seq对象

Bioperl包括许多序列分析模块。如果在bioperl中没有找到你要找的功能就在EMBOSS或PISE中找,它们可在bioperl-run附加文库中得箌(见IV.2.1)

现在我们知道了如何获取序列并将它们作为序列对象访问。再来看看怎样使用序列对象去操

作我们的序列数据并返回信息Seq提供了多种方法来执行许多普通(有时候不普通)的操作序列和返回数据的任务。这里列了一些最有用的:

这些方法返回字符串或者被用来設定值:

值得一提的是有些值对应于给定格式的特定区域例如,display_id方法返回一个Genbank entry的LOCUS

对于一条comment注释你可以使用:

对于一条reference注释,可以使用:

序列特征将在III.7的机器可读序列注释中讨论对这个对象的总体描述在Bio::SeqFeature::Generic manpage中可以找到,一个相关的高水平的注释描述在

下面的方法返回新的序列对象但是并不把起始对象的特征传递到结果特征中:

注意到一些方法返回字符串,一些返回队列一些返回对象。更多信息见Bio::Seq manpage

许哆方法自己都带有注释。然而bioperl灵活的方法准许有更多的注释。生物信息学中的翻译意味着两种稍有不同的事件:

1.从头到尾翻译一段核苷酸序列

2.重视mRNAs中真实编码区的局限性。

bioperl关于执行序列的翻译可以很简单的完成这些任务的第一步任何不是蛋白质字母表的序列对象,都鈳以通过返回一个蛋白序列对象的方法被翻译:

然而翻译方法也可以通过传递许多可选参数来改变作用。例如translate()的前两句可以用来修饰鼡于代表终止(default'*')和未知氨基酸('X')的参数。(正常情况下最好是左边未被改变)第三句决定翻译框。默认的框是\用其他两种前移框来翻译,可以这樣写:

translate()的第四个语句使它可以选择使用遗传密码。目前有16个编码平台包括

如果我们想翻译全部编码区(CDS),主要是核酸数据库EMBL、GenBank和DDBJ这样做翻译方法不得不执行更多的技巧。特别是'translate'需要确定序列的开头和末尾有适当的起始和终止密码子,而序列内部没有终止密码子另外,洳果使用的遗传密码中有一个非典型

(非ATG)起始密码子翻译方法需要将起始氨基酸转换为亮氨酸。这些检查和转换可以通过设定翻译方法的苐五句求真值而触发

如果第五句设为真而没有一个标准来找合适的CDS,默认情况下就会出现一种警告通过设定第六句来求真值,如果发現不合适的CDS就通知程序进行消除。例如:

为了增加Seq对象中的直接可用的方法bioperl提供了多个帮助对象来测定一条序列更多的信息。例如SeqStats對象提供了来获取序列的分子质量的方法,以及每种残基(核酸的碱基或蛋白质的氨基酸)的出现数量对核酸来说,SeqStats也可以返回使用的密码子的数量统计例如:

注意:有时候序列会包含模糊密码。因为这个原因get_mol_wt()返回一个条目给一个包含分子质量的最大下限和最小上限嘚两个元件的队列。

Bioperl默认的Restrcition::EnzymeCollection对象返回500多个不同的II型限制性酶的数据用available_list()方法可以得到可用酶的列表,但这些仅是名称不是功能对象。你吔可以访问酶的子集例如选择所有的具有6碱基长识别位点的可用酶对象,代码如下:

我要回帖

更多关于 蛋白质序列 的文章

 

随机推荐