###软件介绍:
Glimmer用于原核生物的基因预测,特别是细菌、古细菌、和病毒等的基因组。Glimmer(Gene Locator and Interpolated Markov ModelER)采用内插马尔可夫模型(interpolated Markov models,IMMs)来识别编码区域和从非编码的DNA中区分出来。Glimmer最新版本为3.02,运行速度与预测精确度都有很大提升,并且是一个免费开源的软件必须在Linux或者Mac OSX系统上才能使用。TIGR(Institute for Genomic Research,美国基因组研究所)作为Glimmer的开发者,就是以其作为预测微生物基因的主要工具,至令已经预测了超过100种细菌的基因组。(本段参考来源:http://liucheng.name/999/)
###安装步骤:
测试机ubuntu上安装glimmer步骤:
软件包的下载
Glimmer主页:http://www.cbcb.umd.edu/software/glimmer/
###Glimmer下载
Download Glimmer v3.02:http://www.cbcb.umd.edu/software/glimmer/glimmer302.tar.gz
Glimmer的运行可能还需要”ELPH”程序,其作用下文会介绍。
###Glimmer安装
待软件包下载完成先行解压
###ELPH主页
http://cbcb.umd.edu/software/ELPH/
####ELPH安装
|
|
###Glimmer用法
glimmer3.02/docs/notes.pdf (docs目录下的notes.pdf里有详细的用法介绍)。
###脚本程序
在scripts目录中有几个C-shell的脚本对于运行GLIMMER3是很有用的。每个脚本的开头指定GLIMMER执行目录和Awk脚本的目录。用户需根据自己的安装路径修改开始行的set glimmerpath 和 set awkpath,将”set awkpath、glimmerpath、elphbin“修改为对应的目录。
“g3-from-scratch.csh” 使用long-orfs找到训练基因接着运行glimmer3。如果需要改变glimmer3选项可修改set glimmeropts。运行:
genom.seq 是需预测基因的fasta格式的基因组序列, run1是输出文件的前缀。
这个脚本将运行下列运行行:
“g3-from-training.csh” 使用一系列基因位置去抽提训练集,接着运行glimmer3. 这个脚本使用elph(www.tigr.org/software/ELPH)由位置清单列表中的起启位点的上游区域建立一个PWM。它也使用训练集中的第一个密码子来评估在基因组中的起始密码子的分布。
运行:g3-from-training.csh genom.seq train.coords run2
genom.seq 是需预测基因的fasta格式的基因组序列,train.coords是训练序列的位置, run2是输出文件的前缀.
这个脚本将运行下列命令行:
“g3-inerated.csh” 结合了前两个脚本。它使用第一次预测到的结果为第二次运行建立训练集。第二次运行的原因是第一次运行的结果会将比来自long-orfs的结果的更高的起始位点的正确性。
运行:g3-iterated.csh genom.seq run3
genom.seq 是需预测基因的fasta格式的基因组序列, run1是输出文件的前缀。
这个脚本将运行下列命令行:
得到最终得到基因注释结果。