Glimmer3-使用与安装

###软件介绍:
Glimmer用于原核生物的基因预测,特别是细菌、古细菌、和病毒等的基因组。Glimmer(Gene Locator and Interpolated Markov ModelER)采用内插马尔可夫模型(interpolated Markov models,IMMs)来识别编码区域和从非编码的DNA中区分出来。Glimmer最新版本为3.02,运行速度与预测精确度都有很大提升,并且是一个免费开源的软件必须在Linux或者Mac OSX系统上才能使用。TIGR(Institute for Genomic Research,美国基因组研究所)作为Glimmer的开发者,就是以其作为预测微生物基因的主要工具,至令已经预测了超过100种细菌的基因组。(本段参考来源:http://liucheng.name/999/

###安装步骤:
测试机ubuntu上安装glimmer步骤:

软件包的下载

Glimmer主页:http://www.cbcb.umd.edu/software/glimmer/

###Glimmer下载

Download Glimmer v3.02:http://www.cbcb.umd.edu/software/glimmer/glimmer302.tar.gz

Glimmer的运行可能还需要”ELPH”程序,其作用下文会介绍。

###Glimmer安装

待软件包下载完成先行解压

1
2
3
tar -zxvf glimmer302b.tar.gz
cd glimmer302/src
make

###ELPH主页

http://cbcb.umd.edu/software/ELPH/

####ELPH安装

1
2
3
tar -zxvf ELPH-1.0.1.tar.gz
cd ELPH/sources
make

###Glimmer用法

glimmer3.02/docs/notes.pdf (docs目录下的notes.pdf里有详细的用法介绍)。

###脚本程序
在scripts目录中有几个C-shell的脚本对于运行GLIMMER3是很有用的。每个脚本的开头指定GLIMMER执行目录和Awk脚本的目录。用户需根据自己的安装路径修改开始行的set glimmerpath 和 set awkpath,将”set awkpath、glimmerpath、elphbin“修改为对应的目录。

“g3-from-scratch.csh” 使用long-orfs找到训练基因接着运行glimmer3。如果需要改变glimmer3选项可修改set glimmeropts。运行:

1
g3-from-scratch.csh genom.seq run1

genom.seq 是需预测基因的fasta格式的基因组序列, run1是输出文件的前缀。
这个脚本将运行下列运行行:

1
2
3
4
long-orfs -n -t 1.15 genom.seq run1.longorfs
extract -t genom.seq run1.longorfs
build-icm -r run1.icm < run1.train
glimmer3 -o50 -g110 -t30 genom.seq run1.icm run1

“g3-from-training.csh” 使用一系列基因位置去抽提训练集,接着运行glimmer3. 这个脚本使用elph(www.tigr.org/software/ELPH)由位置清单列表中的起启位点的上游区域建立一个PWM。它也使用训练集中的第一个密码子来评估在基因组中的起始密码子的分布。

运行:g3-from-training.csh genom.seq train.coords run2

genom.seq 是需预测基因的fasta格式的基因组序列,train.coords是训练序列的位置, run2是输出文件的前缀.

这个脚本将运行下列命令行:

1
2
3
4
5
extract -t genom.seq train.coords > run2.train
build-icm -r run2.icm < run2.train upstream-coords.awk 25 0 train.coords | extract genom.seq - > run2.upstream
elph run2.upstream LEN=6 | get-motif-counts.awk > run2.motif
set startuse = ‘start-codon-distrib -3 genom.seq train.coords‘
glimmer3 -o50 -g110 -t30 -b run2.motif -P $startuse genom.seq run2.icm run2

“g3-inerated.csh” 结合了前两个脚本。它使用第一次预测到的结果为第二次运行建立训练集。第二次运行的原因是第一次运行的结果会将比来自long-orfs的结果的更高的起始位点的正确性。

运行:g3-iterated.csh genom.seq run3

genom.seq 是需预测基因的fasta格式的基因组序列, run1是输出文件的前缀。

这个脚本将运行下列命令行:

1
2
3
4
5
6
7
long-orfs -n -t 1.15 genom.seq run3.longorfs
extract -t genom.seq run3.longorfs > run3.train
build-icm -r run3.icm < run3.train glimmer3 -o50 -g110 -t30 genom.seq run3.icm run3.run1 tail +2 run3.run1.predict > run3.coords
upstream-coords.awk 25 0 run3.coords | extract genom.seq - > run3.upstream
elph run3.upstream LEN=6 | get-motif-counts.awk > run3.motif
set startuse = ‘start-codon-distrib -3 genom.seq run3.coords‘
glimmer3 -o50 -g110 -t30 -b run3.motif -P $startuse genom.seq run3.icm run3

得到最终得到基因注释结果。