您好,欢迎来到易榕旅网。
搜索
您的当前位置:首页重复序列分析文档

重复序列分析文档

来源:易榕旅网


1 重复序列分析

重复序列广泛存在于真核生物基因组中,这些重复序列或集中成簇,或分散在基因之间,根据分布把重复序列分为分散重复序列和串联重复序列。

分散重复序列分为四种:LTR、LINE、SINE、和DNA转座子、

LTR,长末端重复转座子(long terminal repeat),是由RNA反转录而成的元件,它在两端有长大数百碱基对的LTR。Length: 1.5-10kbp Encode reverse transcriptase Flanked by 300-1000bps terminal repeats

LINE,长散在重复序列(long interspersed nuclear elements),意为散在分布的长细胞核因子,是散在分布在哺乳动物基因组中的一类重复,这种重复序列比较长,平均长度大于1000bp,平均间隔3500-5000bp,如:rRNA,tRNA基因,形成基因家族。

SINE 为短散在重复序列(short interspersed nuclear elements)。SINE是非自主转座的反转录转座子,来源于RNA聚合酶III的转录物,它的平均长度约为300bp,平均间隔1000bp,如:Alu家族,Hinf家族序列。

DNA 转座子: single intron-less open reading frame Encode transposase Two short inverted repeat sequences flanking the reading frame。

串联重复序列根据重复序列的重复单位的长度可分为卫星DNA、小卫星DNA 和微卫星DNA。微卫星DNA又称为串联重复序列(short Tandem Repeat. STR)

● Simple Sequence Repeats (SSR)+Satellites

GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG (G) ATATATATATATATATATATATATATATATATATATAT (AT)n

● Lower complexity region(低复杂性区段)

TTTTTTATTTTTTGTTTTTTTTTT

(1)研究表明一些简单的重复序列与许多疾病有关。

(2)STR是存在人类基因DNA中的一类具有长度多态性的DNA序列,其多态性成为法医物证检验个人识别和亲子鉴定的丰富来源。

1.1 TRF

简介

Trf(Tandem Repeat Finder)是用来搜寻DNA序列中的串联重复序列(相临的重复两次

或者多次特定核酸序列模式的重复序列)。重复单元可以从1bp到500bp,DNA查询序列大小可以超过5M。

GAGCAGAGCAGAGCAGAGCAGAGCAGAGCAGAGCAGAGCAGAGCA GAGCA GAGCAGAGCAGAGCAGAGCAGAGCAGAGTAGAGTA GAGTAGAGTA

■ 使用

Path/trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options] 例如 trf sequence.fa 2 7 7 80 10 50 800 –f –d –m ■ 重要参数

File = 输入序列,fasta格式。

Match = 匹配的权重,默认为2。 Mismatch = 没有匹配的权重,默认为7。 Delta = 插入删除的匹配的权重,默认为7。 PM = 匹配上的概率,默认为80。 PI = 插入的概率,默认为10。

Minscore = 最小的匹配分值,默认为50。

MaxPeriod = 最大的重复单元bp数,默认为500bp。 [options]:

-m 产生一个将串联重复序列屏蔽为N的序列文件。

-f 输出每一个串联重复序列两侧200bp 的侧翼序列,输出到比对文件中。 -d 产生一个屏蔽文件记录了与列表文件一样的信息,及比对信息,可用于后续程序的处理。

Match ,Mismatch, Delta为匹配上、没匹配上、插入的权重值。低的权重值将允许更多的“没匹配上”、“插入”情况。匹配的权重值“2”已被证明对“没匹配上”、“插入”的罚分权重值在3-7 范围内是有效的。“没匹配上”、“插入”的罚分权重将被自动解释为负值。“3”就比较宽松,“7”就比较严格。对Match,Mismatch,Delta的推荐缺省值分别为2,7,7。 ■ 实例

Path/trf SAC.fa 2 7 7 80 10 50 500 -f -d –m ■结果说明

程序运行完,会在目录下生成以下几个文件

*.dat -d 参数产生的屏蔽的的串联重复序列信息文件。

Tandem Repeats Finder Program writen by: Gary Benson

Program in Bioinformatics 软件的信息 Boston University Version 4.04

Sequence: Scaffold1

Parameters: 2 7 7 80 10 50 500 输出的参数

8891 8923 17 1.9 17 100 0 66 36 0 9 54 1.32 TTTTTAATGTTAATAAG TTTTTAATGTTAATAAGTTTTTAATGTTAATAA 串联重复 其中:8891 8923 是串联重复在输入序列里的起始、终止位置。

17 串联重复的大小bp。 1.9 重复的次数。

17 库里的重复序列得大小。

100 与邻近的重复匹配的百分比。

0 与邻近的重复匹配的插入删除百分比。 66 匹配的分值 。

36 核苷酸“A”在串联重复单元里的百分比。 0 核苷酸“C”在串联重复单元里的百分比。 9 核苷酸“G”在串联重复单元里的百分比。 54 核苷酸“T” 在串联重复单元里的百分比。 1.32 重复序列包含的信息量,即熵值。

*.mask -m 参数产生的串联重复序列被屏蔽为N的序列文件

TTACATTCAATATTTTACATTTTACTCTACTTTTTCACNNNNNNNNNNNNNNNNNNNNNN 重复序列处 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN N屏蔽 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCCATG *.html 记录串联重复序列信息的文件

*. txt.html 记录相关串联重复序列比对信息的文件

■流程说明

perl /nas/MG01/FUNGUS/PGAP/repeat/bin/repeat_pipeline.pl –trf 由于程序默认参数为 2 7 7 80 10 50 2000 –d –h

我们TRF重复序列预测流程只输出*.dat 文件。 然后将*.dat 文件转换成*.gff文件。

1.2 Repbase(RepeatMasker)

RepeatMasker 是一种屏蔽DNA序列中转座子重复序列和低复杂度序列的程,有Arian Smit 和Robert Hubley 开发,它将输序列中已知的重复序列都屏蔽为N或X,并给出相应的重复序列统计列表。RepeatMasker可以选择cross_match 或wu-blast做为比对的搜索引擎。

RepeatMasker 以Repbase为默认的转座子库。RepeatMasker 是在碱基水平上预测转座子。

■ 使用 RepeatMasker [-options]

当不带任何参数时,缺省设置是屏蔽灵长类动物所有类型的重复许乐

■ 重要参数

-w(ublast) **deprecated** 使用 WU-blast做为搜索引擎 -de(cypher) **deprecated** 使用 DeCypher做为搜索引擎

-e(ngine) [crossmatch|wublast|abblast|ncbi|decypher] 选择一个默认的搜索引擎 -pa(rallel) [number]

The number of processors to use in parallel (only works for batch files or sequences over 50 kb)

-s 慢速搜索,敏感度提高0-5%,速度慢2-3倍

-q 快速搜索,敏感度降低5-10%,速度快2-5倍 -qq 急速搜索,敏感度降低10%,速度快4-10倍 -nolow /-low 不屏蔽低复杂度DNA 或简单重复序列 -noint /-int 只屏蔽低复杂度DNA 或简单重复序列 -norna 不屏蔽小RNA基因(假基因) -alu

只屏蔽Alus 序列(7SLRNA,SVA and LTR5)

-lib [filename] 自定义的重复序列 Contamination options(污染参数) -no_is 跳过细菌插入因子的检查 ■ 结果说明

程序执行之后会生成如下几个文件: 1 *. masked 重复序列被屏蔽之后的文件

>scaffold1 0

TATTACAGGCAGCGGTATAATATTTATATTACTTAGTCTAAGTTTTAGCG

TTTTGCTAAAAAAAAAAAAAACTATAATAATNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

CTTTAAAAAACTTGTAGGTAGCAAAAGCTAAAAAAAAATAACTTTATTA 重复序列被屏蔽为N 2 *.out 被比对上重复序列的说明文件

以第一行为例,其代表的意义是: 1306 = 比对上的Smith-Waterman 分值 15.6 = % 比上区间与共有序列相比的替代率

6.2 =% 在查询序列中的碱基缺失的百分率(删除碱基) 0.0 =% 在repeat 库序列中碱基缺失的百分率(插入碱基) HSU08988 = 查询序列的名称

6563 = 比上区间在查询序列中的起始位置 7714 =比上区间在查询序列中的终止位置 (22462)= 在查询序列中超出比上区域的碱基数 C = 比上了库中重复序列得互补链 MER7A =比对上重复序列名称

DNA/MER2_type = 比对上重复序列得类型,这里是属于一个DNA转座子MER2 类 (0)= 重复序列在比对区间之前(是互补链的情况)的碱基数(所以“0”表示比对上的区间已经是重复序列得末端)

336 =比上区间在重复序列中的起始位置 103=比上区间在重复序列中的终止位置

3 *.tbl 文件 。此文件在使用自定义的重复序列库时不产生

4 *.cat 文件 此文件内容同 *.out

对于真菌基因组,我们现有流程及具体参数为

perl /nas/MG01/FUNGUS/PGAP/repeat/bin/repeat_pipeline.pl –repbase –prefix 以上程序会自动调用RepeatMasker 程序参数默认如下:

-nolow -no_is -norna -engine wublast -parallel 1 –lib path/lib

现有流程的结果只需要*.out 文件 。然后将所有*.out 文件cat到一起,在转换为GFF 文件,最后统计相关结果。

1.3 RepeatProteinMasker

RepeatProteinMasker软件将输入的序列与RepeatProteinMasker自带的转座子蛋白库比较,找到转座子序列。 ■ 使用

RepeatProteinMask [-pvalue #] [-minscore #] [-wordsize #] [-maxAADist] [-noLowSimple] [-noTRF] [-queryStatLen #] ■ 重要参数

-pvalue 可以接受匹配的临界值。匹配必须有一个概率值,但概率值要比设置的pvalue值小,默认没有pvalue临界值。但以前设定的值是0.0001

-minscore 最小分值的临界值,注意没有默认值。因此所有比对的结果都会返回,除非设定了最小分值。

-wordsize 使用wublastx 搜索的字长,默认为3 -querystatlen query序列的有效长度用来统计计算

-maxaadist 两个blastx hit 相同时,它们之间的最大距离,默认333

-noLowSimple 关闭屏蔽/注释最终输出结果中的低复杂度和简单重复。低复杂度和简单重复序列仍旧会出现,当搜寻匹配的蛋白转座子数据库 -noTRF 关闭输入序列中的串联重复的屏蔽或注释 ■ 输出结果

■ 1 *. masked 重复序列被屏蔽之后的文件 >scaffold164

ACTAACTAAACTAAAATAAAATAGTTAATAGTATTAAGTTATATTTAACT ATACTAAAGTAAAAAATATAAAAATACTTAAAATAGCTAGCTTTTTATAT TTAACTAATAAATATTAAGTAAAAATAAAAAATAAAGTAAAAATATAGTA GAAATAAAGTAAAATAGTAGAGTTTGTGGCAGNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTGTCTCACATTT ACCACGTATTAGATTTTTGAAAACAAGCTACTTAACTTAAAGTTGGTG

2 *.annot RepeatProteinMask软件预测的最初结果文件。文件格式如下:

Pvalue Score Method SeqID Begin End Strand Repeat Type Begin End 1.70e-06 35 WUBlastX scaffold1 7083 7379 + PYRET LTR/Gypsy 940 1038 2.30e-29 156 WUBlastX scaffold1 8661 9689 + CFT1_pol LTR/Gypsy 806 1135 3.80e-16 219 WUBlastX scaffold1 811109 811312 - BEL1_SM LTR/Pao 183 249

对于真菌基因组RepeatProteinMask 转座子预测,现有流程的主要流程及其参数如下: perl /nas/MG01/FUNGUS/PGAP/repeat/bin/repeat_pipeline.pl –proteinmasker –prefix 以上程序会自动调用RepeatProteinMask 程序。RepeatProteinMask的参数设置如下:

-noLowSimple -pvalue 1e-04

现有流程的结果只需要*.annot 文件 。然后将所有*.annot文件cat到一起,在转换为GFF 文件,最后统计相关结果。

1. 4 Denovo 预测转座子

■ 原理

通过buildXDFDatabase软件以自身序列建立数据库, 根据数据库用RepeatModeler建立转座子模型,利用所建模型用Repeatmasker软件找转座子。 ■ 使用

(1)为RepeatModeler建立一个XDF(eXtended Database Format)数据库

/BuildXDFDatabase -name mydb

-name: XDF数据库的名字

(2)运行RepeatModeler

/RepeatModeler –database mydb

RepeatModeler会生成大量的输出文件。这些输出结果会在一个以

RM_.命名的目录下,例如\"RM_5098.MonMar141305172005\" 。在这个目录下,找到一个以\"consensi.fa.classified\"命名的文件,这个文件就是最终的转座子模型文件。

(3)利用第二步的结果进行转座子预测

/RepeatMasker -lib consensi.fa.classified 这里RepeatMasker预测转座子的参数与1.2 Repbase相同。

2、总结

2.1程序路径及脚本

对于以上四种重复序列的预测方法,我们已经有整合好的流程程序。 分步流程程序路径:

Path :/nas/MG01/FUNGUS/PGAP/script/find_repeat.pl

perl /nas/MG01/FUNGUS/PGAP/script/find_repeat.pl [options] genome.fa

--all run all program

--denovo run Denovo Repeat Finding

--repeatmodeler run RepeatModeler --proteinmasker run RepeatProteinMasker

--repbase run RepeatMask by Repbase database --trf run TRF

--outdir set the output directory, default .

--prefix set a prefix name for the gene ID in gff3 --cutf set the number of cutted files

--run set the parallel type, qsub or multi, default=qsub --cpu set the cpu number to use in parallel, default=3 --help output help information to screen

perl /nas/MG01/FUNGUS/PGAP/script/find_repeat.pl –proteinmasker –repbase –trf --denovo -repeatmodeler genome.fa

perl /nas/MG01/FUNGUS/PGAP/script/find_repeat.pl --all genome.fa

2.2重复序列结果说明

流程程序运行完之后会自动生成下表中的六个文件。这些文件的结果都是冗

余的。在撰写结题报告的时候,我们会对GFF文件的结果进行统计。

表1 | 重复序列结果文件列表

*. Repbase.out *. Repbase.out.gff *.Proteinmask.annot *. Proteinmask.annot.gff *. trf.dat *. trf.dat.gff 为Repbase数据库跑RepeatMasker的初始结果 为与*.Repbase.out对应的gff3格式文件 为RepeatProteinMasker的初始结果 为与*.Proteinmask.annot对应的gff3格式文件 为TRF软件的初始结果 为与*.trf.dat对应的gff3格式文件 表2 | 重复序列统计表 Type Repbase ProMask TRF Total Repeat Size % in Genome 表2 第一列是预测重复序列的方法;第二列是重复序列的总长;第三列是重复序列占基因组的百分比。Total是三种方法找到的重复序列去冗余后的总的结果。

表3 |转座子分类信息统计表

Repbase TEs Type Length DNA LINE LTR SINE Other Unknown Total % in Genome Length % in Genome Length % in Genome ProteinMask TEs Combined TEs 表3 第一列指的是转座子的类型;第二列是用Repbase数据库预测出的转座子的结果统计;第三列是用RepeatProteinMasker的预测结果;第四列是综合两种方法的去冗余后结果。Total是几类转座子去冗余后的综合结果。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrd.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务