《医疗卫生系统招聘考试(护理学专瞎念橘业)易考宝典软件》
文字处理系列,即office系列了
参考文磨团献管理软件:3.1.reference manager,推荐使用.3.2医学(护理学)文献王
专业软件:序列分析软件DNAMANDNAMAN是一种常用的核酸高携序列分析软件。由于它功能强大,使用方便,已成为一种普遍使用的DNA序列分析工具。
给大家介绍一个Gdicom医学图像浏览器Ⅰ 2.0:
医学Dicom格式图像文件浏览器软件,是中国医学共享网又一软件,能浏览及加工标准DICOM接口下文件,别存为JPG,BMP格式文件,能测量长度及角度等等。
2018年,海普洛斯的科研人员发表了一篇用DNA数据直接预测融合基因的文章,标题事”GeneFuse: detection and visualization of target genefusions from DNA sequencing data”,文章发表在International Journal of Biological Sciences 上,作为一种DNA数据预测融合基因的软件,还是不多的,目前的方法多是由RNA数据比对出,但是这种方法不利于商业化,存在效率低,成本高的缺点。现在就让我们一起学习下GeneFuse的分析原理。
GeneFuse:从DNA测序数据中判断有无目标融合基因。DELLY可以从BAM文件中直接进行结构变异的挑选。首先,该算法根据比对结果进行配对端映射分析,找到方向异常或插入大小异常的序列。然后,识别出的配对端簇被解释为包含断点的基因组间隔,以单核苷酸分辨率绘制基因组重排图。最后,DELLY将合并支持的阅读对,并将它们与参考基因组进行注释。基于映射的基因融合检测器有几个优点。可以扫描尽可能多的找到融合基因位点。缺点是,太依赖比对文件(BAM文件),如果比对文件没有找到准确的剪辑和嵌合体,基于映射的融合检测算法可能无法正常工作。错误的比对经常在包含融合基因的位置发生。另一方面,准确的剪辑和嵌合体也经常发生在正常的不包含融合败瞎的阅读框中。最后低浓度的肿瘤DNA样本也会提高假阳性发生的概率。
在临床应用中,与其发现大量临床意义未知、不确定度较大的基因融合,不如寻找已知对临床治疗有响应的基因融合。GeneFuse软件能直接从FASTQ文件中探测到融合基因。GeneFuse软件只对具有已知临床意义的基因进行研究。
GeneFuse的基本思想是寻找能很好地映射到两个不同基因左右部分,但不能完全映射到整个参考基因组的任何位置的reads。在融合点匹配两个融合基因的读码称为支持读码,每个融合的重复支持读码将被分组为单个唯一的支持读码。Genefuse一共有四个步骤:
1、 Indexing
从参考基因组中提取基因序列需要一个包含目标融合基因及其外显子的CSV文件。GeneFuse提供了两个csv文件,分别是37和38版本的。
Hash表用来储存k-mer和基因组坐标相关关系,hash表以后会被用来映射read与目标基因。
2、 Matching
在匹配步骤中,通过收集序列的所有长度为k的子序列,计算每个read序列的集合。Read的相关基因通过上一部产生的索引号,将子序列映射相应坐标上。如果左右两部分能映射到两个不同的基察吵空因,这个read分割成两个部分。如果左右部分区域足够长(默认长度20),这个读长就是一个合适的匹配候选坐标。碰明所有候选的匹配坐标将被储存在一个list上,下一步会过滤。
序列长度也会影响突变发现。为了获得较长的序列,GeneFuse尝试合并双端测序的每一对数据。对于read配对R1和R2,rcR2被认为是R2的反哺。合并算法尽可能找到R1和rcR2最大的重合,他们重合的子序列完全是相同的。如果重合的区域高于临界值(30bp),就认为他们是一个read,合并他们成一个read。通过合并read,继续匹配过程,即使突变点位于read的边缘。如何reads不能合并,GeneFuse会对这些进行处理。尽管插入一个大的序列库,会禁止read对的重叠,但它不会对性能造成重大影响,因为GeneFuse可以将一个read对单独处理为两个单端读取。
Filtering
匹配的坐标文件准备好以后,枚举支持融合的所有子序列,形成一个新的k-mer。全部的参考基因组将被扫描寻找K-mer组成,匹配后的基因坐标将被储存起来构建一个新的全局索引G。对于在融合匹配候选列表中的每个read,都会匹配到G,检查是否可以匹配到参考基因组。如果一个read可以映射到参考基因组,这个read可以从匹配的候选list里移除。
其它过滤--像低复杂度过滤器和匹配质量过滤器-也将被用于消除错误的部分。更进一步讲,如果一个read映射到一个基因的两个部分,它会被作为删除项,如果删除长度很短,则会被移除。
GeneFuse的工作流程
灵敏度检测
为了评估GeneFuse的性能,我们将其应用于覆盖1.6 Mb自定义面板的10个非小细胞肺癌细胞DNA样本,其中6个有已知的重排(EML4:exon6-ALK exon20;EML4:exon13-ALK exon20)经digital droplet PCR (ddPCR)证实,GeneFuse均能检测到。相反,在4个ALK野生型样本中均未检测到,因此在检测ALK融合事件时灵敏度和特异性均为100%。我们用FACTERA v1.4.4和DELLY v0.7.6测试了相同的数据集。
在分析癌症测序数据的临床应用中,从超深测序数据中检测出低MAF的可给药突变和融合至关重要。现有的工具,如DELLY和FACTERA,对检测结果不够敏感,缺乏可视化检测融合的功能。GeneFuse是一种快速、轻量级的工具,用于从原始FASTQ数据中检测目标基因融合。该工具具有很高的灵敏度,可以通过生成基于html的读取堆积可视化来可视化检测到的融合。进一步将基因融合检测推向临床应用。
文章仅是记录自己的学习使用,有错误请指出,我立刻改正
在对比对工具进行比较时,通常将其分为DNA比对工具(DNA-seq)和RNA比对工具(RNA-seq)。它们的区别在于是否会考虑跨外显子的比对,即:是否会将没有比对上的reads劈开,对劈开后的两部分再次比对)。
随着现在各种seq测序的出现,我们已经不能简单的根据是比对DNA还是RNA来判断。比对工具的选择主要依据reads的比对是否需跨外显子。(PRO-seq/GRO-seq,它们虽然在建库时捕获的RNA,但是它们的比对并不需要考虑跨外显子。)
常用工具:
DNA-seq:BWA;bowtiebowtie2
RNA-seq:STAR;HISAT2;TophatTophat2
BWA主要应用二代测序后的大量短小片段与参考基因组之间的定位比对。需要先嫌燃对参考序列建建立索引,BWA也是基于 BWT和 FM-Index 理论来对参考基因组做索引。根据测序方法的不同,有单末端序列(Single-end,SE)比对和双末端序列(Pair-end,PE)比对。
bowtie出现在测序行业还不成熟的时候,序列长度普遍在50bp以下,bowtie的只满足长度在50bp以下的reads的比对。官方称其可以把短的DNA序列(35bp)快速的比对到人类基因组上。
Bowtie2 是一款经典的短读长序列( 50-100 bp,最多可到1000 bp ) 比对软件,节约内存且灵活与成熟的短序列比对软件,比较适合下一代测序技术。支持单端测序(unpaired) 和双端测序的比对。支持全局比对(end-to-end align ) 和 局部比对( local align )。其通常使用全文分索引(FM-index)以及Burrows-Wheeler 变换(BWT)索引基因组使得比对非常快速且内存高效,但是这种方法不适合于找到较长的、带缺口的序列比对
结论:bowtie和bowtie2,是两个不同类型的比对工具,bowtie2并非是bowtie的升级。尺有所长寸有所短,bowtie适合长度在50b长度以内的reads比对,而bowtie2适合50-100b,甚至更长的reads比对。但是这两个都属DNA-seq比对工具
RNA-Seq测序的特性,天然的会有一部分数据延伸到内含子区,这部分跨越外显子和内含子的reads就称为『junction reads』,所以RNA-Seq比对软件需要针对此进行优化。
( junction:转录组reads比对不同于基因组reads比对(如ChIP-seq、WES等)的地方在于,比对的reads可能来源于2个被内含子隔开的外显子区域,导致reads一端比对在第一个外显子的后面部分,另一端比对在第二个外显子的前面部分,芹衡虚即跨剪切位点,从而形成exon-exon junction (剪接点)。这些reads又称为junction reads,对转录本的拼接、鉴定和差异分析具有重要的意义。)
(soft-clip事件: 即reads末端存在低质量碱基或接头导致比对不上的, STAR会自动尝试截去未比对部分,只保留比对上的部分。)
STAR是ENCODE皇家御用的RNA-seq比对工具,ENCODE计划(ENCyclopedia Of DNA Elements)又称人类基因组DNA元件百科全书计划,是2003年在人类基因组计划完成之后紧接着的又一个大型国际科研项目。
Tophat2的原作者们也不知道是出于什么考虑,不再更新Tophat2,转而开发了一个新的比对工具HISAT2,更是推荐人们使用HISAT2,声称其速度更快,内存占用率更小,准确率更高。
此外,HISAT2不仅支持RNA-seq的比对还支持DNA-seq比对,唯一需要做的就是加上一个参数--no-spliced-alignment。但是就目前拦散来看,大部分人都是使用HISAT2做RNA-seq,没人使用它做DNA-seq
Tophat/Tophat2工具本身不能进行比对,它是通过调用bowtie/bowtie2进行比对的。划重点,bowtie2不是bowtie的升级版,但是Tophat2是Tophat2的升级版。因此Tophat只可以调用bowtie,而Tophat2不仅可以调用bowtie2(默认)还可以更改设置调用bowtie。
Tophat/Tophat2调用bowtie/bowtie2后,会首先使用bowtie/bowtie2对序列进行比对,对于那些没有比对上的,会考虑其跨外显子的可能性,将reads劈开重新比对。
全长转录组(Full-length transcriptome)是基于PacBio和Nanopore三代测序平台,无需打断拼接,直接获得包含5’UTR、3’UTR、polyA尾的mRNA全长序列及完整结构信息,从而准确分析有参考基因组物种可变剪接及融合基因等结构信息,克服无参考基因组物种转录本拼接较短、信息不完整的难题。同时还可以借助二代测序数据,进行转录本特异性表达分析,获得更加全面的注释信息。
传统的使用比较多的长读长比对软件是GMAP,05年发表公布,最开始是用来比对低通量的est序列的,后来也有进一步升级为GSNAP支持高通量的二代测序。PacBio测序技术出现后,常用于Iso-seq转录本的鉴定,目前仍是相关研究引用量最高的比对软件,该软件也一直在持续更新升级。其可以将转录本序列与参考基因组序列比对,输出gff文件,比对速度稍慢。
Minimap2是生信大牛李恒18年用C语言开发的可以用于三代数据(subreads、iso-seq)比对的长序列比对软件,与传统的三代比对工具GMAP相比,其速度有非常显著的提升,当然同时消耗的内存也比较大。使用方法也比较简单,近几年引用次数增长的也很迅速,所以大家可以试试用minimap2进行Iso-seq的比对。
Sequencher -脱氧核糖核酸序列分析软件
Sequencher被设计成为与所有自动化的脱氧核糖核酸顺序器一起使用。它由于具备lightning-fast contig汇编、短的学习曲线、用户友好的编辑工具和雄厚技判拍术支持而广为人知。
差不多15年前发布, Sequencher作为序列分析工具当前被环球40个国家主要的遗传和制药公司以及许多院和政府实验室使用,成功完成了多项工作。
研究员应用Sequencher进行不同的脱氧核糖核酸序列分析。Sequencher用途包括de novo基因程序化,变化侦查、法庭人的证明,系统学和更多。
Sequencher作用范围包括异质接合体 SNP侦查和分析, cDNA对Genomic脱氧核糖核酸大空白对准线,比较程序化,带粗支持信心比分、ORF翻译, GenBank特点进口和制约酵素映射。
以下是“Sequencher”一些主要特点:
· 多种构形的脱氧核糖核酸汇编算法
· 全面脱氧核糖核酸序列的编辑工具
· 序列数据的完全支持
· 迅速和容易地发现SNPs的强有力的参考序列和变化表
· 制约映射
· 广泛的数据进口出口能力,包括定制GenBank特点处理
· 为法庭Mitotyping的专业工具
· 始终全面的HTML帮助掘行羡
友情声明:本文内容由用户自发奉献,本站文章量较多,不能保证每篇文章的绝对合法性,若您发觉违规/侵权内容,请尽快联系我们删除。