解码生命 守护健康

利用预先优化的基因设计开发新一代靶向测序的定制化Panel

2017-06-30 11:00:01IonTorrent

前言

靶向新一代测序Panel可研究不同样品中的多个基因靶点的多种变异类型,从而帮助研究者深入了解各种人类遗传疾病。然而,找出所有致病相关基因,开发出稳定高效的用于多重靶标检测的基因Panel、并实现可扩展、可重现、快速、准确、高效的分析流程仍是十分艰巨的挑战。为此,我们发布了一套实用且简便的遗传疾病研究工具


首先,我们开发了基因内容挑选引擎,可根据主流疾病数据库的定义分级查询各种人类疾病,并排序展示与选定疾病相关联的所有可信的基因。同时,我们开发了基因评分算法,基于机器学习,可根据各种来源的可信的研究数据或临床数据(如权威数据库,预测模型和文献报道)对特定疾病和基因的相关性进行打分和排序。基于这套工具,我们已经为最重要的1000个疾病相关基因开发了优化的Assay,并正在为其他4000个基因开发优化的Assay。

 


 

交互式的网页界面允许研究者选择任何感兴趣的疾病,并显示所有与之相关的基因,研究者可选择任意数量的疾病种类和任何相关基因或添加其他感兴趣的基因。研究者可在IGV(交互式基因组学查看器)控件中察看每个基因的设计区域,及实验室实际验证获得的经验性覆盖度数据,增添您的检测信心,避免意外的实验结果。选择这些已经优化的基因,即可构建定制化的AmpliSeq™基因Panel。您可以创建针对特定疾病的优化型基因Panel,也可以创建针对更广泛表型的大型基因Panel。该系统涵盖的疾病类别包括早发性的新生儿疾病如代谢病、严重的复合型免疫缺乏症(SCID)、血液病;以及迟发性疾病,如癌症易感和心血管疾病等。

 

所创建的Panel的内涵将被无缝的整合到端到端的分析中。适用于单人样品、三人家庭样品(Trio)和肿瘤-正常比对样品(Tumor-Normal)等多种分析流程,包括基因谱图比对、变异检出,功能注释、蛋白质预测、以及根据公共数据库信息做出的详细的变异和基因注释,最后经过筛选和报告,完成分析过程。


 

方法

基因挑选引擎

MeSH数据库的疾病层级结构与DisGeNET数据库的基因-疾病相关性数据的结合,构成了我们的基因挑选引擎。MeSH提供了一整套展示疾病大类到子类的从属关系层级图表;例如,“自体免疫性疾病”是“类风湿性关节炎”的上级疾病分类,“青少年类风湿性关节炎”是“类风湿性关节炎”的下级疾病分类。

 

图表上的每个节点,即表明一种或一类遗传疾病,与之相关的基因的挑选就是根据DisGeNET数据库对每种致病基因及其引发的疾病之间的相关性评分给出的。总之,将疾病层次结构与基因-疾病对相关性评分机制相结合,为寻找与任意疾病相关基因,或在任意层级的疾病分类中精准定义更重要的基因提供了一种实用的、简便的方法。在此基础上开发的基因评分算法(GSA)就可以给出下级分类疾病相关基因对特定上级分类疾病的综合影响。

 

由此,最终的数据库将包含Y基因和Z疾病(包括孟德尔遗传病和复杂遗传病)之间的X个关联关系的数据信息。


疾病基因评分即Rank-Weighted Sum Score(RWSS,秩加权综合评分)是一种无偏差的基因评分方法,可以指示基因-疾病对的数量和相关性强弱。GSA模块将DisGeNET评分作为输入变量,并使用RWSS方法对感兴趣的特定疾病的基因进行优先级排序。结合基因挑选引擎,GSA模块可以针对任意疾病层级下的一种或多种疾病,生成一个基因排名表。

 

DisGeNET根据基因-疾病相关性证据等级对其进行评分和排序。DisGeNET基因-疾病相关性评分将多种证据来源纳入考量,包括治愈水平,生物预测模型,以及海量的论证该基因-疾病关联的文献的数量及其论据的可靠性等等都涵盖在内。最终的评分用一个范围在0至1区间内的数量表示。每个DisGeNet分数中,平均0.1分相当于约有3个明确的证据来源支持,0.25分差不多表征约有4-5个明确证据支持一种特定的基因-疾病的相关性。

 

优化的AmpliSeq™ On-Demand基因(可按需定制化的基因)

我们开发了一个名为“优化循环”的优化流程,用于设计、衡量、改进和重新设计特定基因的检测方法。我们还开发了一个定制化Assay的设计流程,整合了所有可用的信息。我们将完成的基因设计投放生产,测量关键指标进行扩增性能评估,再将它们随机混合成若干文库,重新测量引物对的相互干扰和作用对扩增性能和基因覆盖的影响,共有10种有代表性内容量的Panel被创建出来用于评估——Panel的大小范围17到300个基因之间(约322至8320个扩增子)。所有的基因均被设计为2管引物,扩增子的最大长度为275碱基。


 疾病类别和相关基因

层级为1的疾病分类下所包含的相关基因。截至2017年5月, AmpliSeq™ On-Demand基因数已经超过了1000个。


注:MVP基因(即On-Demand 1阶段上市后所包含的最重要的1000个疾病相关基因)



 


 


 

结果

 

稳定、高效的 AmpliSeq™ On-Demand 基因 Panel(基因按需定制型)。


AmpliSeq™ On Demand Assay的基因设计全面覆盖其外显子区域。虽然最小的外显子侧翼区掺入序列长度为5个碱基,但大多数基因的扩增子设计通常都超出外显子侧翼50个碱基或更多。基因的扩增子数量范围在1至303之间。
 

 

我们通过“优化循环”流程获得了一系列高性能的基因Assay:大多数基因扩增子具有100%的原位覆盖率和100%的均一性。均一性是指读取深度≥平均读取深度0.2倍的中靶碱基的百分比。均一性指标通常在Panel水平进行测量,也可在基因水平上进行测量。


无缝衔接的基于疾病或基因目录的Ion AmpliSeq™ On-Demand 基因 Panel设计
 

 

通过疾病层级结构浏览或挑选基因

我们开发了一个在AWS(AmpliSeq网站服务器)上运行的交互式网站,从而实现无缝衔接的、快速且全面的基因Panel设计工作流程。该网站可通过AmpliSeq.com来访问。

 

一个典型的AmpliSeq™ On-Demand 基因 Panel 的定制可从特定的疾病层级中选择全部或部分经过优化的基因目录来实现。它可以仅针对特定疾病来创建优化的基因Panel,也可以针对更广泛的表型来定制更全面的基因Panel。

 

浏览疾病的各个层级结构,可了解与之相关的基因数量。通过勾选任意层级或跨层级组合下的任意数量的疾病选项,即可产生一个选中疾病相关的基因目录,并按照其综合评分排序。用户可勾选或取消勾选目录中的预优化的基因,从而创建一个Ion AmpliSeq™ On-Demand 基因Panel,不在推荐目录范畴内的其他用户感兴趣的基因也可通过手动的方式进行补充。

 

提交基因列表来设计Panel或者,用户也可以不通过浏览疾病层级的方式,而是通过搜索感兴趣的基因或上传基因列表来创建基因Panel。

 

可提供的Panel规格

目前我们可提供的Panel有两种:分别是每个Panel含1-50个基因,或者含51-300个基因,最低扩增子数量要求为24,最大为9000。

 

添加Spike-In Panel (补充Panel)

若用户感兴趣的基因不在目前可提供的按需定制化基因目录中,用户也可通过单独订购一个Spike-in Panel来进行补充,该Spike-in Panel可混入到Ion AmpliSeq™ On-Demand Panel中。Spike-in Panel亦可定制化生产,并提供大规格包装。

 

使用IGV(交互式基因组浏览器)控件查看碱基、扩增子、基因的设计及性能

所有按需定制化的基因在Assay开发的阶段都已经过测试和验证,包含了一系列真实的性能数据,可在AmpliSeq.com上获取,供用户经验性参考。IGV可显示On-Demand Panel中每个基因的外显子位置,每个碱基的覆盖情况,以及每个扩增子的设计区域和覆盖等一系列信息,并标注了实测的经验性能数据,这让用户可确保Panel里的扩增子能够覆盖所有重要的碱基,并且性能良好,有利于增添检测信心,减小传统定制不可避免的数据质量不好的风险。

 

干血斑和冷冻样品的Panel均一性指标(来自2个Panel的实例)


 

使用Ion S5™系统对Panel进行测序


Panel均一性:在两个Panel的检测实例中,从配对的冷冻样品(深色柱)和干燥血液样品(浅色柱)制备所得文库的均一性;血液病Panel具有136个基因,类风湿关节炎Panel具有30个基因。样品起始量为10 ng。误差线表示±1 SD

 

可在Ion所有的测序仪(包括Ion S5™系统)上运行Ampliseq™ On-Demand文库,从DNA文库制备到获得测序结果可在短短24小时内完成,并且手工操作时间不超过45分钟。

 

数据分析:从变异检出、注释、功能影响评估到优先排序的完整过程

Ion Reporter™ 软件为AmpliSeq™ On-Demand 基因Panel提供了端到端无缝衔接的分析解决方案,涵盖了基因谱比对、变异检出和CNV检测,适用于单一样品、三人家庭样品(Trio)和肿瘤-正常比对样品(Tumor-Normal)等各种分析流程。该软件可完成从基因谱比对,变异检出,到之后的功能注释、蛋白质预测,以及外链公共数据库进行详细的变异基因注释等工作,并过滤无效信息,优先排序有效信息以及最终生成报告。

 

结论

本文描述了一个完整的遗传病研究领域端到端的靶向新一代测序解决方案,从挑选和感兴趣的疾病相关的基因,到优化的扩增子设计以及从可定制化的目录中快速配置所需的基因来进行新一代测序和数据分析。该Panel对样品量的要求极低,仅需10ng的起始DNA即可;此外,直观的数据分析可自动化进行,支持SNP和Indel检测,以及注释、过滤和优先排序等功能。
 

 

 


参考文献,其他信息参见海报P14.069A:‘A novel method for building custom AmpliSeq™ panels using optimized PCR primers.’ Steve Roman et al.


资料仅限研究用途,不可用于诊断操作。