解码生命 守护健康

专题 | 市售医学外显子大Panel基因覆盖初步统计

2017-05-13 03:11:10基因检测与解读

前言

      本周国内基因科技新锐公司艾吉泰康®(iGeneTech)发布了一款医学外显子捕获测序产品AImedExome,该产品包括5083个基因,游侠也在第一时间拿到了这款产品具体的基因列表,与小panel相比,医学外显子大panel能够同时检测更多的基因并且一个产品更容易管理,与全外显子相比,它没有检测临床无关基因避免了数据浪费并且提高了测序的深度(一般遗传病panel 200X,全外显子100X),而且更有性价比,数据分析也相对容易。作为遗传分析师,我最关心的不是基因数目的多少而是已经确认的单基因遗传病到底有多少基因被覆盖。本文收集整理了市面上已有的医学外显子捕获试剂盒,对单基因遗传病相关基因的覆盖程度作一个初步的评估,希望对大家有所帮助。

以上信息除了艾吉泰康®之外,其他全部来自相应公司官网(见下文链接)。

OMIM基因覆盖统计

     OMIM网站作为遗传学最权威的数据库,一直为临床遗传学家所参考,并且其新基因更新的也非常迅速,几乎每周都有新基因更新,OMIM收录的基因非常多,很多没有明确致病或明确功能的基因也有收录,我们整理单基因遗传病相关基因列表如下:首先在OMIM网站下载genemap2数据库(生成日期为2017年4月19日),然后在表型列选择含有(3)(表示分子机理明确)的记录,接下来去除含有{}(代表易感基因或多基因因素等)和[](代表表型为性状而非疾病)符号的记录,如果一个基因有多种表型

如PCSK9,只要其有一种为明确的单基因遗传病,就可纳入基因列表,这样筛选下来共有3333个基因,而我们在OMIM网站统计页发现有3352个明确分子致病机理的基因,今年5月份有一篇文章(pmid:28475856)公布的数字是3206个,这么看来大概是这么个级别,虽然不是非常精确。然后我们将三家公司的基因列表与OMIM的3333个基因进行比较,为了避免因为基因名称更换导致的统计错误,我们同时对3333个基因其他名称(alternative gene symbol)进行了比对统计,结果如下,Agilent、IDT及iGeneTech分别覆盖了其中的2455、2603和3120个基因。

同时为了保证基因列表的准确性,我们统计了iGeneTech基因列表中不在3333个基因范围内的其他1000多个基因,并在genemap2数据库中查看这些基因主要归为3类,一类是表型数据暂缺,二是易感或多因素表型,三是表型为性状而非疾病。

HGMD数据库基因覆盖统计

      HGMD作为业内最常用的基因突变数据库,它通过人工的方式收集整理了目前文献报导的绝大部分位点,对日常的临床基因诊断工作起着非常重要的作用,并且市面上的Panel设计大多也会参考该数据库,但是目前该数据库不仅收录罕见的致病位点信息同时也收录一些关联位点信息,我们无法将其简单的分离开,也正好与OMIM形成互补,统计整理了最近HGMD发布的收录基因6304个,然后我们将三家公司的基因列表与这6304个基因进行比较,结果如下:

Agilent、IDT及iGeneTech分别覆盖了其中的2516、3657和4157个基因。

DDD数据库基因覆盖统计

      “DDD计划”是一项创新型的罕见病课题项目,DDD是Deciphering Developmental Disorders三个单词首字母的缩写,主要目的在于破译儿童先天性发育异常的遗传因素,由卫生部、英格兰医疗创新挑战基金以及Wellcome Trust Sanger 研究所(世界最知名的遗传研究所之一)共同资助。在英国23个地区级遗传学中心的支持下,“DDD计划”在儿童至青年年龄段收集了目前尚未确诊、症状复杂的先天性发育障碍样本。截止目前该项目发现的候选遗传发育异常基因已有2228个(https://decipher.sanger.ac.uk/ddd#ddgenes),其中有很多基因之前未见报导OMIM也未收录,这些基因与突变位点都可以在DECIPHER数据库免费下载,相关的临床表型也很完整,那我们就在这样含有很多新基因的情况下看看三个产品的基因列表覆盖情况。结果如下:

Agilent、IDT及iGeneTech分别覆盖了其中的1255、1317和1536个基因。

      此外,艾吉泰康®的AImedExome产品在质控中率先使用了中国人群多组学标准物质Chinese Quartet(FudanCohrt),进行Germline mutation QC质控验证,并且经过全基因组测序、全外显子组测序、转录组测序以及基因分型等多维度数据对照,使得AImedExome产品在东亚人群中得到更加准确、合理与真实的论证,让该产品在中国人群中医学应用价值得以实现。

总结

      本文初步评测了市面上主要的三家医学外显子大Panel基因在三个数据库中基因列表的覆盖情况,从结果来看,艾吉泰康®的捕获产品覆盖的基因最多,当然其捕获区域也最大,意味着同样测序深度需要更大的数据量,提高了后面测序的成本,但是据说艾吉泰康®试剂盒本身价格比其他两家更有优势。从推出时间上看,艾吉泰康®刚推出,而Agilent的产品推出最早,IDT次之,这也可以解释他们在基因数目上的差异,另外Agilent最新推出的Clinical Research Exome v2(捕获区域65.7M)和Nimblegen推出的产品Medexome(捕获区域47M)都是在其自家科研外显子基础上优化的超大医学外显子,对于发现遗传病新基因很有优势。实际上一款捕获产品的好坏还要取决于很多其他的因素,比如捕获的均一性、捕获区域数据量占总数据量的比例、重复序列占比、对同源基因的区别等等,而这些指标还与实验操作人员的技术水平密切相关,很难准确评估,另外这些捕获产品可能在CNV致病区域设计探针,考虑到评测难度,本文并未对这方面比较。


 

本文在撰写过程中得到北京希望组高勇博士的帮助,在此表示衷心的感谢!

参考资料

xGen® Inherited Diseases Panel

https://eu.idtdna.com/pages/products/nextgen/target-capture/xgen-lockdown-panels/xgen-inherited-diseases-panel

 

ClearSeq Inherited Disease

http://www.genomics.agilent.com/article.jsp?pageId=6900001#ID

 

SeqCap EZ MedExome Kit

 http://sequencing.roche.com/products/nimblegen-seqcap-target-enrichment/seqcap-ez-system/seqcap-ez-medexome.html

 

SureSelect Clinical Research Exome V2

http://www.genomics.agilent.com/en/SureSelect-DNA-Target-Enrichment-Baits-/Clinical-Research-Exome-/?cid=AG-PT-124&tabId=AG-PR-1310