遗传病基因检测讨论：马端、郭一然、丁灿

2018-03-13 14:08:22顾大夫工作室

顾大夫沙龙第一期“如何解决遗传病基因检测结果未明的问题”举办之后，我们发起征集相关专业人士的意见和建议，将陆续分享。之后我们将整理汇总沙龙讲者、嘉宾和各位专业人士的意见，以纪念册方式发布。希望更多的人一起努力，共同推动行业发展。

顾大夫沙龙第一期感想（附内容梳理文章链接）

本期分享意见的专业人士（排名不分先后）：

马端复旦大学出生缺陷研究中心

郭一然费城儿童医院

丁灿德国Centogene实验室

马端

围绕“如何解决遗传病基因检测结果未明的问题”这个主题，我的思考与建议如下：

1、基因检测结果未明的对象主要包括染色体片段或CNV、小片段重复序列或小片段缺失、临床意义不明确的基因（VUS）、已知致病基因的可能致病性变异、意义不明确的变异和可能良性变异。

2、发生“基因检测结果未明”的原因主要有：（1）样本收集和处理不当；（2）检测错误；（3）生物信息学分析不充分；（4）人为分类不准确；（5）医学遗传学知识缺乏导致判断错误；（6）变异所致的功能改变未明。

3、解决问题的方法：（1）针对2中的前五个问题，一一设法避免和改进；（2）获取各种变异的人体大数据结果，通过遗传与生物统计分析确定变异与疾病表型的关系，要特别关注不同种族和人群之间的差异；（3）通过基因编辑、基因敲除、条件基因敲除或变异载体敲入等动物模型，根据表型判断其致病性；（4）在病变组织所属的细胞层面，采用动物模型类似的方法，判断变异对细胞表型和功能的影响。

疾病发生的遗传学病因，需要不断的研究积累，才能使未知成为可知。对于已知致病基因的检测与解读，更多的是需要知识的扩充和方法学的正确应用。只期待一份基因检测报告就能够指导临床的诊断和治疗，是不切实际的。

郭一然

2018年1月27日，顾大夫工作室举办了第一届沙龙，各位专家、老师围绕基因检测进行了广泛且深刻的讨论。我当时在美国费城全程收听了沙龙的在线直播，获益匪浅。并且，我很荣幸能够收到顾大夫邀请，对相关话题发表自己的一些看法。

首先，我认为以下三点是很值得仔细思考并探讨的（请注意，癌症／肿瘤的体细胞基因检测、消费者级别的基因检测等非遗传病基因检测不在此列）。

第一，有必要完善诊断机制，向最有可能是遗传性疾病的患者推荐临床遗传学检测。于是，如何界定“最有可能是遗传性的疾病”便成为我们必须面临的问题。表型明确并且症状典型的疾病相对容易判断。但如果表型不明确或症状不典型，那么确诊时就要求医生具备丰富的临床经验、能够追踪最新的文献，并且同时至少熟悉分子生物学、细胞生物学、医学遗传学、人类基因组学等等学科的基本概念。很显然，目前能够达到这种理想状态的医生可以说是非常少的。因此，现实情况下如果打算更准确地判断患者是否有很大可能患有遗传性疾病，我认为一方面要控制“假阳性”，即对遗传学贡献较小的疾病（根据经验及文献），暂缓进行基因检测，这将从源头减少难以解释的检测报告。另一方面要控制“假阴性”，即重视那些散落在众多科室中的疑难罕见病，并且要特别注意收集家族史、既往病史等。据我所知，全国著名的上海儿童医院的康复科便集中了不少遗传性、先天性罕见疾病的患者，而无论从临床还是科研角度来看，对这些患者进行基因检测都是十分必要的。

第二，基因检测数据的归属权。2018年2月第35卷第1期的《中华医学遗传学杂志》刊登了“临床基因检测报告规范与基因检测行业共识探讨”，对2017年10月底的深圳研讨会进行了全面总结，其中就提到“数据的所有权归于受检者本人，这是大部分临床专家和检测机构的共识”。我也支持这种观点，受检者才是自己基因乃至健康信息与数据的拥有人。从某种角度讲，检测机构用生命科学、信息科学等软硬件方法将这些信息提取出来，临床医生用自己的知识及经验对这些信息进行分析汇总、给出专业的医学建议，而经过加工处理过的信息应该归受检者拥有。但未来相当长的一段时间内，绝大多数作为普通人的受检者不大可能掌握相关的知识、经验、方法及工具，其中很多人对基因检测结果的心理承受能力也不尽相同。因此，如何帮助受检者分析处理并解读这些数据、如何与受检者沟通基因检测结果、如何提前安排好预案以面对受检者及家属的问题及顾虑等等，都是我们面临的实际问题。

第三，科研与临床的连接十分重要。最近一两年来，中国研究机构领导的遗传病新基因发现逐渐增多，这令人十分欣慰。然而就目前基于外显子组测序的遗传诊断来讲，即使经过不断的再分析，其中仍有50%－75%的阴性案例无法找到致病变异或基因，这其中蕴含了巨大的潜力与可能。两天前我参加了加拿大东安大略儿童医院Dr. Kym Boycott教授的一场报告，她主要讲解了加拿大的罕见遗传病研究，而她参与领导的PhenomeCentral也是国际合作项目Matchmaker Exchange（MME）的创始会员。MME还包含GeneMatcher，DECIPHER， Monarch等罕见遗传病新基因发现方面的常用网址与工具，我最近也录制了介绍GeneMatcher具体使用方面的视频。如果中国能建立自己的类似平台，那必然将极大的加速科研进展，进而推动阴性案例到阳性案例的转化，造福患者。当然这是一个较大的工程，我也希望与有类似想法的机构和老师一起讨论如何构建实施。

接下来，我对如下问题给出自己的一些看法，与各位同仁探讨。

1、基因检测报告的结果如何建立再分析流程？

这里讨论的再分析，我理解是狭义的数据重分析，即对已有基因检测数据进行重新挖掘。理想状态下，重分析模块应该整合在基因检测数据分析系统中，并可以自动更新已有数据库，甚至可以手动添加新的数据源作为参考（比方说，如果从某个时间点开始我们可以查询一个公共的、大样本的、中国人遗传变异数据库，那么该系统就应该尽快将其整合进分析流程），与此对应，也应该为排除某个过时的数据源保持开放态度（比方说，如果从某个时间点开始我们觉得某个已有数据库中的信息过于陈旧或包含过多的错误，那么该系统也应该考虑将此数据库从分析流程中排除掉）。

另外，在检测结果为阴性的病例中，是否可以对导致阴性结果的不同原因进行分类，并给出类似“可能性”的分数。比如：相关基因的外显子区域覆盖度不足，隐性遗传病缺乏第二个致病性等位基因变异，分析流程的系统性缺陷如剪接位点附近所考虑的基因组区域过小，缺乏CNV检出流程等等。如果经过重分析后仍然是阴性，那么我们就可以利用统计学中的最大似然估计/贝叶斯方法（通俗地讲就是“后验=先验X标准似然”）继续修正该后验概率，逐步推断最有可能的、导致结果阴性的原因。如此反复，虽然阴性结果最终不一定变为阳性结果，但这对优化流程、寻找流程中的系统性缺陷是有帮助的。当然这是理想状态，现实操作可能会有所不同。

而广义的再分析则应该包含审视阴性报告所采用的基因检测方法本身的局限（比如在基因的覆盖程度方面，基因包测序<医学/临床外显子组测序<全外显子组测序<全基因组测序；在串联重复等特殊基因组区域的检测方面，各种方法也有优劣之分）。

2、临床医生与检测机构如何更好地连接以提高检测效率？

各位老师都提出了实际问题与解决办法，我认为沟通是关键。理想状态下，检测机构可以考虑选聘具有更高沟通技巧、真正经历过并熟悉完整基因检测流程的专业人员对接临床。

3、如何基于更完善的数据库进行分析？

事实上这是两个问题，即首先要有更完善的数据库，其次才是如何基于这种更完善的数据库进行分析。因为第二个问题相对容易解决，所以这里只谈第一个问题，很多老师也提到了，我觉得关键是共享。由于表型数据的共享更有可能涉及受检者的隐私，因此这里更多地讨论基因组信息的共享。

理想状态下，某个联盟在不影响各联盟成员具体利益的前提下负责收集来自各成员检测机构的基因组学数据，并定期更新发布，供联盟内的成员共享。现实中，我们可以从影响检测机构利益最小的方面开始，即只对公共（或业界流行的）数据库中的部分变异位点进行共享。

举例来说，是否可以把某版本的HGMD专业版数据库中所有位于21号染色体的变异列出来（因为人类基因组中第21号染色体最短，所以方便起见就选chr21），目前是1400个左右，然后让该联盟中的成员（检测机构）提交这些变异在各自私有数据库中的频率（我相信大多数是0；由于频数［具体计数］比频率［一个比率，如百分比］更能体现检测机构的私有数据库大小，所以暂时只收集频率信息）。由于大多数HGMD收录的位点是遗传性疾病的致病性变异（有文献支持），因此我们可以认为这些私有数据库就相当于普通健康人群的基因组数据库，进而这些致病性位点在各个私有数据库中出现的频率也应该是极低的，除非某机构刚好也对患有相同遗传病的患者进行了基因检测。假设10家检测机构参与该项目，那么我们就可以想象一个1400行X10列的（稀疏）矩阵，如果再加上几列公共数据库如gnomAD，HLI，中华基因库中的频率信息（此处忽略族裔选取等细节问题），那么我们就可以对1400个变异中的每一个进行评估，看它在这13个数据库中的频率是否与该变异所能导致的疾病发病率相类似（可以用统计学中的假设检验方法算p值）。这就相当于对HGMD进行了改进/增强，并且为各个变异给出了一个分数，这在此后的分析流程中会十分有用。

继续举例来说，如果某个HGMD中收录的变异具有很小的p值（即应该拒绝原假设：其在这13个数据库中的频率与该变异所能导致的疾病发病率相类似），则报道该变异的文献更有可能是假阳性报告，于是可以降低其在分析流程中的优先级，甚至可以直接过滤掉。

通过这种方法，联盟中各成员的利益既得到了很大程度上的保护（只需要共享HGMD收录的变异在自己数据库中的频率），各成员又可以利用彼此所收集的信息（以p值的形式呈现出来）优化流程、减轻变异解读的工作量。

另外一种方法就是，对这1400个位点逐一回答如下两个问题：私有数据库是否包含该位点？如果包含，那么与此位点相关联的受检者的表型是否与HGMD中收录的一致？当然这种方法则需要联盟成员披露表型信息。

4、数据如何共享和质控？

共享的具体方法可以从上面一个回答的设想开始。质控方面各位老师及生物信息学专家们已经讨论很多，不再赘述。

5、如何探索建立疾病诊断解决方案？

对不同的疾病种类，有不同的做法。我在回答问题前的第一点中谈到了一些。

6、各种检测技术如何更好地联合应用？

就如各位老师所说，应该发挥各种技术的专长，在受检者经济条件允许的前提下尽量提供最准确的检测。

丁灿

1、基因检测报告的结果如何建立再分析流程？

这项工作是很系统的。对于WES，WGS阴性结果，一般由接诊患者的临床医生详细查体，作为undiagnosedcases进入研究项目。美国和欧洲都已经建立了各自的、成系统的联盟，汇集了一定量之后，研究探索能够产生更好的效果。

在临检实验室的实际操作中，鉴于OMIM等数据库以及PubMed文献的发表速度，定期对阴性的WES，WGS进行分析，这些阴性病例也有转为诊断明确病例的可能性。如果接诊医生申请，患者同意支付一定的再分析费用，这项工作一定能够更好地开展起来。

2、临床医生与检测机构如何更好地连接以提高检测效率？

毕竟NGS广泛应用是最近十多年的事情，临床遗传专科更是一门很新的专科，而在中国，这个专科暂时是欠缺的。因此，接触基因检测，送检并阅读检测报告的临床医生们已然是具备新头脑，努力汲取新知识的先行者们了。鉴于国内同行们的日常劳动强度，我个人认为，检测机构加强与医生的沟通，理解医生的需求是比较可行的。针对医疗实践中的具体情况，通过双向的沟通，共同打磨出清晰、可靠的检测报告，方便日常医疗实践。

3、如何基于更完善的数据库进行分析？

虽然我们公司维护着目前世界上最大的样本数据库CentoMD，但我个人更倾向于ClinVar这样完全开放的数据库，因为开放的数据库可以让更多的患者受益。如果不考虑国界，我个人支持所有的Lab把数据统一存放到ClinVar。考虑国界的话，那么一个中国人的ChinaVar也是一个不错的选择。

4、数据如何共享和质控？

共享的前提是质量可靠。目前CAP和EMQN是国际通用的质控标准，分别是美国病理学家协会Collegeof American Pathologists和欧洲分子遗传检测协作组European Molecular Genetics Quality Network的标准。在质控上，中国国家层面的标准应该早日建立并且完善起来。

各个实验室有了质量可信的数据之后，可以考虑存到国家genome 数据库中，以期早日建立起我们的reference库。

5、如何探索建立疾病诊断解决方案？

这个问题在我看来其实更多的是国家的医疗体制。现阶段很好的分级诊疗制度还没有很好的建立。如果能够建立很好的分级诊疗制度，罕见的遗传病由家庭医生或社区医生转诊到专科/儿科医生处，汇集到相关的亚学科专家手中，由专家主导确诊或者纳入诊断未明的项目中进行跟踪。确诊之后长期随访可以再回到家庭医生，在专家指导下进行综合治疗。这样患者和家庭能够得到最优的医疗和指导。

6、各种检测技术如何更好地联合应用？

这个其实是我们临床遗传医师的职责范围了。针对不同的病情，不仅需要考虑不同的检测技术，也需要考虑不同的组织标本了。

其他：人工智能很有前景

我个人比较关注IBM公司的Dr.Watson。2015年马堡大学的医生在会议中介绍了他们与IBM合作进行罕见病诊断的研究。沃森的表现非常强劲耀眼，录入病人详细的病例资料后，5分钟之内沃森就能给出一个列表，按照相关性列出鉴别诊断。诊断正确率很高，给医生提供了非常棒的指导，进行基因检测也能够更加有针对性。2017年沃森更加用10分钟就完成了专家团队160个小时的肿瘤全基因组分析，得到的结果也和专家们不相上下。

解码生命守护健康