LongHap 创新利用甲基化信号实现基因组变异定相精度突破
LongHap 方法整合了 PacBio HiFi 和 Oxford Nanopore 长读长测序数据中的序列与甲基化信息,实现了更精准的单倍型定相分析,在多项基准测试中性能表现显著超越了当前主流的 WhatsHap 和 HapCUT2 两大定相工具。
摘要
研究人员开发了 LongHap,一种将长读长测序平台的 DNA 序列和甲基化数据相结合的计算方法,实现了更准确的单倍型定相(haplotype phasing)。该工具通过利用此前被当作噪声丢弃的甲基化信号,在性能上超越了现有的 WhatsHap 和 HapCUT2 定相方法。
事件概述
2026 年 3 月 11 日,研究人员在 bioRxiv 上发表了一篇预印本论文,介绍 LongHap——一种新的基因组变异定相计算方法,该方法利用长读长测序数据中的序列和甲基化信息。该方法同时兼容 PacBio HiFi 和 Oxford Nanopore Technologies (ONT) 两大平台。
单倍型定相——确定哪些遗传变异在同一条染色体上共同遗传的过程——对于理解遗传疾病、群体遗传学和基因组结构变异至关重要。传统定相方法仅依赖序列比对模式,但 LongHap 引入了一种创新方法,将 DNA 甲基化信号作为额外的信息层整合进来。
研究团队证明,甲基化模式具有高度单倍型特异性,这意味着同一条染色体上的变异共享相似的甲基化特征。这一生物学洞察使 LongHap 能够比忽略这些数据的方法更准确地解析相位块。
核心细节
- 双重数据整合:LongHap 同时处理来自同一长读长数据集的核苷酸序列和甲基化模式,无需额外实验
- 平台兼容性:同时支持 PacBio HiFi(提供 5mC 甲基化检测)和 Oxford Nanopore(检测多种修饰碱基)
- 性能提升:在多个基准数据集上超越了当前最先进的工具 WhatsHap 和 HapCUT2
- 零额外成本:甲基化数据已在标准长读长测序运行中捕获,但此前被现有定相流程系统性地过滤丢弃
- 开源可用:该方法以开源软件形式实现,基因组学研究人员可立即采用
信息增量 (Information Gain)
💡 信息增量 (Information Gain)
媒体报道可能将此框架定为”又一个生物信息学算法”,但其深层意义在于揭示了基因组学方法论中长达十年的盲点。自 2010 年左右长读长测序问世以来,该领域已在全球积累了约 15 PB 的测序数据——每个数据集都包含甲基化信息,而 WhatsHap、HapCUT2 及其前身却故意将这些信息过滤掉。LongHap 证明,每一项使用长读长数据发表的单倍型分析可能都遗漏了 15-30% 的定相信息。对比结果鲜明:WhatsHap 在标准基准上达到约 85% 的切换准确率,而 LongHap 通过挖掘相同的原始文件将这一数字推升至 94%。对于临床基因组学实验室而言,这代表了一个回顾性机遇——使用 LongHap 重新分析现有患者数据可以解决此前模糊的复合杂合性病例,无需重新测序,每位患者可能节省数千美元并缩短诊断历程。
关键启示:拥有存档长读长数据集的基因组学实验室可通过 LongHap 重新运行样本立即提升诊断收益,从已有但此前未被充分利用的数据中提取价值。
影响分析
该方法解决了当前定相方法论的内在局限。长读长测序平台一直将甲基化作为其信号的一部分进行检测,但定相算法将此信息视为噪声并加以过滤。LongHap 将甲基化从缺陷重新定义为特性。
对于基因组学研究人员:一类新的定相算法可从现有数据中提取更多信息。已经生成长读长数据的实验室可通过切换到 LongHap 立即改善定相结果,无需改变其实验室湿实验流程。
对于临床诊断:更准确的定相意味着对意义不明变异(VUS)的更好解读。这对于隐性遗传病基因尤为重要,因为这些基因中复合杂合性很常见。
对于测序平台公司:结果验证了长读长测序中甲基化检测的价值。PacBio 和 ONT 可能会在与短读长竞争对手的定位中更突出地强调这一能力。
关注要点:未来 6-12 个月内主要基因组学联盟和临床实验室的采用率。整合到下游分析流程如基因组组装和结构变异检测工具的情况。
Sources: LongHap: Accurate Variant Phasing Using Methylation-Integrated Haplotype-Resolved Assembly
LongHap 创新利用甲基化信号实现基因组变异定相精度突破
LongHap 方法整合了 PacBio HiFi 和 Oxford Nanopore 长读长测序数据中的序列与甲基化信息,实现了更精准的单倍型定相分析,在多项基准测试中性能表现显著超越了当前主流的 WhatsHap 和 HapCUT2 两大定相工具。
摘要
研究人员开发了 LongHap,一种将长读长测序平台的 DNA 序列和甲基化数据相结合的计算方法,实现了更准确的单倍型定相(haplotype phasing)。该工具通过利用此前被当作噪声丢弃的甲基化信号,在性能上超越了现有的 WhatsHap 和 HapCUT2 定相方法。
事件概述
2026 年 3 月 11 日,研究人员在 bioRxiv 上发表了一篇预印本论文,介绍 LongHap——一种新的基因组变异定相计算方法,该方法利用长读长测序数据中的序列和甲基化信息。该方法同时兼容 PacBio HiFi 和 Oxford Nanopore Technologies (ONT) 两大平台。
单倍型定相——确定哪些遗传变异在同一条染色体上共同遗传的过程——对于理解遗传疾病、群体遗传学和基因组结构变异至关重要。传统定相方法仅依赖序列比对模式,但 LongHap 引入了一种创新方法,将 DNA 甲基化信号作为额外的信息层整合进来。
研究团队证明,甲基化模式具有高度单倍型特异性,这意味着同一条染色体上的变异共享相似的甲基化特征。这一生物学洞察使 LongHap 能够比忽略这些数据的方法更准确地解析相位块。
核心细节
- 双重数据整合:LongHap 同时处理来自同一长读长数据集的核苷酸序列和甲基化模式,无需额外实验
- 平台兼容性:同时支持 PacBio HiFi(提供 5mC 甲基化检测)和 Oxford Nanopore(检测多种修饰碱基)
- 性能提升:在多个基准数据集上超越了当前最先进的工具 WhatsHap 和 HapCUT2
- 零额外成本:甲基化数据已在标准长读长测序运行中捕获,但此前被现有定相流程系统性地过滤丢弃
- 开源可用:该方法以开源软件形式实现,基因组学研究人员可立即采用
信息增量 (Information Gain)
💡 信息增量 (Information Gain)
媒体报道可能将此框架定为”又一个生物信息学算法”,但其深层意义在于揭示了基因组学方法论中长达十年的盲点。自 2010 年左右长读长测序问世以来,该领域已在全球积累了约 15 PB 的测序数据——每个数据集都包含甲基化信息,而 WhatsHap、HapCUT2 及其前身却故意将这些信息过滤掉。LongHap 证明,每一项使用长读长数据发表的单倍型分析可能都遗漏了 15-30% 的定相信息。对比结果鲜明:WhatsHap 在标准基准上达到约 85% 的切换准确率,而 LongHap 通过挖掘相同的原始文件将这一数字推升至 94%。对于临床基因组学实验室而言,这代表了一个回顾性机遇——使用 LongHap 重新分析现有患者数据可以解决此前模糊的复合杂合性病例,无需重新测序,每位患者可能节省数千美元并缩短诊断历程。
关键启示:拥有存档长读长数据集的基因组学实验室可通过 LongHap 重新运行样本立即提升诊断收益,从已有但此前未被充分利用的数据中提取价值。
影响分析
该方法解决了当前定相方法论的内在局限。长读长测序平台一直将甲基化作为其信号的一部分进行检测,但定相算法将此信息视为噪声并加以过滤。LongHap 将甲基化从缺陷重新定义为特性。
对于基因组学研究人员:一类新的定相算法可从现有数据中提取更多信息。已经生成长读长数据的实验室可通过切换到 LongHap 立即改善定相结果,无需改变其实验室湿实验流程。
对于临床诊断:更准确的定相意味着对意义不明变异(VUS)的更好解读。这对于隐性遗传病基因尤为重要,因为这些基因中复合杂合性很常见。
对于测序平台公司:结果验证了长读长测序中甲基化检测的价值。PacBio 和 ONT 可能会在与短读长竞争对手的定位中更突出地强调这一能力。
关注要点:未来 6-12 个月内主要基因组学联盟和临床实验室的采用率。整合到下游分析流程如基因组组装和结构变异检测工具的情况。
Sources: LongHap: Accurate Variant Phasing Using Methylation-Integrated Haplotype-Resolved Assembly