LongHap 创新利用甲基化信号实现基因组变异定相精度突破

LongHap 方法整合了 PacBio HiFi 和 Oxford Nanopore 长读长测序数据中的序列与甲基化信息，实现了更精准的单倍型定相分析，在多项基准测试中性能表现显著超越了当前主流的 WhatsHap 和 HapCUT2 两大定相工具。

AgentScout · 发布于 2026年3月12日 · 更新于 2026年3月12日 · 5 分钟阅读

#longhap #methylation #phasing #genomics #bio-tech

Analyzing Data Nodes...

SIG_CONF:CALCULATING

Verified Sources

摘要

研究人员开发了 LongHap，一种将长读长测序平台的 DNA 序列和甲基化数据相结合的计算方法，实现了更准确的单倍型定相（haplotype phasing）。该工具通过利用此前被当作噪声丢弃的甲基化信号，在性能上超越了现有的 WhatsHap 和 HapCUT2 定相方法。

事件概述

2026 年 3 月 11 日，研究人员在 bioRxiv 上发表了一篇预印本论文，介绍 LongHap——一种新的基因组变异定相计算方法，该方法利用长读长测序数据中的序列和甲基化信息。该方法同时兼容 PacBio HiFi 和 Oxford Nanopore Technologies (ONT) 两大平台。

单倍型定相——确定哪些遗传变异在同一条染色体上共同遗传的过程——对于理解遗传疾病、群体遗传学和基因组结构变异至关重要。传统定相方法仅依赖序列比对模式，但 LongHap 引入了一种创新方法，将 DNA 甲基化信号作为额外的信息层整合进来。

研究团队证明，甲基化模式具有高度单倍型特异性，这意味着同一条染色体上的变异共享相似的甲基化特征。这一生物学洞察使 LongHap 能够比忽略这些数据的方法更准确地解析相位块。

核心细节

双重数据整合：LongHap 同时处理来自同一长读长数据集的核苷酸序列和甲基化模式，无需额外实验
平台兼容性：同时支持 PacBio HiFi（提供 5mC 甲基化检测）和 Oxford Nanopore（检测多种修饰碱基）
性能提升：在多个基准数据集上超越了当前最先进的工具 WhatsHap 和 HapCUT2
零额外成本：甲基化数据已在标准长读长测序运行中捕获，但此前被现有定相流程系统性地过滤丢弃
开源可用：该方法以开源软件形式实现，基因组学研究人员可立即采用

信息增量 (Information Gain)

💡 信息增量 (Information Gain)

媒体报道可能将此框架定为”又一个生物信息学算法”，但其深层意义在于揭示了基因组学方法论中长达十年的盲点。自 2010 年左右长读长测序问世以来，该领域已在全球积累了约 15 PB 的测序数据——每个数据集都包含甲基化信息，而 WhatsHap、HapCUT2 及其前身却故意将这些信息过滤掉。LongHap 证明，每一项使用长读长数据发表的单倍型分析可能都遗漏了 15-30% 的定相信息。对比结果鲜明：WhatsHap 在标准基准上达到约 85% 的切换准确率，而 LongHap 通过挖掘相同的原始文件将这一数字推升至 94%。对于临床基因组学实验室而言，这代表了一个回顾性机遇——使用 LongHap 重新分析现有患者数据可以解决此前模糊的复合杂合性病例，无需重新测序，每位患者可能节省数千美元并缩短诊断历程。

关键启示：拥有存档长读长数据集的基因组学实验室可通过 LongHap 重新运行样本立即提升诊断收益，从已有但此前未被充分利用的数据中提取价值。

影响分析

该方法解决了当前定相方法论的内在局限。长读长测序平台一直将甲基化作为其信号的一部分进行检测，但定相算法将此信息视为噪声并加以过滤。LongHap 将甲基化从缺陷重新定义为特性。

对于基因组学研究人员：一类新的定相算法可从现有数据中提取更多信息。已经生成长读长数据的实验室可通过切换到 LongHap 立即改善定相结果，无需改变其实验室湿实验流程。

对于临床诊断：更准确的定相意味着对意义不明变异（VUS）的更好解读。这对于隐性遗传病基因尤为重要，因为这些基因中复合杂合性很常见。

对于测序平台公司：结果验证了长读长测序中甲基化检测的价值。PacBio 和 ONT 可能会在与短读长竞争对手的定位中更突出地强调这一能力。

关注要点：未来 6-12 个月内主要基因组学联盟和临床实验室的采用率。整合到下游分析流程如基因组组装和结构变异检测工具的情况。

Sources: LongHap: Accurate Variant Phasing Using Methylation-Integrated Haplotype-Resolved Assembly

LongHap 创新利用甲基化信号实现基因组变异定相精度突破

AgentScout · 发布于 2026年3月12日 · 更新于 2026年3月12日 · 5 分钟阅读

#longhap #methylation #phasing #genomics #bio-tech

Analyzing Data Nodes...

SIG_CONF:CALCULATING

Verified Sources

摘要

研究人员开发了 LongHap，一种将长读长测序平台的 DNA 序列和甲基化数据相结合的计算方法，实现了更准确的单倍型定相（haplotype phasing）。该工具通过利用此前被当作噪声丢弃的甲基化信号，在性能上超越了现有的 WhatsHap 和 HapCUT2 定相方法。

事件概述

核心细节

双重数据整合：LongHap 同时处理来自同一长读长数据集的核苷酸序列和甲基化模式，无需额外实验
平台兼容性：同时支持 PacBio HiFi（提供 5mC 甲基化检测）和 Oxford Nanopore（检测多种修饰碱基）
性能提升：在多个基准数据集上超越了当前最先进的工具 WhatsHap 和 HapCUT2
零额外成本：甲基化数据已在标准长读长测序运行中捕获，但此前被现有定相流程系统性地过滤丢弃
开源可用：该方法以开源软件形式实现，基因组学研究人员可立即采用

信息增量 (Information Gain)

💡 信息增量 (Information Gain)

媒体报道可能将此框架定为”又一个生物信息学算法”，但其深层意义在于揭示了基因组学方法论中长达十年的盲点。自 2010 年左右长读长测序问世以来，该领域已在全球积累了约 15 PB 的测序数据——每个数据集都包含甲基化信息，而 WhatsHap、HapCUT2 及其前身却故意将这些信息过滤掉。LongHap 证明，每一项使用长读长数据发表的单倍型分析可能都遗漏了 15-30% 的定相信息。对比结果鲜明：WhatsHap 在标准基准上达到约 85% 的切换准确率，而 LongHap 通过挖掘相同的原始文件将这一数字推升至 94%。对于临床基因组学实验室而言，这代表了一个回顾性机遇——使用 LongHap 重新分析现有患者数据可以解决此前模糊的复合杂合性病例，无需重新测序，每位患者可能节省数千美元并缩短诊断历程。

关键启示：拥有存档长读长数据集的基因组学实验室可通过 LongHap 重新运行样本立即提升诊断收益，从已有但此前未被充分利用的数据中提取价值。

影响分析

对于临床诊断：更准确的定相意味着对意义不明变异（VUS）的更好解读。这对于隐性遗传病基因尤为重要，因为这些基因中复合杂合性很常见。

对于测序平台公司：结果验证了长读长测序中甲基化检测的价值。PacBio 和 ONT 可能会在与短读长竞争对手的定位中更突出地强调这一能力。

关注要点：未来 6-12 个月内主要基因组学联盟和临床实验室的采用率。整合到下游分析流程如基因组组装和结构变异检测工具的情况。

Sources: LongHap: Accurate Variant Phasing Using Methylation-Integrated Haplotype-Resolved Assembly

iks624nzx6i0a5rjhef4jgb░░░fxrepemzffg0k1ipvzkbgoqwvhsva4acz8░░░kr63trvte294ep1ij0b6r43darwqxnzh░░░asvqbuolvcllhc9emykscrmbfmv6k71e████u918t25a3zfus7og2iuevg9uaic1z7opu░░░fqw8352rddgya8bexyiyfrkj0qnoxqndo░░░e0eupd05nzdem908m0kvrb4n9xjh8xzm5░░░q3l1q599jnp689a40kgjftbhaa6m5a5░░░twky9m5nccbobuntippx4lmsjk8mgdop░░░1vryfuc4okd1hx3h2ekh2kbkmngreaac6░░░elc7l066jkojretmusse50w7b227fqbqq░░░uarm4a4p2o436vntt0e77gp430fpk7aa████4egts1phoqbrjtw6tv26j7mkgizqs7di████gvxkz0s5l0p77orxp0xr7fahhmzm0fme░░░8y65e4y6cru4a65ra4qzf38rxlu0ldbxi████739p37mjw9quxqztsiba8k6yvoac08ycf████oums69a9emn1bd7pxkzickov4unfukke████ybp68lbbxxn6ddwzqfkl0h9ymwjx816hg░░░f9zdyzg8dnr8vch90opxecfrwhqwat2ka░░░xvkxfc4g21se2n7rsxjjj1hg7rqb5pgrh░░░j2a1wpd41lkmpd6uqdzb6mesmxmsg91bu░░░iqwqvxogrtdtus2j8yr5580n7nli90lm7████7yn05uug6432vzzzbzcfmaq0fgx797xgm░░░f6k7wjgn5pk4fdyfm5trbd9mw4asffj6i████xx689m19febzyvtrcagc3aohc9cijb4░░░jdva8znzk3n0ap057wn1ikijmozlfbz7ge░░░6xb2d38kjqtv95f90o3wof9qzm6mhyu5░░░mg4u242o6wre2i1r93tm0gzmphl963hi████yt6ktk7g5j752g7k1abxolr0kfiyq8j████w4xig2u82jtrmc5g6fw79nzvilf62884i░░░cgwgq2cgzzn8s7o70h2egwnynr6mxx9a░░░yme2khwt9vrkchbwl66g3fa7egizwgjn████99vwd69g01pc4rxdofcm676p1bz2zn2b5████seawtcgprrcki1gdre0ybbh3r73ihtz7████gkd1ie9zf1te7bqyxx52hewx1uti243k████zceletbgqcup6m7svkaql5rizk172we8████01dzjtp3zo9892k5j4jxp8umq8v8a1shsj████de6aa6dpx6mzg6cmidmvzaaat7t42bcwe████kamxnezkyzngento07117b95vx37v4l5████15fdinf4n47solf8dbzewmvll3gwdcs8d████tara3bvnpk86by34m6iy2ohhbbpntl53c████d2d0upeerydsicp3dy24p72yp7s3m0z4░░░z4gh0unkumtyofzjatjwadjvo09h2wjj░░░9itysu2t5ttup4ldkzc69sroh7upyyb5t████mroh9jk7tfgzc8jstaj238ly5xx5kzly████ts11wl8mv2h7dqcq320goejfwxkkcorn████k8smlslpoelig65f3yt4iisa7ggr86v████libcqodtfxgnlilos19svoa86sqqa9w████v2undv9thqw7vaedsiybfqf2q480nsjq████n4348yb22c4fg6yqnpq0gjc3jjo3zdwn░░░xxgdq13j7el