Human centromeres 人类着丝粒是庞大而复杂的染色体位点,作为kinetochore assembly动粒组装的基础,参与染色体结构构建和姐妹染色单体凝聚sister chromatid cohesion,并在细胞分裂期间介导染色体分离。这些区域由数千至数百万个碱基对的重复 DNA 编码,由于测序技术和计算工具的限制,无法在线性基因组组装中准确区分和锚定高度相似的重复序列,这些区域此前在人类基因组组装中一直表示为空缺。过去五年中,长读长测序技术的重大进展使得跨越这些庞大的人类着丝粒区域成为可能,揭示了关于这些关键区域的新基因组与表观基因组信息及其结构组织。在此,研究者回顾这些发现,并讨论已被填补的知识空白以及新出现的功能性问题。
着丝粒centromeres 是特殊的染色体区域,对于细胞分裂过程中染色体的准确分离至关重要。它们作为有丝分裂纺锤体的附着点,确保姐妹染色单体在有丝分裂和减数分裂过程中正确分配到子细胞。从功能上讲,着丝粒由其参与动粒组装的作用所定义,动粒是一个包含超过 100 种蛋白质的多蛋白复合物,负责介导微管附着(图1a)。着丝粒对于维持基因组稳定性至关重要,因为着丝粒结构或功能的缺陷可能导致非整倍性,这是癌症和先天性疾病的一个标志。
图1:人类及其他生物的着丝粒组织。a, 着丝粒在形态上表现为染色体上的初级缢痕。此处是含有组蛋白 H3 变体着丝粒蛋白A(centromere protein A, CENP-A)的着丝粒染色质组装的位置,从而招募其他蛋白因子,包括 CCAN 和 KMN,将内层着丝粒连接到纺锤体微管。b, 人类着丝粒的底层 DNA 是 α-卫星DNA,由 171 bp 的 α-卫星单体串联排列成高阶重复单元,并进一步广泛重复形成跨度可达 5 Mb 的大型同源阵列。α-卫星阵列侧翼为非结构化或结构较差的单体、差异高阶重复序列以及其他重复 DNA,例如人类卫星 1 和长散布核元件 1。除芽殖酵母外,其他生物的着丝粒在大小上各不相同,并由不同类型的重复元件(包括卫星和转座元件)以及非重复和独特序列所定义。只有芽殖酵母的 120 bp 小着丝粒是序列特异性的,由三个 DNA 元件组成。An, 多聚A尾;CDE, 着丝粒 DNA 元件;CDR, 着丝粒低甲基化区;Cen repeats, 着丝粒重复序列;CentO satellites, 155 bp 卫星序列 CentO;cnt, 核心区;dh/dg, 外重复序列;imr, 最内重复序列;ORF, 开放阅读框;rDNA, 核糖体DNA;RT, 逆转录酶;UTR, 非翻译区。
不同真核生物的着丝粒存在差异,反映了多样化的组织分化策略(图1b)。单细胞生物芽殖酵母具有“点着丝粒”,其小段 DNA 序列足以赋予着丝粒功能。相比之下,包括植物和动物在内的大多数多细胞真核生物拥有更大的着丝粒,由不同的 DNA 序列和组织方式所定义。例如,黑腹果蝇的着丝粒嵌入异染色质中,富含卫星重复序列和转座元件,而秀丽隐杆线虫则具有沿整个染色体长度分布的全着丝粒,能够实现弥散的动粒附着。人类着丝粒是区域着丝粒,其核心着丝粒组装在部分高度重复、串联的 α-卫星 DNA 阵列上,这些阵列跨度 0.3–5 Mb。总体而言,真核生物着丝粒在不同生物间缺乏共享的序列同一性,并表现出结构多样性。
尽管区域着丝粒的 DNA 序列各不相同,但大多数真核生物的一个共同特征是存在一种独特的组蛋白变体——着丝粒蛋白 A,它在着丝粒染色质的一部分核小体中取代了经典的组蛋白 H3。除了着丝粒蛋白A,一组约 16 种着丝粒蛋白(统称为组成型着丝粒相关网络)形成了一个基本的结构和功能界面,将含有着丝粒蛋白A的染色质连接到外动粒(图1a)。富含着丝粒蛋白A核小体的着丝粒功能核心,通常侧翼为着丝粒周围异染色质。这种异染色质有助于着丝粒的黏连和动粒的稳定性。
着丝粒蛋白A组装到着丝粒染色质的过程受到严格调控,主要发生在染色体分离后的细胞周期 G1 早期。这一过程由专门的分子伴侣 Holliday 连接识别蛋白协调,其护送着丝粒蛋白A至着丝粒并促进其整合入核小体。与复制偶联的核心组蛋白沉积不同,着丝粒蛋白A的加载是复制非依赖性的,并依赖于预先存在的着丝粒蛋白A分子作为模板进行新沉积,从而确保着丝粒在细胞分裂间的传递。这种自我模板机制强调了着丝粒身份的表观遗传维持。
先前的研究已经提供了关于着丝粒生化和分子层面的理解。然而,α-卫星DNA与人类着丝粒功能方面之间的联系仍不甚清晰,这在很大程度上是由于无法跨越着丝粒在人类基因组组装中所代表的大型空缺。太平洋生物科学公司和牛津纳米孔技术的长读长测序技术的发展,使得跨越这些先前短读长测序技术无法解决的大型基因组空缺成为可能。通过生成高度连续且准确的读长,长读长测序首次提供了关于着丝粒和着丝粒周围区域的组织结构、序列变异及其与动粒功能和异染色质形成关系的全面视图。
在本综述中,研究者讨论了人类着丝粒生物学的最新进展,特别是新的基因组和表观基因组信息,这些信息改变了研究者对这一重要染色体位点的看法,并开辟了新的探索途径。研究者探讨当前的知识状态如何为该领域未来研究染色体生物学和人类疾病中的着丝粒结构奠定基础。研究者还讨论了基因组工程研究,这些研究提供了模型来测试功能性元件以及新生人类着丝粒的行为。研究者会贯穿全文提及非人类生物的相关着丝粒研究,但建议读者参考近期更广泛讨论非人类着丝粒生物学进展的综述。
人类着丝粒基因组学
人类着丝粒在历史上一直是基因组中最具技术挑战性的组装区域之一,这主要归因于其高度重复的组成和庞大的尺寸(数百 kb 到数 Mb)。即使在 2003 年人类基因组“完成”之后,着丝粒区域在基因组组装中仍然作为空缺存在。一个重要的里程碑是端粒到端粒联盟在 2022 年完成了第一个完全组装的人类基因组 CHM13,其利用太平洋生物科学公司的高保真和牛津纳米孔技术的“超长”测序,首次产生了包括着丝粒周围和着丝粒区域在内的所有重复序列的无空缺组装。CHM13 为着丝粒区域提供了准确的基因组组装,而这些区域在早期的基因组参考中要么缺失,要么只是通过计算模型推测。CHM13 中约 76% 新组装的序列包括着丝粒和着丝粒周围卫星阵列。端粒到端粒组装产生了首张 α-卫星阵列的全面图谱,注释了其在人类基因组所有染色体中的内部组织、序列组成和高阶重复单元的结构变异。它还澄清了先前仅是推测的长度差异和阵列边界。
核心着丝粒区域
人类着丝粒形成于 α-卫星DNA上,这些重复序列由一个 171 bp 的单体序列单元定义(图1b)。单个单体序列一致性为 50–85%,并以串联方式排列。特定数量的单体构成一个高阶重复单元,该单元存在数百至数千个拷贝,从而产生一个大的同源阵列,其中高阶重复单元的序列一致性为 97–100%。高阶重复单元内单体的数量和顺序可以赋予染色体特异性,并允许在分子水平上区分不同的 α-卫星阵列。
随着 CHM13 的发布,Altemose 等人利用完整的着丝粒组装来表征 α-卫星阵列的内部组织、变化和适应模式以及潜在功能作用。以 CHM13 为参考,研究者开发了计算方法来在大尺度和精细尺度上解析着丝粒 α-卫星阵列的结构。这项研究为着丝粒变化的“分层扩张”模型提供了证据,在该模型中,更同质化的高阶重复重复序列从核心着丝粒向外扩张,而较老的序列在着丝粒外围发生分化和侵蚀(图2a)。
图2:人类着丝粒的变异。a, 人类着丝粒的遗传结构。自下而上,最近扩张的 α-卫星序列出现在着丝粒蛋白A核小体所在区域,即动粒组装发生的位置。距离分层扩张位点越远,变异频率越高,同时伴随着长散布核元件 1 插入的增加。随着长散布核元件 1 密度的增加,其年龄也随之增加,最年轻的元件出现在最年轻的高阶重复中。b, 对来自不同地区的七个个体的着丝粒进行了 X 染色体 α-卫星单体的比较,这些单体按序列和结构分类为高阶重复变体。在一个具有近期非洲混合血统的个体中发现了非洲特异性的 α-卫星变体。着丝粒注释的长度显示在顶部。L1PA, 长散布核元件 1 的一个亚家族;L1Hs, 人类特异性的长散布核元件 1。
CHM13 以及最近的 CHM1 的完整端粒到端粒着丝粒组装揭示了卫星序列的大规模组织,以及高阶重复 α-卫星、差异 α-卫星和其他卫星序列的分层。通常,形成内层动粒的着丝粒染色质组装在主要是同质且连续的高阶重复 α-卫星(活跃高阶重复)上。约 78% 的染色体包含第二个较小的高阶重复阵列,该阵列通常不是动粒组装的位点,因此被视为失活阵列。大多数结构变化,例如倒位或缺失,集中在同质的高阶重复阵列之外。然而,在一些染色体上,活跃的高阶重复阵列被其他卫星或重复元件的插入或倒位所分割。
总体而言,这些发现表明人类着丝粒是动态的,它们参与了正在进行的分子过程,其中结构和功能元件随着时间推移而移动和重组。值得注意的是,每个 α-卫星阵列中最近扩张的重复序列更可能与必需的动粒蛋白着丝粒蛋白A相关联,这表明卫星序列或高度同质化或基因转换区域在 α-卫星阵列大小和动粒定位中起作用,因此对着丝粒的特化和功能至关重要。
着丝粒周围区域
长读长组装也阐明了转座元件对着丝粒结构的贡献。高阶重复 α-卫星DNA阵列周围的区域包括差异 α-卫星、人类卫星 1、2 和 3、β-卫星DNA、γ-卫星DNA、转座元件以及一些蛋白质编码基因。尽管其中一些序列存在于高阶重复 α-卫星阵列内部,但它们在着丝粒周围区域邻近高阶重复阵列处富集(图1 和 图2a)。这些元件的分布因染色体而异,尽管一些元件存在于多条染色体上。转座元件似乎是非随机分布的,它们的定位模式表明它们在塑造局部染色质结构或定义着丝粒边界方面起作用(图2)。一些转座元件可能影响核小体定位,而另一些则可能作为招募染色质修饰酶的平台,从而间接促进着丝粒身份的确定和维持,或促进着丝粒与着丝粒周围染色质之间的转换。
以碱基对分辨率解析着丝粒周围区域揭示了它们的功能意义。它们通常标志着从富含 α-卫星的着丝粒核心到侧翼异染色质的过渡,并由卫星亚家族、片段复制和嵌入的转座元件拼凑而成(图1 和 图2a)。高分辨率分析确定了人类基因组中离散的着丝粒周围边界,其特征是重复组成、倒位和染色质状态的突然转变,这表明这些序列有助于组织着丝粒结构,并作为功能性着丝粒与着丝粒周围区域之间的绝缘体。然而,着丝粒周围区域不仅仅是结构过渡区,它们还可能通过形成异染色质样结构域来主动促进着丝粒功能,这些结构域提供机械刚性以支持着丝粒稳定性。
跨越染色体对着丝粒周围和着丝粒区域进行测序的能力标志着着丝粒生物学领域向前迈出了关键一步,使研究者能够研究其组织如何影响着丝粒身份,以及这些序列的变异性如何影响不同个体和细胞类型中的染色体行为。
α-卫星变异与着丝粒表观等位基因
人类着丝粒在结构和功能上均存在变异。α-卫星变异最初在 20 世纪 80 年代被描述为产生高阶重复大小变异和/或特定单体内单核苷酸多态性的单体缺失。也有报道称,特定染色体上的总阵列大小在个体间存在差异。许多 α-卫星阵列以变异高阶重复和典型或野生型高阶重复的组合形式存在,它们共存于同一阵列中。高阶重复阵列序列的变异通常被认为是由复制、不等交换或重组以及 DNA 损伤和修复过程驱动的。
端粒到端粒联盟最近的工作强调了着丝粒 α-卫星阵列在结构和序列上存在显著的个体间及祖先相关变异。对个体间着丝粒区域的比较表明,高阶重复的序列组成和结构组织在基因组之间存在差异。一种 α-卫星变体在具有近期非洲血统的个体中显著富集,表明群体结构可以影响着丝粒重复序列含量、长度和序列同一性(图2b)。对数百个基因组着丝粒组装的分析提供了更多关于高阶重复结构、重复拷贝数和阵列长度变异程度的细节。α-卫星阵列平均大小为 2.3 Mb,但大小范围从 300 kb 到超过 5 Mb。这些研究还揭示了某些高阶重复单元模式与特定祖先之间的相关性,再次强调了这些基因组区域如何因群体结构而不同。人类泛基因组参考联盟和人类基因组结构变异联盟目前正致力于从全球多样化的个体中生成完整的组装,首次提供人类群体中着丝粒周围和着丝粒变异的全面视图。
着丝粒大小和序列变异引发了关于 α-卫星DNA内部基因组变异对着丝粒组装和功能影响的问题。在人类 17 号染色体上,D17Z1 阵列内的高阶重复大小变异与着丝粒蛋白A染色质在相邻的 D17Z1-B 阵列上的组装相关联。在不同但邻近的 α-卫星阵列上组装着丝粒(也称为着丝粒表观等位基因)在家族内是可遗传的,并且至少在 17 号染色体上与 α-卫星高阶重复变异相关(图3a,b)。表观等位基因不同于代表着灵活着丝粒移动的着丝粒重定位或漂移现象(图3c,d;见“着丝粒重定位、移位或漂移”部分)。其他具有多个 α-卫星阵列的人类染色体也存在着丝粒表观等位基因,尽管尚不清楚 7 号染色体的高阶重复阵列的 α-卫星变异或其他基因组或表观基因组特征是否影响着了丝粒蛋白A组装的位置。
图3:着丝粒变异与着丝粒重定位或移位/漂移对比。a, 着丝粒表观等位基因代表了同一染色体上不同 α-卫星阵列间着丝粒蛋白A定位的可遗传变异。表观等位基因存在于人类 17 号染色体上,该染色体包含三个由不同高阶重复单元定义的 α-卫星阵列。D17Z1 是 17 号染色体上最大的 α-卫星阵列,具有多态性,以具有典型 16 聚体高阶重复单元的野生型阵列或作为 13 聚体高阶重复单元与野生型 16 聚体高阶重复混合的 16/13 聚体变体阵列形式存在。b, 在欧洲人群中约 30% 的个体中观察到表观等位基因,即着丝粒蛋白A在一个同源染色体上组装于 D17Z1,而在另一个上组装于 D17Z1-B。当着丝粒蛋白A在 D17Z1-B 上组装时,通常发生在 D17Z1 存在高水平变异的情况下。c, 新着丝粒区域重定位、漂移或滑动的示意图,这在个体内的细胞间以及在不同细胞传代次数评估时随时间推移是流动的。d, 来自两个个体的同一内源性着丝粒,显示着丝粒重定位或移位,使得着丝粒蛋白A核小体在同一 α-卫星阵列内有不同的位置,与着丝粒低甲基化区重合。
一些在 17 号染色体上具有可测量 α-卫星变异的个体,尽管变异阵列显示出有缺陷的动粒结构和降低的招募或维持着丝粒蛋白的能力,但仍将着丝粒组装在变异阵列上,而非选择邻近的阵列。基因组变异如何影响 α-卫星DNA形成或维持动粒的能力尚不清楚。高阶重复单元的远程组织、差异转录、序列二级结构和/或招募和维持表观遗传因子的能力,可能影响着丝粒阵列进行着丝粒组装的胜任力。鉴定和表征 α-卫星DNA内的结构和序列多态性及其对基本染色体功能的基础影响的研究,无疑将拓展研究者对人类基因组非编码区域的基因组变异和功能的理解。
人类着丝粒的非序列依赖特征
关于着丝粒组装和功能的表观遗传模型在 30 多年前就已提出。这些提议基于几个关键观察,包括真核生物着丝粒间缺乏序列同一性、同一生物体内着丝粒序列的差异、具有两个不同着丝粒DNA区域但只有一个功能着丝粒的染色体的存在,以及新着丝粒的发现。
人类着丝粒的完整基因组组装改变了研究者解析定义着丝粒身份的表观遗传调控机制的能力。尽管 α-卫星重复组织提供了序列支架,但显然功能性着丝粒的稳定传递依赖于由独特表观遗传特征所调控的特定染色质环境,包括组蛋白 H3 变体着丝粒蛋白A的存在,它由 Holliday 连接识别蛋白以二聚体形式装载,以替换一部分着丝粒核小体中的 H3(图4)。着丝粒蛋白A是着丝粒特化的基石,从表观遗传上标记该位点,并为动粒组装提供稳定基础。在同一染色体区域招募和维持着丝粒蛋白A的基因组或分子基础仍然是一个深入研究的领域。使用高分辨率测序、表观基因组分析和生化检测等方法的研究表明,DNA甲基化、转录活性、组蛋白和染色质修饰以及 RNA-DNA 杂交体形成参与了人类着丝粒处独特着丝粒染色质的起始和/或建立。
图4:人类着丝粒的表观遗传特征。人类着丝粒示意图,包括含有着丝粒蛋白A和常染色质 H3 核小体的核心着丝粒染色质,以及附近富含 H3K9 和 H3K27 甲基化的异染色质。这些结构域组装在 α-卫星DNA上,α-卫星DNA是 171 bp 的单体,串联排列成被广泛重复且序列高度相似的高阶重复。着丝粒身份以及通过其分子伴侣 Holliday 连接识别蛋白将着丝粒蛋白A整合到核小体中,还有着丝粒蛋白C的招募,受到染色质组织、α-卫星转录以及 RNA-DNA 杂交体或 R 环形成的调控。CDR, 着丝粒低甲基化区;H3K27me3, 组蛋白 H3 第 27 位赖氨酸三甲基化;H3K36me2, 组蛋白 H3 第 36 位赖氨酸二甲基化;H3K4me2, 组蛋白 H3 第 4 位赖氨酸二甲基化;H3K9me3, 组蛋白 H3 第 9 位赖氨酸三甲基化;RNAP II, RNA 聚合酶 II。
DNA甲基化、着丝粒蛋白A染色质区域和染色质边界
长读长测序和直接甲基化检测技术的发展使得着丝粒 CpG DNA 甲基化的映射达到前所未有的水平。多项端粒到端粒研究提供了跨完整着丝粒阵列的全基因组 DNA 甲基化全面图谱,表明甲基化在卫星阵列上富集,并可能在人类着丝粒中起稳定作用。CpG 甲基化的一个明显低谷(或一系列低谷),即着丝粒低甲基化区,与着丝粒蛋白A核小体重合,将这两种表观遗传标记与动粒组装位点联系起来(图4)。在不同个体间,着丝粒甲基化以及着丝粒蛋白A密度和位置存在个体间和群体水平的差异。强调活跃高阶重复上的核心着丝粒染色质与含有差异高阶重复和单体 α-卫星的周围着丝粒周围异染色质之间甲基化水平显著转变的研究表明,差异甲基化充当了定义边界的特征。最近的机制研究还发现转录因子 ZBTB24 和锌指蛋白 ZNF512/ZNF512B 是着丝粒处 DNA 甲基化、组蛋白 H3K9 甲基化和卫星重复转录的重要调控因子,提供了序列特异性结合与着丝粒表观遗传维持之间的直接联系。
人类着丝粒的组蛋白修饰和转录
尽管历史上被认为是紧密压缩且惰性的异染色质区域,着丝粒不再被视为转录沉默的。对人类和果蝇着丝粒的研究显示,着丝粒染色质内存在活跃的组蛋白修饰,如 H3K4me2 和 H3K36 甲基化,这表明着丝粒并非完全是常染色质或异染色质(图4)。哺乳动物着丝粒的转录本已被识别,并且至少十年前就描述了人类新着丝粒低甲基化DNA口袋内的特异性转录。最近,在人类着丝粒处观察到 α-卫星阵列特异性的长链非编码转录本,并显示其与着丝粒蛋白、染色质修饰蛋白和核仁等核细胞器相关联。已解析的着丝粒组装既直接将着丝粒来源的转录本分配到特定的基因组位置,也确定了 α-卫星阵列的低水平转录是着丝粒的一个保守特征,并且它促进了该区域的动态表观遗传景观。组蛋白修饰酶,特别是组蛋白赖氨酸甲基转移酶的 MLL 家族,是 H3K4 二甲基化所必需的,而 H3K4 二甲基化促进了 α-卫星转录和着丝粒蛋白A组装。着丝粒转录本本身也在着丝粒组装中起作用。着丝粒RNA与着丝粒蛋白复合,并含有 N6-甲基腺苷修饰,可稳定着丝粒蛋白A核小体,揭示了一种基于RNA的维持着丝粒完整性的新机制。着丝粒转录也是维持姐妹染色单体黏连所必需的。
RNA-DNA杂交体、R环与着丝粒稳定性
一个新兴的研究领域是 RNA-DNA 杂交体结构或 R 环在着丝粒和着丝粒周围区域维持基因组完整性方面的调控作用(图4)。结合 DNA-RNA 免疫沉淀与定量 PCR 或测序的实验表明,BRCA1 抑制着丝粒处 R 环的形成,而 BRCA1 缺失导致 R 环积累增加、DNA 损伤和染色体不稳定性,突出了这些结构与人类细胞中着丝粒维持之间的联系。来自其他生物的大量证据表明 R 环和 RNA-DNA 杂交体参与了着丝粒功能。在芽殖酵母中,着丝粒处 R 环的积累已被证明会破坏动粒完整性并导致染色体不稳定。小鼠卵母细胞减数分裂 I 中期 R 环的动态变化有助于纺锤体组装和染色体排列,同时也作为招募复制机制的平台。此外,玉米的全基因组作图发现,来自着丝粒逆转录转座子的 R 环在着丝粒周围异染色质区域富集,证明了这些结构的广泛功能及其在着丝粒调控中的潜在相关性。鉴于基因组其他位置的过量 R 环与复制压力和基因组不稳定性相关,理解它们在人类着丝粒中的作用仍然是一个需要进一步探索的重要领域。
着丝粒重定位、移位或漂移
着丝粒位置的持续移动已在多种背景下被描述,包括着丝粒重定位或着丝粒移位/漂移,这涉及着丝粒蛋白A在染色体上的重新定位(图3c,d)。这种现象不同于着丝粒表观等位基因,后者是可遗传的、稳定的,并且可以在多代家族中追踪。着丝粒重定位或移位可能由于染色体重排和物种形成,在个体内的细胞分裂过程中发生。这种没有序列变化的功能性着丝粒的重新定位很可能反映了表观遗传可塑性。
人类新着丝粒是罕见的异位事件,可以在发育过程中从头产生,通常是对破坏内源性着丝粒的染色体重排的响应。尽管新着丝粒发生在相同的细胞遗传学位置,但它们通常与不同的染色体表型和/或不同的基因组序列相关。它们代表着着丝粒从 α-卫星阵列重定位到通常远离内源性着丝粒的染色体区域。近 150 例病例被报道为额外标记或环状染色体、倒位重复染色体、部分缺失染色体或新双着丝粒染色体(表1)。例如,在一名发育迟缓患者中发现的人类 13 号染色体长臂 32 区的新着丝粒,显示出着丝粒蛋白A结合在一个约 130 kb 的区域上,该区域缺乏重复DNA但表现出富含 H3K4me2 的染色质和转录活性。人类 3 号染色体长臂上的新着丝粒形成不仅导致着丝粒蛋白A重新定位到新位点,而且导致其在该区域内在代际间漂移(图3c)。这种着丝粒蛋白A位置的重定位和漂移也在人类 4 号染色体长臂的一个新着丝粒区域有记录。这个新着丝粒 4 有一个 250 kb 的着丝粒蛋白A富集区。对含有新着丝粒 4 的单细胞克隆系的表观遗传分析显示,着丝粒蛋白A富集区域大小约为 170 kb,与一个 DNA 低甲基化区域重合,这表明在亲本群体中,250 kb 的着丝粒蛋白A区域代表了单细胞间着丝粒蛋白A定位的差异。对新着丝粒 4 克隆长达 12 个月的仔细长期分析显示,每个新着丝粒 4 区域中的着丝粒蛋白A富集发生漂移,使其与最初相关的着丝粒低甲基化区解耦。
表1 已知人类新着丝粒区域的位置和特征
这些研究强调了内源性着丝粒和新着丝粒之间的几个关键相似点和不同点。首先,内源性着丝粒和新着丝粒都由与 DNA 低甲基化区域重叠的着丝粒蛋白A富集所定义。此外,内源性着丝粒和新着丝粒 4 处的着丝粒蛋白A富集区域似乎都由长散布核元件 1 和 H3K9me3 界定。然而,随着时间的推移,新着丝粒 4 上的着丝粒蛋白A定位会因 DNA 甲基化和 H3K9me3 的增加而改变,这些变化破坏了着丝粒低甲基化区-着丝粒蛋白A之间的联系,并使新着丝粒 4 变得脆弱和不稳定。
4 号染色体短臂上另一个诱导产生的新着丝粒也表现出沿 DNA 序列的着丝粒漂移,同时保持总体着丝粒大小不变。与新着丝粒 4 类似,新着丝粒 4p13 的着丝粒蛋白A结构域受 H3K9me3 限制。然而,这项研究及另一份近期报告进一步表明,通过组蛋白甲基转移酶 SUV39H1/2 和 SETDB1 以及 Polycomb 因子 SUZ12 的作用,着丝粒蛋白A染色质周围的异染色质边界在内源性着丝粒和新着丝粒处也富含 H3K27me3。总体而言,人类内源性着丝粒似乎比新着丝粒在表观遗传上更稳定。新着丝粒形成和维持的位置可塑性,包括响应染色质可及性和表观遗传标记变化的着丝粒蛋白A移位或漂移,可能潜在地促成恶性肿瘤中的非整倍性。
在鸡 DT40 细胞和马染色体中也报道了类似的着丝粒移位或漂移模型。DT40 细胞中的着丝粒漂移是在通过过表达着丝粒蛋白A或敲除着丝粒蛋白诱导新着丝粒后,通过绘制随后的着丝粒蛋白A定位移动以及测量连续有丝分裂中着丝粒蛋白A结构域大小来识别的(图3c)。染色质免疫沉淀测序分析显示,DT40 着丝粒蛋白A结构域在细胞分裂过程中沿着新染色体漂移。马染色体也显示出在代际间着丝粒漂移或滑动,表明着丝粒结构域的灵活性是真核生物中新着丝粒和一些内源性着丝粒的共同特征。
尽管着丝粒蛋白A移位或漂移在人类新着丝粒中已确定,但它是否发生在内源性着丝粒上则不太清楚。人类端粒到端粒组装通过揭示不同人类 X 染色体 α-卫星阵列内的着丝粒移位或可变的着丝粒蛋白A位置,解决了这种不确定性,这或许是由表观遗传变异和 α-卫星重复扩张驱动的(图3d)。着丝粒蛋白A漂移或移位是否在人类特定的时间框架内发生,或者它是否为染色体分离和稳定性提供功能优势,目前仍不清楚。在玉米中,着丝粒漂移驱动分离扭曲,而在马中,着丝粒移位维持了染色体稳定性。总体而言,着丝粒蛋白A移位/漂移突出了着丝粒的表观遗传调控,这可能平衡了适应性和基因组稳定性。这一引人入胜的着丝粒现象的分子基础是一个值得深入探索的领域。
着丝粒工程与新生人类着丝粒
重要的基因组和表观基因组信息来自于研究群体内的内源性或天然着丝粒。然而,合成的或可控的基于细胞的工程方法对于功能性测试基因组和分子研究的发现至关重要。人类人工染色体 是一个特别有用的系统,可用于剖析着丝粒形成和维持的基本组成部分(图5)。与嵌入复杂基因组和染色质环境中的内源性着丝粒不同,人类人工染色体提供了一个易于处理的系统,可以独立控制和操纵底层 DNA 序列和表观遗传背景。已有三种主要策略被用于在人类或哺乳动物细胞中生成人类人工染色体:引入特定的 α-卫星DNA序列、修饰表观遗传状态,以及通过直接将着丝粒蛋白拴系到特定的基因组位置来绕过序列和表观遗传学。
图5:人类人工染色体组装方法。人类人工染色体上的新生着丝粒形成已通过两种“自下而上”的组装系统实现。a, 传统的人类人工染色体组装方法涉及将包含 α-卫星DNA的大型细菌人工染色体或 P1 衍生人工染色体载体引入人类细胞,产生稳定的人类人工染色体。只有含有着丝粒蛋白B盒基序的 α-卫星DNA才能通过这种方法形成稳定的自主人类人工染色体。b, 更新的人类人工染色体系统通过物理拴系着丝粒组装因子来绕过序列依赖的着丝粒特征。LacI, Lac 阻遏蛋白;LacO repeats, Lac 操纵基因重复序列。
早期的人类人工染色体是通过将包含 α-卫星DNA序列的细菌人工染色体载体转染到人类细胞中构建的(图5a)。这些实验证明,长段的 α-卫星DNA支持新生着丝粒形成并确保染色体准确分离。后来比较来自不同人类染色体的序列的工作揭示了形成人类人工染色体潜力的差异。来自人类 17 号和 21 号染色体的 α-卫星阵列特别有能力支持新生着丝粒形成,而来自 X 和 Y 染色体的序列在人类人工染色体形成方面表现不佳,这表明一些 α-卫星阵列是比其他阵列更好的着丝粒平台。部分而言,这种变异性可归因于功能性着丝粒蛋白B盒的存在或分布。值得注意的是,人类 Y 染色体 α-卫星阵列没有着丝粒蛋白B盒,并且确实在人类人工染色体构建体中显示出很少或没有支持着丝粒功能的能力。
一些而非所有 α-卫星序列支持新生着丝粒组装的能力突显了单靠 DNA 序列不足以解释人类人工染色体形成的事实,这促使研究者对人类人工染色体组装的表观遗传背景进行研究。功能性人类人工染色体显示出一系列 DNA 甲基化和组蛋白修饰模式。虽然着丝粒蛋白A对于成功的着丝粒组装至关重要,但改变 H3K4me2 和 H3K9me3 的含量已被证明会损害人类人工染色体上的着丝粒活性。靶向降低人类人工染色体上的 H3K4me2 导致 α-卫星转录受损并破坏着丝粒蛋白A伴侣蛋白 Holliday 连接识别蛋白的招募,最终随着人类人工染色体无法维持着丝粒蛋白A招募而导致着丝粒退化。总之,这些结果支持了一个模型,即人类着丝粒是由表观遗传定义的,但如果着丝粒蛋白A及其沉积机制等核心成分得以维持,则仍可在一个灵活的框架内容纳不同的染色质状态。
为了完全绕过对序列和表观遗传状态的依赖,研究者设计了拴系系统,人为地将必需的着丝粒蛋白招募到人类人工染色体上的目标位点(图5b)。使用 LacI-LacO 系统,研究者已经证明,即使在人类人工染色体构建体中缺乏着丝粒DNA或着丝粒蛋白B盒的情况下,强制定位着丝粒蛋白A、着丝粒蛋白T、Holliday 连接识别蛋白或其他着丝粒相关蛋白也足以从头建立功能性着丝粒。这些“最小着丝粒”突出了人为靶向或播种着丝粒蛋白A核小体以定义着丝粒身份的能力,并表明着丝粒和动粒组装的蛋白质成分可能比底层 DNA 序列更重要。
过去五年,人类着丝粒生物学在技术和概念上取得了前所未有的进展,特别是在实现完整的基因组和表观基因组组装方面。最初的端粒到端粒完整基因组组装专注于三个细胞系,而最近的组装则包括了 RPE1 细胞以及其他更多样化的基因组。所有结果都显示出显著的变异,引发了关于全球不同个体间及群体内部变异的程度和位置,以及对健康和疾病意义的疑问。通过人类泛基因组参考联盟和人类基因组结构变异联盟的努力,旨在从高保真和超长测序中获得人类基因组变异的全面图谱,并有望揭示着丝粒内的常见和罕见变异及其功能结果。
日益详细的基因组信息将推动关键的功能实验。测量转录、评估 α-卫星DNA二级结构、比较野生型和变异性着丝粒之间的表观遗传修饰、监测着丝粒组装和染色体分离动态的研究,将为 α-卫星区域内基因组变异的影响及其与疾病的联系提供新的机制性理解。事实上,一些研究已经说明了着丝粒序列和结构与染色体非整倍性之间的联系。此外,使用合成染色体组装系统,将能够使该领域功能性地测试特定重复DNA序列或染色质特征在新生着丝粒组装中的作用,并证明序列元件与表观遗传因子之间的相互作用。随着越来越多人类天然着丝粒的高分辨率组装和图谱不断出现和完善,最终将有可能将特定的序列变异、染色质特征和结构域与着丝粒胜任力和染色体稳定性联系起来。