植物中多倍化后染色体二倍化过程受分支分化影响并受共享基因组特征约束

摘要

全基因组复制导致的基因组冗余为双链错误修复提供了条件,可能引发染色体结构重排和数目减少(即染色体数目减少的非整倍化,descending dysploidy)。尽管开花植物常经历多倍化后的再二倍化过程,但关于染色体数目减少的非整倍化的演化路径及其后果仍知之甚少。本研究通过对不同染色体基数(n=6、8、9)且基因组大小为0.6-1.1 Gb的Biscutella属植物进行基因组测序与组装,揭示了其异源四倍体祖先基因组(n=14)经历约1200万年的二倍化过程,通过独立的染色体数目减少的非整倍化形成n=9、8、6三种染色体基数类型的物种。我们鉴定出早期分化(n=8/6)与晚期分化(n=9)的两大分支基因组,它们既呈现趋同特征又存在显著差异。虽然两个分支均表现出相似的亚基因组分化程度和多倍化衍生基因的优先保留模式,但早期分化基因组表现出更高的LTR反转录转座子清除率及拓扑关联结构域(TADs)规模的更大变异性。此外,我们确定了12个染色体断裂热点区域,这些区域富含LTR反转录转座子且常位于TAD边界。这表明尽管多倍化后的染色体数目减少的非整倍化过程看似独立且随机,但某些共享的基因组特征可能导致不同物种中染色体断裂点的重复出现。

引言

陆生植物以其显著的核型变异著称,染色体数目从2对(n=2)至数百对不等。这种极端变异源于两种拮抗的演化过程:多倍化(全基因组复制,WGD)和二倍化。多倍化导致染色体数目增加,而二倍化通常伴随二价染色体配对的恢复及染色体数目减少(即染色体数目减少的非整倍化)。基因组冗余的独立产生与其逐步削减的循环过程在陆生植物多数分支中广泛存在。尽管对WGDs的理解已取得重要进展,但关于多倍化后二倍体化的诱因、机制及影响的认知仍较匮乏。

植物中染色体数目减少的非整倍化的常见途径是非同源染色体间的非等位同源重组(NAHR),通常导致染色体数目减少一条。二倍化过程中的染色体数目减少的非整倍化在WGD事件后尤为普遍——多倍化扩增的同源序列为异常重组提供原材料,首先生成简单融合染色体,随着二倍化进程进一步形成复杂融合染色体(CFCs),即多条非同源染色体片段的组合。CFCs常见于已二倍化的四倍体或六倍体植物基因组中,如棉花、大豆、芸薹属和亚麻荠属。CFCs的频率与稳定性取决于DNA同源性、重复序列含量、双链断裂(DSBs)与NAHR的发生率,以及结构(如CFCs大小)和功能(如基因表达改变)约束等因素。

WGD事件常发生于分支分化之前,因此可假设同一分支所有成员均源自单一多倍体基因组或混合种群。多倍体分支通过适应性辐射发生分化,通常伴随遗传、表观遗传或细胞学层面的二倍化。若多倍体种群遗传组成相同或高度相似,独立二倍体化的结果可能趋同;反之,不同的非生物与生物条件可能决定或调控二倍化进程。然而,多倍化后二倍化是趋同还是分化的概率问题尚未解决。例如,若地理隔离的多倍体种群或衍生物种遗传组成相同,是否存在更易发生在DSBs和染色体重排的特定区域或序列?此外,不同二倍化种群或物种中,重组热点处的DSB错误修复导致相同染色体重排、最终形成相同或高度相似融合染色体的可能性有多大?

十字花科Biscutella属约含60个物种,分布于地中海盆地至伊朗和阿拉伯半岛。该属物种的染色体基数有三种类型:x=6(B. lyrata L.)、8(十余种)和9(多数物种)。其核型变异很早就受到了学界关注,Manton(1932)首次将其视为’有趣的演化问题’,并以B. laevigata L.物种复合体作为研究同源多倍化在植物基因组演化中作用的早期模型。由于多数Biscutella物种基数为x=9,早期认为9条染色体代表祖先状态,较少数目(n=8和6)则被解释为染色体丢失(非整倍体)。然而后续对二倍体物种B. laevigata subsp. varia(2n=18)、B. baetica(2n=16)和B. lyrata(2n=12)的转录组与细胞基因组研究表明,这些物种经历了共同的WGD事件。因此,现存染色体数目被认为源自四倍体祖先基因组,通过多倍化后二倍化伴随的染色体数目减少的非整倍化演化而来。

为探究细胞学水平上二倍化的演化路径与约束,我们对8个Biscutella物种(分属形态与系统发育上不同的属下分支,含n=6、8、9三种基数)进行了染色体水平基因组组装。研究欲揭示:(1)早期与晚期分化物种中由独立染色体数目减少的非整倍化介导的多倍化后细胞学水平的二倍体化;(2)亚基因组分化程度与多倍化衍生基因保留的趋同性;(3)早期与晚期分化物种在LTR反转录转座子清除及拓扑关联结构域(TADs)保守性上的分化;(4)LTR反转录转座子与三维基因组结构在染色体断裂热点形成中的作用。

结果

八种不同染色体基数的Biscutella物种染色体水平基因组组装与注释

图1. 八种Biscutella物种的基因组大小变异、重复序列及物种间染色体共线性

(a) 基因组大小变异:展示八种Biscutella物种基于流式细胞术的预估基因组大小(绿色)、组装大小(浅绿)和Scaffold大小(粉色)。组装基因组大小范围为约516-1,169 Mb。(b) B. lyrata染色体结构:环形图从外到内依次显示:(i)基因密度、(ii)Gypsy密度、(iii)Copia密度、(iv)Athila密度、(v)CRM密度、(vi)DNA压缩(CTW)、(vii)串联重复密度、(viii)125-bp(粉)和167-bp(绿)着丝粒卫星DNA及76-bp(黄)亚端粒卫星DNA密度。其他物种染色体结构见图S3-S4。(c) 基因数与TE长度比较:展示注释蛋白编码基因数(左)、TE总长度(右,Mb)及其占基因组比例(%)。(d) 八种基因组间共线性关系:河图展示22个祖先基因组区块(GBs A-X)的宏观共线性,深蓝线突出区块A的两个基因组拷贝。物种缩写:VARI、AUST、PREA等。(e) 着丝粒卫星DNA系统发育分析:基于FastTree构建的最大似然树,包含2,358个着丝粒卫星DNA单体,节点标注局部支持值,不同颜色代表不同类型。

其他7个基因组的特征圈图

我们采用Illumina短读长测序(约83×基因组覆盖度)、Oxford Nanopore长读长测序(ONT;约62×)和高通量染色体构象捕获(Hi-C)技术,对八种Biscutella物种进行了染色体级别基因组组装,包括:B. laevigata subsp. varia(n=9;单倍体核基因组大小[1C]=814 Mb,简称B. varia)、B. laevigata subsp. austriaca(n=9;904 Mb,简称B. austriaca)、B. prealpina(n=9;916 Mb)、B. frutescens(n=9;936 Mb)、B. auriculata(n=8;686 Mb)、B. didyma(n=8;980 Mb)、B. baetica(n=8;1.1 Gb)和B. lyrata(n=6;806 Mb)。此外,对B. lyrata额外进行了PacBio高保真(HiFi;约28×)测序(表S1)。基于ONT或PacBio组装策略,最终获得总长度约515至1,168 Mb的八个基因组(图1a;方法部分)。与基于ONT策略组装的Biscutella基因组(平均产生1,258个contigs,contig N50平均长度约2.9 Mb)相比,采用PacBio策略组装的B. lyrata基因组仅含119个contigs,contig N50达22.89 Mb(表S2),是目前连续性最高的Biscutella基因组组装(图1b)。基于Hi-C互作图谱,将组装contigs进一步锚定至6、8或9条伪染色体,大小范围56-159 Mb(图S1)。通过通用单拷贝直系同源基因(BUSCO)评估,所有八个基因组组装均显示高度完整性(92.0%-99.1%;表S3)。

结合从头预测、同源比对和证据支持的方法(方法部分),我们注释了32,292至50,236个高可信度蛋白质编码基因(图1c),其平均基因长度(约2,160 bp)和外显子数量(平均每个基因约5个)具有可比性(表S4)。共线性分析进一步在八个基因组中鉴定出22,492至31,397对基因,对应22个祖先基因组区块(GBs A-X;图S2)。共线性基因主要分布于染色体臂,而基因贫乏区通常与(近)着丝粒相关。通过界定基因贫乏区两侧GBs的共线性基因位置,我们确定了近着丝粒区域边界(表S5)。以这些共线性基因对为支柱,发现几乎所有22个GBs均存在两个基因组拷贝(图S2),验证了基因注释的可靠性。例外的是B. prealpinaB. varia中的区块G仅检测到一个拷贝,可能源于这些区域的广泛基因丢失或组装错误。Biscutella基因组与22个GBs间整体2:1的共线性关系,证实了该属分化前发生过四倍化WGD事件。然而,仅近缘种B. austriaca、B. variaB. prealpina保持了相对稳定的共线性关系,其余基因组则存在大量染色体重排(CRs;图1d)。

共鉴定出268至764 Mb的转座元件(TEs),占组装基因组的52%-71%(图1c)。最丰富的TEs为长末端重复反转录转座子(LTR-RTs;34.3%-54.3%),其次为螺旋酶转座子(helitrons;8.8%-14.1%)和末端反向重复序列(TIRs;5.9%-10.4%;表S6)。串联重复序列长度为19.5至88.7 Mb(表S7),所有八个物种均检测到着丝粒卫星DNA(satDNA),四个物种鉴定出(亚)端粒satDNA(方法部分)。在n=9物种中,发现两种着丝粒satDNA(单体长度213 bp和234 bp),而n=8/6物种的着丝粒satDNA单体长度范围为124至218 bp,共七种类型(图S3-S5及表S8)。系统发育分析与成对比较显示,234 bp satDNA形成一个序列相似性高的独立保守分支(图1e和S6),表明近期分化的n=9物种具有保守的着丝粒结构。相比之下,其他着丝粒单体序列相似性较低,反映其更高的变异性。

亚基因组分化揭示Biscutella的异源四倍体起源

图2. Biscutella两个亚基因组的结构与系统发育基因组学分析

(a) 亚基因组共线性基因密度:热图显示LF和MF亚基因组中22个祖先区块的共线性基因密度。Wilcoxon检验显示亚基因组间差异显著。(b) 亚基因组基因数:展示LF和MF亚基因组分配的基因总数。(c) 亚基因组TE含量:展示八类主要TE的长度(左)和比例(右)。TE比例按亚基因组内TE总长与其大小比值计算。(d) 亚基因组系统发育分析:云树展示1,234个核基因树的一致性/冲突,粗黑线为基于溯祖的物种树,饼图显示支持率。(e) 简化时间校准树:r8s构建,节点标注分化时间,物种按分化时间分为晚期(n=9)和早期(n=8/6)分支。(f) Ks值分布:分析八种Biscutella与六种其他十字花科物种同源基因对的Ks值分布,红线显示Biscutella WGD峰值约0.33(对应11 Mya)。

基于两个基因组拷贝的基因密度差异,并结合系统发育和K-mer序列相似性验证,我们鉴定了Biscutella的亚基因组。在重复GBs间观察到偏向性基因丢失现象,其中一个拷贝通常表现出更高的基因密度(图2a),这一结果通过比较染色体涂染实验得到证实(图S7)。基因密度的差异使得基因组区域可划分为两个亚基因组:低丢失亚基因组(LF)和高丢失亚基因组(MF)。LF亚基因组含有更多蛋白质编码基因(12,700-14,899个)和更长的TE总长度(142.5-433.2 Mb),而MF亚基因组则较少(9,656-11,025个基因;95.0-288.2 Mb TEs;图2b和2c)。尽管不同TE类别的比例在各物种亚基因组间相似(图2c),表明杂交前两个祖先基因组的TE含量具有相似性。

为推断假定祖先物种的系统发育位置,我们对8种Biscutella和15个代表十字花科主要谱系的其他物种的直系同源基因群进行了亚基因组感知的最大似然法(ML)和溯祖分析。在1,234个共线性基因树与溯祖树之间观察到显著的拓扑结构冲突(图2d)。拓扑矛盾尤其体现在B. auriculata、新四倍体Heldreichia bupleurifolia(Biscutelleae族)以及Biscutelleae基部分支(二倍体Megadenia pygmaea和中四倍体Lunaria、Ricotia物种)的位置上,暗示其系统发育关系呈现复杂的非二分结构。对22个GBs单独构建的系统发育树中观察到的10种不同拓扑结构(图S8)一致识别出两个明确分支:一个包含所有n=9物种(B. varia、B. austriaca、B. prealpinaB. frutescens),另一个包含B. baetica、B. didymaB. lyrata。尽管核基因数据集显示B. auriculata位置存在差异,但溯祖树和叶绿体树(图S9)均将其定位为n=9分支的姐妹群,尽管其染色体数与B. baeticaB. didyma相同(n=8)。LF亚基因组与新四倍体H. bupleurifolia形成姐妹分支,而MF亚基因组在该姐妹群外形成单系群,这一结果与K-mer丰度层级聚类和主成分分析一致(图S10)。

基于时间校准树(图2e和S11)及同源基因对同义替换率分布(Ks峰值≈0.33;图2f),推定Biscutella祖先基因组源自约11-13百万年前(Mya)两个分化祖先物种的杂交。时间校准系统发育显示,B. lyrata、B. didymaB. baetica的分化时间(约10.4 Mya;下文称’早期分化物种’)显著早于n=9物种(约3.3 Mya;下文称’晚期分化物种’;图2e)。虽然溯祖树将B. auriculata恢复为n=9分支的姐妹群(图2d),但其与n=9物种的分化时间可追溯至约11.8 Mya(因此同样归类为’早期分化物种’)。

Nature子刊?| 8个十字花科物种基因组助力多倍化后再二倍化机制的解析

Biscutella祖先四倍体基因组的重建

图3. Biscutella基因组核型演化

(a) Biscutelleae族基因组演化重建:祖先基因组类似ancPCK(n=8),经臂内倒位(Ipa)和染色体数目减少的非整倍化形成PCK基因组(n=7)。与PCK-like基因组杂交产生中四倍体祖先(n=14)。缩写:EET=端对端易位,RT=相互易位等。(b) 多倍化后基因组演化:祖先异源四倍体(n=14)经历3次CRs后分化为两支:支I(蓝线)含B. auriculata(n=8)和n=9物种;支II(紫线)含B. baetica、B. didyma(n=8)和B. lyrata(n=6)。饼图展示各物种CR类型,线宽表示CR速率(表S9)。

采用自上而下(top-down)与自下而上(bottom-up)策略联合重建Biscutella祖先核型。自上而下方法通过比较Biscutella物种中高频GB关联与十字花科已知祖先核型(如ACK、ancPCK和PCK),发现ancPCK核型(n=8)最能解释Biscutella的GB关联模式——LF和MF亚基因组分别保留ancPCK中73.3%和66.7%的GB关联(图S12)。在所有Biscutella物种以及Biscutelleae族的M. pygmaeaH. bupleurifolia中均鉴定出一个共同的臂内倒位事件(Ipa),该事件通过将祖先染色体AK8/6的V Wa Q X关联重排为V X Q Wa,改变了染色体结构(图3a和S12a)。此外,MF亚基因组中特有的保守GB关联(如D E C和S V X Q Wa)在LF亚基因组中缺失(图S12a),表明两个二倍体祖先具有不同的核型。基于此,我们推断LF亚基因组源自具有AK8/6染色体Ipa的ancPCK-like基因组(n=8),而MF亚基因组则经历了额外的嵌套染色体插入(NCI)和端对端易位(EET)事件,使其染色体数减至n=6,并在后续物种形成中保留了更多祖先GB关联(图S12a)。为验证自上而下推断的准确性,我们使用WGDI工具自下而上分层重建各系统发育节点的祖先核型(从最近到最古老;图S13)。最终重建的Biscutella最近共同异源四倍体祖先核型与自上而下策略结果一致(图3a和3b)。整合分析表明,Biscutella祖先中四倍体基因组由14对染色体(n=6 8;2n=4x=28)组成,源自两个分化亲本基因组(LF,n=8;MF,n=6)的杂交(图3a)。

独立的染色体数目减少的非整倍化

通过整合多种染色体重排(CR)事件(包括EET、相互易位[RT]、不等相互易位[Tuneq]、NCI、Ipa和着丝粒周倒位[Ipe]),重建了从异源四倍体祖先(n=14)到现代物种(n=9、8和6)的多倍化后演化路径(图3b,详细演化路径见图S14-S17)。八个物种仅共享一个NCI事件(图3b),其余CRs具有分支或物种特异性。早期分化物种经历2-14次独立的特有CR事件,而晚期分化物种仅1-3次。不等相互易位是所有Biscutella基因组中最主要的CR类型(每物种5-9次),当伴随双着丝粒染色体中着丝粒的稳定失活时(图S14),推动了染色体数从n=14降至现存数目。尽管染色体数相同(n=8),B. auriculataB. baetica–B. didyma分支遵循了不同演化路径:B. auriculata从n=14降至n=8涉及15次CRs(以Tsuneq[8]、EETs[3]和NCIs[2]为主),而B. baeticaB. didyma分别经历12和16次CRs(主要贡献来自Tsuneq[7和9]、EETs[3和2]和RTs[1和3];图3b)。n=9基因组中CRs数量(15和13次)与上述相当,同样以Tsuneq、EETs和RTs为主。高度二倍体化的B. lyrata(n=6)CRs数量最多(20次),但染色体数目减少的非整倍化程度与Tuneq频率无相关性(例如B. didyma[n=8]有9次Tsuneq,而B. lyrata[n=6]为8次)。CR速率沿系统发育树变化,早期分化阶段(A5至A4/A3间)达峰值(平均3.75 CRs/百万年),向末端分支(A4/A3至现存物种间)降至约0.72 CRs/百万年(图3b和表S9)。

Ty3/Gypsy反转录转座子在早期分化Biscutella物种中清除率更高

图4. LTR反转录转座子演化与3D染色质组织

(a) Gypsy/Copia插入时间分布:基于完整拷贝LTR分歧时间推断。(b) soloLTR与完整LTR比例:展示5个Gypsy和6个Copia谱系的相对比例。(c) S/I LTR比值:比较11个谱系在八种物种中的比值,标注晚期(深蓝)与早期(浅蓝)分支平均值。(d) 亚基因组S/I比值:分析LF和MF亚基因组中总LTR-RTs及11个谱系的S/I比值。(e) B. auriculata 4号染色体Hi-C图谱:从上至下:(i)50-kb分辨率原始互作矩阵、(ii)Pearson矩阵、(iii)PCA第一主成分(PC1)定义A(红)/B(蓝)区室。(f) A/B区室TE与基因含量:展示各区室TE(左)和基因(右)占总量百分比。(g) A/B区室长度与比例:柱状图展示总长度(左轴),折线图展示基因组占比(右轴)。(h) 区室差异直系同源基因对:统计物种间区室分配差异的基因对数,晚期与早期分支差异显著。(i) TAD数量:展示A/B区室(左)和亚基因组(右)的TAD总数,未分配TAD包含混合区域。(j) TAD长度分布:分析八种基因组TAD长度差异。(k) 保守TAD:统计物种间保守TAD数量(边界200 kb内直系同源基因对)。

尽管LTR-RT是Biscutella基因组重复序列的主要成分,但完整LTR-RT元件仅占总量约18.7%(表S6)。这些完整LTR-RT大多较年轻,Ty3/Gypsy和Ty1/Copia两大超家族的平均插入时间均在100万年以内(图4a)。伴随近期扩增,LTR-RT也经历快速删除——我们鉴定出大量(4,869-8,401个;表S10)重组残留(soloLTRs,即内部结构域和一个LTR被删除的LTR-RT序列;方法部分)。不同LTR-RT谱系分析显示,Athila和CRM占主导地位,合计占完整LTR的65%和soloLTR的55.9%(图4b)。CRM元件主要富集在着丝粒周区域,而Athila元件在染色体上分布更随机(图1b、S3和S4)。Ty3/Gypsy谱系在早期分化物种中表现出更高的清除率,其soloLTR与完整LTR比值(S/I比值)显著高于晚期分化物种(Athila、CRM、Retand和Tekay的平均S/I比值:晚期分化物种约0.577 vs. 早期分化物种约1.290;图4c)。但亚基因组间未观察到soloLTR丢失的特异性模式(图4d),表明LTR-RT删除(至少通过soloLTR形成)与基因丢失无关联。

两大Biscutella分支呈现差异染色质组织

Hi-C数据揭示了Biscutella基因组的高阶染色质组织。Hi-C互作图谱显示接触密度主要沿对角线分布,跨染色体互作较弱(图4e和S18)。基于PCA的50-kb分辨率分析将染色体划分为A/B区室(图4e和S18)。与其他植物基因组(如辣椒和大豆)一致,A区室靠近端粒,而富含重复序列的中央区域为B区室,与基因和TE的全局分布相符(图4f和S18)。除基因组最小的B. auriculata(A区室占50.6%)外,其余基因组B区室比例略高(约53%;图4g)。直系同源基因对的区室分配分析显示,早期分化物种间区室差异基因对比例(14.63%-30.42%)显著高于晚期分化物种(3.51%-7.26%;图4h)。拓扑关联结构域(TADs)组织在多倍化后二倍体化中也发生显著重构:晚期分化物种具有更多且较短的TADs(942-1,050个,0.65-0.72 Mb),而早期分化物种TAD数量和长度变异较大(502-1,039个;0.81-1.35 Mb),其中B. lyrata的TAD数量最少但最长(502个,平均1.35 Mb;图4i和4j)。通过比较TAD边界的直系同源基因对评估保守性(方法部分),发现仅约9.49%的TADs在物种间保守,且晚期分化物种间保守TADs比例(11.09%-13.44%)高于早期分化物种间(5.57%-10.43%;图4k)。

染色体断裂热点与LTR-RT富集及三维基因组结构变化相关

图5. 染色体断裂热点的位置与特征

(a) 12个断裂热点(HOT1-12):定义热点为连接GBs侧翼100 kb区域。三角形标注古着丝粒位置。(b) 热点在各基因组中的分布:深蓝方块表示存在断裂(共40个),浅黄为无断裂。23个断裂与近着丝粒区重叠(P),30个与TAD边界重叠(T),25个伴随A/B区室转换(A)。(c) 热点内LTR-RT含量:计算每kb的LTR-RT数量,灰虚线为基因组平均值。(d) HOT7的演化:展示祖先AK8染色体与B. lyrata 1/4号染色体的共线性关系,及基因密度、TE分布、区室划分等特征。

通过八种Biscutella基因组与其祖先(亚)基因组的共线性比较,鉴定出12个多物种共享的断裂点(定义为HOT热点区域;图5a和S19;方法部分)。在祖先基因组中,8个HOTs位于LF亚基因组(n=8),4个位于MF亚基因组(n=6)(图5a)。根据推断的祖先着丝粒位置(即古着丝粒),7个HOTs与这些区域或其附近的断裂相关,5个位于祖先染色体臂(图5a)。现存基因组中超过一半的重接连接点与近着丝粒区对齐(图5b)。对重接连接点两侧100 kb区域LTR-RT含量分析显示,67.5%的区域LTR-RT含量高于基因组平均水平,主要由Athila和CRM反转录元件贡献(图5c)。这与拟南芥和诸葛菜中的发现一致,表明散布的相似TE片段可能作为NAHR的底物,促进某些CRs的反复发生。

为评估三维基因组结构与染色体断裂的关系,我们分析了HOTs内的A/B区室分布和TAD边界。发现高达62.5%的断裂连接点存在A/B区室不一致性,75%与TAD边界重合(图5b)。例如,位于祖先染色体AK8古着丝粒附近的HOT7导致B. lyrata中1号和4号染色体臂上MN与KL区块重排。MN区块远端可能含有古着丝粒残余(表现为基因缺失和CRM富集;图5d)。尽管位于染色体臂,MN区块的重接连接点仍处于B区室,而KL连接点位于A区室(图5d),显示A/B区室转换。更重要的是,MN区块的重接位点与TAD边界共定位(图5d),提示染色体断裂与TAD架构的关联。这种重叠表明断裂点倾向于发生在保守的TAD边界,凸显了TADs在染色体演化中作为功能单元的作用。

基因复制/缺失及亚/新功能化促进Biscutella独特性状形成

图6. Biscutella物种WGD衍生基因家族分析

(a) 基因家族存在/缺失:左栏为物种树,上栏展示五类基因家族(CD、CS、SD、SS、PS),实心/空心圆表示LF/MF亚基因组存在与否。(b) CD/CS/PS基因的Ka/Ks比值:以M. pygmaea直系同源基因为参照计算。(c) 基因体及侧翼5 kb TE密度:比较三类基因家族的TE富集程度。(d) 基因表达水平:展示B. baeticaB. didyma中三类基因的TPM值。(e) PS基因Ka/Ks比值:晚期与早期分支比值差异显著。(f) PS基因TE密度:统计方法同(e)。(g) CD/CS基因GO富集:韦恩图显示两类仅共享3个GO条目,灰色柱为CD特有富集条目。(h) 果实形态与ABCDE模型:左板对比Biscutella、拟南芥和芸薹属的果实/种子形态,右板为ABCDE模型示意图。(i) ABCDE模型基因丢失率:梯度色标显示12个基因家族在八种Biscutella和七种其他十字花科中的丢失程度。

为探究全基因组复制(WGD)衍生基因在属下分支形成与物种分化中的优先保留模式,我们鉴定了八种Biscutella共有的4,572个共线性核心基因家族。其中1,049个家族(22.94%)保留重复拷贝(核心重复基因CD,即两个亚基因组均保留的旁系同源基因),3,523个家族(77.06%)为单拷贝(核心单基因CS,即仅一个亚基因组特有的基因;图6a)。此外还鉴定出246个仅存在于晚期或早期分化物种的共线性软核心基因家族(软核心重复/单基因SD/SS),以及466个物种特有的私有单基因(PS;图6a)。核心基因家族(尤其是CDs)具有更低的Ka/Ks值(图6b)、更少的侧翼TEs(图6c)和显著更高的表达水平(图6d),表明其经历了更强的选择压力。尽管晚期与早期分化物种间保留基因的侧翼TE积累相似,但前者Ka/Ks值显著更高(图6e和6f),暗示其纯化选择更为宽松。

通过基因本体(GO)富集分析评估重复与单拷贝基因的功能差异。CD与CS家族仅共享’质膜”转录调控’和’内质网’三个GO条目(图6g),而各自特有84和44个条目(表S11和S12),揭示基因保留的功能偏好。CD家族显著富集环境适应相关条目(如’镉离子响应”盐胁迫响应’和’高渗盐响应’;图6g),这与Biscutella(超50种分布于地中海干旱岩石生境)的生态位相符。值得注意的是,45.28%的CD重复对(475/1,049)呈现蛋白结构域组成分化,其中220对具有物种特异性变异(图S20)。CS家族则特异性富集叶绿体功能和DNA损伤修复相关条目(图6g),这些功能可能涉及剂量敏感网络从而限制基因丢失。

与适应相关基因的过量保留相反,Biscutella透镜状短角果的演化可能与基因过量缺失及选择松弛相关。相较于拟南芥或芸薹属的细长角果,Biscutella产生独特的双凸扁平短角果(图6h)。对ABCDE开花模型中同源基因拷贝数分析发现,调控胚珠发育的D类基因(如STK、SHP1和SHP2)均从重复基因退化为单拷贝(图6i),且其Ka/Ks值高于其他十字花科物种(图S21)。尤其在Biscutella中,拟南芥中决定胚珠珠被特性的SHP1仅保留单拷贝或完全丢失共线性拷贝(图6i和表S13),其保留单拷贝的保守基序也较少(图S22)。鉴于D类基因在胚珠原基发育中的关键作用,我们认为其丢失与选择松弛共同驱动了透镜状短角果的形成,这与拟南芥D类基因功能缺失突变体产生短角果的表型一致。

讨论

Biscutella属中存在的三种染色体基数在被子植物单系属中并不罕见。在十字花科中,多种染色体基数未必直接与多倍化和二倍化过程相关,更常见的是多倍化后二倍化伴随染色体数目的独立减少,从而使属或分支呈现多基数特征。现存Biscutella物种源自一个异源四倍体祖先基因组(形成于13-11百万年前),其染色体数(n=14)通过1.6-2.3倍的染色体数目减少的非整倍化减少至n=9、8和6。

研究表明,尽管现存Biscutella物种在染色体数目、二倍化程度和分化时间上存在差异,但所有n=8和9物种的独立多倍化后染色体数目减少的非整倍化过程均涉及12-16次染色体重排(CRs)(n=6的B. lyrata达20次),且端对端易位、嵌套染色体插入和染色体易位的数量相近。这与真双子叶植物中介导染色体数目减少的非整倍化的CR类型推断一致,并可能符合WGD后的基因组不稳定性特征。Biscutella细胞学二倍化的早期阶段确实伴随高TE动态性和更高的CR速率,导致广泛的染色体重构;而后期阶段CR速率降低。因此,通过CRs实现的亚基因组间同质化以及与基因丢失相关的染色体数目减少的非整倍化,可能逐步减缓细胞学二倍化进程。

值得注意的是,我们鉴定出12个多物种共享的染色体断裂热点(HOTs)。这些HOTs具有更高的LTR-RT含量,支持其作为双链断裂(DSBs)和非同源重组(NAHR)频发区域——富集Athila和CRM的古着丝粒区HOTs至今仍可在染色体连接点检测到。HOTs还频繁与拓扑关联结构域(TADs)边界共定位,表明CRs并非随机分布,而是与高阶染色质区室(A/B)和局部TADs相关。相较于棉花(起源约1-2百万年;Wang等,2018)和辣根(约5百万年)等近期多倍体中二倍体亚基因组高度保守的TADs,Biscutella物种直系同源基因间仅保留有限数量的保守A/B区室和TADs,凸显了染色质拓扑结构在深演化时间尺度上的侵蚀。

Martin Lysak, Yile Huang, Manuel Poretti et al. Post-polyploid chromosomal diploidization in plants is affected by clade divergence and constrained by shared genomic features, 11 May 2025, PREPRINT (Version 1) available at Research Square [https:///10.21203/rs.3.rs-6440714/v1]