顺式作用因子 *Cis-regulatory* elements (CREs)

基因表达调控

基因调控是现代分子生物学研究的中心课题之一。因为要了解动植物生长发育规律、形态结构特征及生物学功能,就必须搞清楚基因表达在时间和空间上的调控机制,掌握了它,就等于掌握了一把揭示生物学奥秘的钥匙

基因表达是一个多阶段进程(multi-level process)。DNA(脱氧核糖核酸)在转录为RNA(核糖核酸)后,RNA需要经过一系列转录后调控(post-transcriptional regulation)而被翻译为功能蛋白。

先前来自多家实验室的研究结果清晰地显示,RNA转录水平至多能够解释细胞中功能蛋白丰度的50%,而转录后基因调控提供了更多精细调节的选择。为满足个体发育及机体对外界刺激有效反应的需求,基因表达一系列进程都需要处于精密的调控中,任何错误偏离都有可能导致疾病的发生。虽然具有相同甚至更加重要的作用,相比已经较为广泛深入研究的转录调控,转录后基因调控研究领域还是一个相对未被开发的处女地,近十几年才逐渐受到生物医学界的重视,并逐渐成为研究基因调控的一个主流方向。

转录后基因调控包括多种生物学进程,如RNA剪接,polyA加尾(RNA多聚腺苷酸加尾),RNA降解及mRNA翻译等等。尽管这些不同进程的具体作用分子机制各有不同,但总体而言,它们的调控都是由位于RNA上的顺式调控元件(cis-regulatory elements)和以RNA结合蛋白为代表的反式因子(trans-regulatory elements)相互作用完成,所以全局研究转录后基因调控网络首先需要全面解析顺式调控元件或反式因子。

顺式作用元件与反式作用因子

通常,真核细胞基因由编码蛋白质的编码区和具有调控作用的非编码区组成。其中,编码区由外显子和内含子间隔排列,而非编码区,又称“侧翼序列”,特指第一个外显子和最末一个外显子的外侧区域,包含有启动子、终止子、上游启动子元件、增强子、沉默子、反式作用因子等元件。

顺式作用元件(cis-acting element),或称顺式元件子,是存在于基因旁侧序列中能影响基因表达的序列。顺式作用元件包括启动子、增强子、沉默子 等,它们的作用是参与基因表达的调控。顺式作用元件本身不编码蛋白质,其作用是提供一个结合位点,反式作用因子通过结合在该位点上来改变结合处的特性,进而调控受此顺式作用元件影响的基因。调控方式包括对基因转录可变剪切的调控、转录起始位点的调控以及转录效率的调控。

反式作用因子(trans-acting factor)则是指通过直接结合或间接作用于DNA、RNA等核酸分子,对基因表达发挥不同调节作用(激活或抑制)的各类蛋白质,其本身对基因表达没有调控作用,只是阻断来自上、下游的调控效应。反式作用因子主要指能结合在基因序列上的特异性蛋白质──转录因子,然而随着表观遗传学的发展,研究发现除了蛋白,某些DNA,RNA片断也具有类似的调控功能,因此现在把它们算作反式作用因子。 (不仅仅是转录因子)

实验难度

ChIP、RIP、RNA pull-down、EMSA、Luciferase是基因表达调控研究中,最为核心、最为关键的实验技术。

对于已知或候选反式因子(表观和转录因子)和顺式因子的研究手段较成熟,比如经典的EMSA,报告基因,ChIP等。给定反式因子,如何解析可能的结合和互作的未知顺式因子,尤其是在native 状态,unbiased 的组学水平上,曾经也是巨大挑战。但是这个难题在世纪之初取得了突破性进展:当时博士来自哈佛Tom Maniatis ( 美国科学院院士,2012年与 Donald D. Brown共同获得拉斯克基础医学特殊贡献奖,《分子克隆》的主编,第一个构建基因组DNA文库,第一个构建cDNA文库,目前在哥伦比亚大学)实验室(陈志坚、付向东、吴瑛、吴强等老师都来自这个实验室)的任兵老师(清华新秀颉伟教授的博后合作导师)正在MIT Richard Young院士(当时应该还不是院士)实验室做博士后,是第一个完成全组学水平转录因子CHIP分析的人(Ren et al., 2000),之后有一大批的华人学者比如阮一骏赵可吉等等都成为相关方向的翘楚。任兵老师很快去了UCSD,成为领域的灵魂人物(也是冷泉港课程的负责人),The Young实验室更是在这个技术之后迅速成为年轻一代表观和转录研究者的梦想之地。

在一个双倍体细胞里,我们大多数人研究和感兴趣的顺式序列通常都只有两条,而与它们结合的反式因子(转录因子)通常不会超过4-8个分子。转录因子常是以同源或者异源二聚体作用,对于给定的顺式序列,结合、没有结合或者是单倍体方式结合,那能够拉下来的反式因子的数量一般应该在2-4个分子,多可达8个,少可至2,甚至1(想想imprinting)。 而在哺乳动物细胞中,反式因子常常是成千上万甚至是千万个分子。也就是说,要在这浩瀚的一团漆黑的汪洋里从成千上万甚至千千万万个一模一样的微小生物里抓住仅有1-8条口含微小标签的微小生物,这将需要如何高效精准,恐怕孙悟空的火眼金睛也难以企及…

用CRISPR-dCas9来研究基因调控

2017年8月24日,Cell杂志上发表以西南医学中心徐剑教授和复旦大学周峰研究员为共同通讯作者的文章 “In Situ capture of chromatin interactions by biotinylated dCAS9”,首次利用了“biotinylated dCAS9”的方法建立了高分辨率,位点特异原位DNA-蛋白质以及其他元件的互作网络。

顺式调控元件(TRE)和反式调控元件(CRE)一直是人们感兴趣的对象,通常利用染色质免疫沉淀(ChIP)和染色质捕获技术来研究。不过,德克萨斯大学西南医学中心的研究人员最近开发出一种新方法,结合CRISPR的靶定能力以及生物素-链霉亲和素的互作优势来鉴定TRE和CRE。

? 这种名为CAPTURE的方法利用生物素标记的dCas9来分离与天然的染色质背景相互作用的调控元件(CRE和TRE)。CAPTURE包括三个关键的组分:

    1. 带有生物素接受位点的dCas9;
    1. 生物素连接酶BirA,它将生物素添加到接受位点;
    1. 将生物素化的dCas9引到目的位点的gRNA。靶定之后,通过甲醛交联来固定蛋白与DNA相互作用。

已知顺式调控元件,寻找相互作用的未知反式作用因子,是一个难题。用生物素标记的dCas9,能够找到位点特异性的DNA-蛋白相互作用,着实令人兴奋!不过,CAPTURE作为一项新技术,仍存在一些不足,比如需要的细胞样本量较大,每次实验需0.25~1 ×109个细胞。希望研究者能进一步完善CAPTURE技术,解决实际操作瓶颈,给各位基因转录调控研究者带来一项研究利器。

原文:Liu, et al. In Situ Capture of Chromatin Interactions by Biotinylated dCas9. Cell 170, 1028–1043 (2017).

蛋白质相互作用高通量筛选新系统

细胞内部各种蛋白相互作用如一个社交网络。制作相关图谱将有助于识别不同蛋白质功能,同时,还能帮助人们拼凑不同分子通路和细胞进程。例如,一个新发现的蛋白质如果与其他新陈代谢相关蛋白质相互作用,研究人员就可推断,该蛋白质可能是治疗代谢紊乱的靶点之一。

长期以来,人们一直依赖酵母双杂试验(standard high-throughput yeast two-hybrid assays)测定蛋白质相互作用。酵母双杂需要使用一种已知蛋白(被称作诱饵蛋白),来钓取其他相关蛋白(被称作猎物蛋白)。为了找到所有相互关系,如果想了解1000个蛋白质在细胞内的互作模式,就需要进行1000个单独实验,让每个诱饵蛋白与细胞内所有蛋白互动一遍。

将编码蛋白质的基因分别连在两个质粒上再导入细胞。如果两种蛋白在细胞内发生互作,质粒上的Cre基因就会被激活,在它的牵引下两个独立质粒上的两种基因就会连在一起。如此一来,通过基因测序便可迅速找到它们。研究小组构建了大量酵母细胞库,每个都含有通过随机组合在质粒中插入的不同蛋白质编码基因。通过选择培养基筛选发生重组的细胞(细胞内含有相互作用蛋白),再利用高通量DNA测序来识别究竟是哪两种蛋白质。如此一来,将不再局限于每次只能检测1种诱饵蛋白。

研究人员利用CrY2H-seq一个月内对拟南芥1800多种转录因子蛋白重复做了10次相互作用检测(大约一周时间,即可完成1800多个蛋白质相互作用解析)。每次实验排列组合总数高达400万个。他们共计发现了8000多个蛋白质相互作用,对拟南芥转录因子相互作用有了新的认识,这组图谱有助于回答长期以来有关某些转录因子是否具有功能的疑问。研究人员发现了一些相对未知的转录因子能与一些已知的转录因子发生相互作用,能调节植物对生长素的反应。

将来,该方法可被用来测试更大规模的蛋白质组,例如人类细胞(含有2万种不同蛋白),这种更便捷,更快的方法也可用于不同条件下细胞整个蛋白质相互作用变化研究。

CRISPR单向导RNA(SgRNA)文库筛选增强子

之前,科学团队多集中于利用CRISPR敲除编码蛋白的基因突变进行疾病治疗研究。Agami团队另辟蹊径,首次利用CRISPR / Cas9系统研究非编码区关键元件对肿瘤形成的影响。

Agami研究团队构建CRISPR单向导RNA(SgRNA)文库,用于筛选与肿瘤相关的增强子,并将筛选范围聚焦在两种转录因子——p53和雌激素受体ERα(编码p53和ERα蛋白的基因常在癌变细胞中发生突变)。

以含有p53和一种诱导致癌基因Hras的人体细胞为研究材料,当科研人员使用CRISPR敲除对p53功能行使不可或缺的增强子时,Hras基因异常表达,最终导致细胞无限制增长。借助该研究原理,团队利用SgRNA文库筛选了685个基因组位点,包含约90%已知的与p53转录因子有关的增强元件。

通过文库筛选,研究团队共鉴定出与p53功能相关联的3个增强子,其中有2个增强元件位于细胞周期蛋白依赖性激酶抑制剂1A (P21 A)上游,p53需要与这两个增强子结合才能完全激活细胞衰老过程。

同理,研究团队以人乳腺癌细胞为材料,构建另一个不同的SgRNA文库用于筛选与转录因子ERα有关联的增强子。结果共筛查到3个增强元件与ERα有关。

为了进一步研究与ERα有关的3个增强元件,Agami团队计划选取对抗雌激素治疗表现抗性的乳腺癌患者的肿瘤样本为材料,对这些位点进行测序。他们想知道这些肿瘤样本中相关增强元件是否存在突变,从而解析为什么治疗出现抗性。

迈阿密大学米勒医学院研究人类表观基因组、癌症分子机制的Ramin Shiekhattar 评述该研究时表示,基于CRISPR进行研究很必要的,因为其实现了内源性评估调控元件的可能。

什么因子决定基因的时间和空间表达

一、真核基因组的复杂性

    1. 真核基因组比原核基因组大得多;
    1. 真核基因的转录产物,一个结构基因转录生成一条 mRNA,即 mRNA 是单顺反子;
    1. 真核基因组仅 10% 的序列参与编码,90% 的序列,含有大量的重复序列,可能参与调控;
    1. 原核生物基因为蛋白质编码的序列绝大多数是连续的,而真核生物基因为蛋白质编码的基因绝大多数是不连续的,即有外显子和内含子,转录后需经剪接去除内含子,才能翻译获得完整的蛋白质;
    1. 真核生物 DNA 在细胞核内与多种蛋白结合构成染色质,这种复杂结构直接影响基因表达;
    1. 真核生物的遗传信息不仅存在于核 DNA 上,也存在线粒体 DNA 上,核内与线粒体基因的表达互相独立又需要协调。

二、染色质结构与真核基因表达密切相关

以染色质形式组装在细胞核内的 DNA 所携带的遗传信息表达直接收到染色质结构的制约。

1. 转录活化的染色质对核酸酶极为敏感

2. 转录活化染色质的组蛋白发生改变

转录活跃区域的染色质中的组蛋白的特点:

(1)富含赖氨酸的 H1 组蛋白含量降低;

(2)H2A-H2B 组蛋白而具体的不稳定性增加,使它们容易从核小体核心中被置换出来;

(3)核心组蛋白 H3、H4 可发生乙酰化、磷酸化以及泛素化等修饰。

3. CpG 岛甲基化水平降低

CpG 岛的高甲基化促进染色质形成致密结构,从而不利于基因表达。

三、基因组中的顺式作用元件是转录起始的关键调节部位

顺式作用元件位于编码基因两侧,指可影响自身基因表达活性的 DNA 序列。

1. 启动子

指 RNA 聚合酶结合并启动转录的 DNA 序列。

但真核同启动子间不像原核那样有明显共同一致的序列,而且单靠 RNA 聚合酶难以结合 DNA 而启动转录,而是需要多种蛋白质因子的相互协调作用,不同蛋白质因子又能与不同 DNA 序列相互作用,不同基因转录起始及其调控所需的蛋白因子也不完全相同,因而不同启动子序列也很不相同,要比原核更复杂、序列也更长。

2. 增强子

一种能够提高转录效率的顺式调控元件。

3. 沉默子

沉默子能够同反式因子结合从而阻断增强子及反式激活因子的作用,并最终抑制该基因的转录活性,还有些 DNA 序列既可以作为正性,也可以作为负性调节元件发挥顺式调节作用,这取决于 DNA 结合因子的性质。

四、转录因子是转录调控的关键分子

真核基因的转录调节蛋白称为转录因子,也成为反式作用因子。RNA 聚合酶是一种反式作用于转录的蛋白因子。在真核细胞中 RNA 聚合酶通常不能单独发挥转录作用,而需要与其他转录因子共同协作。

1. 通用转录因子

为 RNA 聚合酶介导基因转录时所必需的一类辅助蛋白质,帮助聚合酶与启动子结合并起始转录,对所有基因都是必需的。

2. 特异转录因子

为个别基因转录所必需,分为转录激活因子和转录抑制因子。转录激活因子多是增强子结合蛋白;转录抑制因子多是沉默子结合蛋白,也可有以不依赖 DNA 的方式起作用,而是通过蛋白质-蛋白质相互作用和转录激活作用中和转录激活因子。

组织特异性的转录因子在细胞分化和组织发育过程中具有重要作用,真正决定着细胞基因的时间、空间特异性表达。

与启动子上游元件,如 GC 盒、CAAT 盒等顺式作用元件,结合的蛋白质称为上游因子。与增强子等远端调控序列结合的转录因子称为可诱导因子。广义上也可称为转录因子。

3. 转录因子作用的结构特点

(1)至少包括两个结构域

DNA 结合域包括锌指模体结构、碱性螺旋-环-螺旋结构、碱性亮氨酸拉链模体结构。

转录激活域分为酸性激活结构域、谷氨酰胺富含结构域、脯氨酸富含结构域。

(2)包含一个介导蛋白

最常见的是二聚化结构域。

4. 二聚化是常见的蛋白质-蛋白相互作用方式

五、转录起始复合物的动态构成是转录调控的主要方式

转录激活的调节最终是由 RNA 聚合酶活性体现的,其中关键环节是转录起始复合物的形成。

1. 启动子与 RNA 聚合酶活性

真核生物 RNA 聚合酶单独与启动子亲和力极低甚至没有,必须与基本转录因子结合才能与启动子结合。

启动子的核苷酸序列会影响其与 RNA 聚合酶的亲和力,后者直接影响转录起始的频率。

2. 调节蛋白与 RNA 聚合酶活性

TF Ⅱ D 是唯一有位点特异的 DNA 结合能力的因子。

六、转录后调控主要影响真核 mRNA 的结构与功能

1. mRNA 的稳定性影响真核生物基因表达

5'-端的帽子结构可以增加 mRNA 的稳定性、3'-末端的 poly(A) 尾结构防止 mRNA 降解。

2. 一些非编码小分子 RNA 可引起转录后基因沉默

如核酶、snRNA、snoRNA、miRNA、siRNA。

3. mRNA 前体的选择性剪接可以调节真核生物基因表达

七、小结

真核基因组比原核大得多,结构更复杂,含有许多重复序列,真核生物基因为蛋白质编码的基因绝大多数是不连续的。

真核基因表达调控的环节更多,转录前可以有基因的扩增或重排,并涉及染色质结构的改变、基因激活过程。转录后调控的方式也很多,但仍以转录起始调控为主。

正性调控是真核基因调控的主导方面,RNA 聚合酶的转录活性依赖于基本转录因子,在转录前先形成转录复合体,其转录效率受许多蛋白因子的影响,协调表达更为复杂。

推荐阅读更多精彩内容