一条家族性急性髓系白血病相关新基因ELF2C的生物信息学分析
发表时间:2010-10-28 浏览次数:435次
作者:王程毅, 王少元, 张轶文, 李景岗 作者单位:福建医科大学附属协和医院血液科,福建省血液病研究所
【摘要】 目的 利用生物信息学技术对新克隆的家族性急性髓系白血病相关新基因ELF2C和其蛋白序列进行分析,初步探讨其功能。 方法 以人类基因组数据库为基础,利用生物信息学程序预测ELF2C的基因结构、染色体定位、编码蛋白质的理化性质、亚细胞定位、蛋白质功能域等。 结果 ELF2C基因定位于4q31.1,全长2 257 bp,含有432 bp的开放阅读框,可编码143氨基酸的蛋白质,且编码蛋白定位于核内,具有多个修饰位点和功能基序,是一个功能活跃的蛋白质。 结论 ELF2C基因可能是在家族性急性髓系白血病发生发展中具有生物功能的一条全长新基因。
【关键词】 系谱; 白血病;粒细胞,急性; 基因; 计算生物学; 序列分析,DNA
为寻找家族性急性髓系白血病特异相关基因,笔者应用抑制性消减性杂交(suppression subtractive hybridization,SSH)构建了家族性急性髓系白血病cDNA抑制性消减文库,以其中一条家族性急性髓系白血病中差异表达的代表新基因的EST(zywb4)片断为基础[1],综合应用电子克隆和SMARTRACE等分子生物学技术,从此家族性急性髓系白血病患者骨髓标本中克隆出其cDNA全长,命名为ELF2C(GenBank accession number:DQ359746)[2]。为进一步探讨ELF2C的基因结构和生物功能,笔者应用生物信息学分析技术对ELF2C基因进行初步分析研究,报道如下。
1 材料与方法
1.1 材料
1.1.1 标本 骨髓标本取自福建省一高发白血病家族中之一患者(M2),男性,11岁。按GeneBallTM Genome Preparation Kit说明书进行基因组DNA的提取,TE溶解,调至0.5 g/L后,-80 ℃保存。
1.1.2 主要仪器与试剂 GeneBallTM Genome Preparation Kit (日本TaKaRa公司),TOPO TA Cloning Kit、质粒载体pCR2.1TOPO、感受态细胞TOPO10、Xgal、IPTG、Platinum Taq DNA Polymerase High Fidelity(美国Invitrogen公司)。其余试剂为国产或进口分析纯试剂。PCR扩增仪(2720型,美国PerkinElmer公司)。
1.2 方法
1.2.1 基因核酸序列信息 基因组定位采用NCBI的MegaBLAST 工具和UCSC的BLAT Search Genome程序:利用MegaBLAST工具检索人类基因组数据库,参数取默认值,用map viewer 观看基因组定位及外显子、内含子等基因结构。运行BLAT Search Genome程序检索人类基因组数据库,直接观察基因组定位及外显子、内含子等基因结构。利用Sim4工具(http://biom3.univlyon1.fr/sim4.php)和LalnView2.2软件将mRNA序列对齐到相应的基因组序列以验证基因结构。利用GeneBuilder、NCBI/ORF Finder程序分析其对应的基因结构。
1.2.2 基因编码的蛋白序列信息 Expasy 站点(http://www.expasy.org/)的ProtParam 工具预测蛋白质的理化性质,ProtScale工具预测亲水性轮廓。PSORT II(http:// psort.ims.utokyo.ac.jp /form2.html)预测亚细胞定位信息;TMHMM服务器(http://www.cbs.dtu.dk/ services/TMHMM/)预测跨膜信息。InterProScan ( http://www.ebi.ac.uk/InterProScan/)预测蛋白质功能域与结构域。SMART服务器(http:// smart.emblheidelberg.de/)分析蛋白质序列结构功能域。ELM(http: //elm.eu.org/) 预测蛋白质功能性位点。利用BlastP工具查询NCBI 的非冗余蛋白质数据库以了解其他物种中是否有相似的蛋白质存在。查询参数取默认值即可。
1.2.3 下游剪切位点的检测 对第五外显子设计引物,包括其mRNA剪切位点做PCR,采用Invitrogen的高保真酶做长距离PCR,其流程如下:向50 μL PCR 反应管中加入以下试剂:39.3 μL去离子水、5 μL 10×Taq DNA Polymerase Buffer、1 μL dNTP(10 μmol/L)、0.2 μL Taq DNA Polymerase、2 μL MgSO4、1 μL ELF2Exon51F(20 μmol/L)、1 μL ELF2Exon51R(20 μmol/L)和0.5 μL基因组DNA,振荡混匀、离心沉底,扩增35个循环,用2.0%琼脂糖凝胶电泳并回收所需条带,克隆至pCR2.1TOPO Vector连接,转化TOPO10,于涂有Xgal和IPTG 的LB/Amp平板上培养。通过质粒PCR反应和EcoRⅠ酶切反应鉴定重组子。阳性重组子同时送日本TaKaRa公司和美国Invitrogen国内分公司测序。
PCR反应引物:
上游:5’AGAGCAAGACTCCGTCTCC3’
下游:5’CTCCCCACCTACTTCCAAATC3’
2 结 果
2.1 基因核酸序列信息 利用MegaBLAST工具将基因ELF2C全长序列对人类基因组数据库进行检索,发现其位于人类染色体4q31.1上,具有4个外显子和3个内含子,在染色体上与ELF2基因的部分外显子位置一致(图1)。BLAT Search Genome程序也确证了该结果。 a:ELF2C 的染色体定位,位于4q31.1;b:ELF2C 的基因结构,可以看出其具有4个外显子和3个内含子;箭头方向为转录方向.
利用Sim4工具将ELF2C/ELF2序列和对应基因组序列进行联配,发现这两个基因内含子/外显子的边界都符合GT/AG剪切模式,LalnView2.2也直观地看出ELF2C基因在染色体上具有4个外显子和3个内含子,ELF2基因具有7个外显子和6个内含子(见图2)。
a:ELF2C(即原先的zywb4)基因在染色体上具有4个外显子和3个内含子;b:ELF2基因具有7个外显子和6个内含子.
图2 ELF2C和ELF2 基因组结构
Fig 2 Gene structure of ELF2C and ELF2 对比ELF2C和ELF2的外显子序列以及二者的蛋白质序列发现:ELF2C第四个外显子在3′方向比ELF2的3′方向多了1 674个碱基,这可能是ELF2C对应的基因组在第五个外显子的剪切位点发生小片缺失和点突变,以至无法正常剪切而导致转录终止,在ELF2的第五个外显子上游剪切位点附近设计引物,证实这种假设;基因结构GeneBuilder分析显示,发现在ELF2C基因第一外显子及其上游439 bp到下游2 000 bp的区域是CpG密集富含区(CpG岛),但启动区缺乏明显的TATA同源盒;NCBI/ORF Finder程序发现从第150至581位核苷酸之间含有一个431 bp的开放读码框架(ORF),编码具有143氨基酸的蛋白质,登陆GenBank,获得蛋白注册号:ABD15131。
2.2 基因编码的蛋白序列信息 将基因ELF2C的蛋白质参考序列提交至ProParam,预测其分子量为15 584.6,理论等电点为6.30,半衰期在体外人网织红细胞为30 h,被分类为不稳定蛋白质。ProScale未见该蛋白有明显的亲疏水性倾向。提交至PSORT II,提示该蛋白很有可能定位于核内。TMHMM服务器预测未见跨膜结构。将该序列提交至InterProScan,可发现在58~134氨基酸为部分ETS结构域,提示其与ets转录因子家族相关。应用SMART发现有DSL、ZnF_TAZ、AT_hook三个结构域。ELM查询发现该蛋白具有枯草杆菌蛋白酶异构酶(SKI1)裂解位点、FHA(forkhead associated)功能域作用基序、III型PDZ配体结合基序、SH2(STAT5 Src Homology 2)结构域结合基序、WW4域作用基序及CK1、CK2、GSK3磷酸化位点等。利用BlastP工具,发现ELF2C与E74like factor 2(即ELF2)前1~134个氨基酸比对一致。
2.3 下游剪切位点的检测 对第五外显子设计引物,包括其mRNA剪切位点做PCR(图3),割胶回收,克隆测序,发现mRNA剪切位点未出现异常。
3 讨 论
应用BLAST、SAMRT等软件工具,可以知道: (1)ELF2C序列和ELF2是来自同一段hnRNA;(2)zywb4全长序列的前3个外显子的剪接位点符合GT/AG剪切模式;(3)长距离PCR实验证明zywb4全长序列确实存在[2]。因此,ELF2C序列很可能为ELF2的可变剪切体。将ELF2C全长序列的外显子与ELF2的外显子分别对齐后发现:ELF2C转录提前终止,缺失关键的ETS结构域。其原因可能为:(1)第五个外显子的剪切位点突变;(2)剪切调节因子的功能丧失。笔者的实验证明第五个外显子的上游剪切位点没有发生突变,那么最大可能是剪切调节因子的功能丧失,而剪切调节因子的功能丧失也易导致疾病的发生,如人类强直性肌营养不良,它的选择性剪切调节因子CUGBP水平升高,功能失常,导致肌肉特异性氯离子通道1因子(musclespecific chloride channel 1,CIC1)保留了第2个内含子,引起疾病发生[3]。笔者在ELF2C基因的启动子区以及5′区发现密集CpG岛,近年来的研究资料显示,基因组DNA CpG岛的甲基化修饰在多步致瘤模式及肿瘤进展复发中起着重要作用,如抑癌基因p15启动子区的CpG岛在88 %成人急性髓系白血病中发生超甲基化,p16 RARbeta和APC等基因在不同类型的急性白血病中也有类似改变[45]。故推测ELF2C基因的调控可能也会受到甲基化的影响。笔者对ELF2C启动子区域所含基本转录调控元件分析,发现缺乏明显的TATA同源盒,这种情况多见于两类基因,一种是管家基因,另外一种是与发育相关或免疫系统发育形成相关的基因。ELF2C作为ets转录因子家族的ELF2的可变剪切体,故提示该基因可能与调控细胞生长发育相关。
目前对ets转录因子家族的ELF2的实验研究仅有Wilkinson DA报道发现了ELF2两个剪接体ELF2A/2B[6],并于当年提交注册GenBank,但这两个剪接体的功能至今还不明了,很可能它们在机体中发挥相反的作用,与RBTN2相互作用影响着T细胞的生长。
在ELF2C的蛋白组学分析上,笔者发现ELF2C含有DSL(delta serrate ligand、δ-锯齿形配体)、ZnF_TAZ(全称TAZ zinc finger、TAZ锌指结构)、AT_hook((DNA binding domain with preference for A/T rich regions、A/T碱基的DNA结合域)结构域,缺乏ELF2A/2B的完整的ETS结合域和RBTN2结合域(图4),并且具有枯草杆菌蛋白酶异构酶1(SKI1)裂解位点、FHA(forkhead associated、叉头联合)功能域作用基序、III 型PDZ配体结合基序、SH2(STAT5 Src Homology 2)结构域结合基序、WW(色氨酸色氨酸)4域作用基序及CK1、CK2(酪蛋白激酶1、2)GSK3(糖原合成酶激酶3)磷酸化位点等,而SMART软件提示DSL结构和lag2、apx1结合可介导细胞间相互作用,影响细胞的结局;ZnF_TAZ结构可结合磷酸化cAMP效应元件结合蛋白,参与cAMP信号传导途径;AT_hook结构,作为DNA结合区域,倾向与富含A/T的DNA序列结合;具有SKI1裂解位点的蛋白质广泛存在于哺乳类动物的神经细胞和内分泌细胞中,在神经肽和肽类激素前体的蛋白酶解加工中发挥重要作用[7];FHA功能域广泛存在于真核细胞和原核细胞的多种蛋白质中,它特异性结合含有磷酸苏氨酸或磷酸丝氨酸的肽段,参与信号转导、细胞周期调控、DNA损伤修复和介导蛋白质相互作用[8];PDZ最初被发现参与信号通路。它在特定的亚细胞定位中,在大的多聚蛋白复合体的合成过程中起重要的介导作用。相应配体与PDZ以伸展的构像结合形成一条附加的β链,该复合物即可特异性识别靶蛋白的C端[910 ];SH2配体是一类小型的功能模块,存在于很多蛋白质中,参与不同的信号途径。它们可以特异性地识别具有磷酸化酪氨酸的基序,将信号向下游传递,以促进蛋白质相互作用和调节酶活性[11];WW4域作用基序也是一类小型的功能模块,它们可以特异性地识别并结合具有脯氨酸的蛋白基序,从而介导蛋白间的相互作用[12];CK1、CK2磷酸化位点也广泛存在于真核细胞和原核细胞的多种蛋白质中,在细胞分裂、DNA修复、糖代谢等过程中起重要作用;GSK3磷酸化识别位点是对其底物蛋白进行磷酸化从而起抑制蛋白的功能,在糖代谢、癌基因的抑制和激活等生化途径中起了重要作用;因此,作者推测ELF2C所编码的蛋白也可能具有如上多种功能。
图4 ELF2的剪接体的蛋白质结构
Fig 4 Protein structural domains of ELF2 splice variants 上述结果显示,该基因是个编码143氨基酸的新基因,编码蛋白定位于核内,具有多个修饰位点和功能基序,表明它是一个功能活跃的蛋白质,可能有参与cAMP信号传导、细胞增殖、细胞生长调控等过程。该基因可能参与家族性急性髓系白血病的发生发展过程,至于有关ELF2C基因的确切生物学功能,有待应用现代的生物学技术进行深入研究阐明。
(致谢:福建医科大学分子医学研究中心林旭教授,北京军事医学科学院放射医学研究所和神经生物学研究室张成岗教授和杭兴宜博士提供技术指导。)
【参考文献】
[1] 张轶文,王少元,林 旭,等. 家族性急性髓系白血病差异表达基因的筛选与鉴定[J]. 中华医学杂志, 2007,87(8):533537.
[2] 王程毅,王少元,林 旭,等. 家族性急性髓系白血病相关新基因ELF2C的cDNA全长的克隆[J]. 中华医学杂志, 2007,87(32):22452248.
[3] CharletB N, Savkur R S, Singh G,et al. Loss of the musclespecific chloride channel in type 1 myotonic dystrophy due to misregulated alternative splicing[J]. Mol Cell, 2002,10(1):4553.
[4] Issa J P,Baylin S B,Herman J G. DNA methylation changes in hematologic malignancies:biologic and clinical implications[J]. Leukemia, 1997,11(11):S7S11.
[5] Yang Y,Takeuchi S,Hofmann W K,et al. Aberrant methylation in promoterassociated CpG islands of multiple genes in acute lymphoblastic leukemia[J]. Leuk Res, 2006,30(1):98102.
[6] Wilkinson D A,Neale G A,Mao S, et al. Elf2,a rhombotin2 binding ets transcription factor: discovery and potential role in T cell leukemia[J]. Leukemia, 1997,11(1):8696.
[7] Seidah N G, Mowla S J, Hamelin J, et al . Mammalian subtilisin/kexin isozyme SKI1:A widely expressed proprotein convertase with a unique cleavage specificity and cellular localization[J]. Proc Natl Acad Sci USA,1999,96(4):13211326.
[8] Durocher D, Jackson S P. The FHA domain[J]. FEBS Lett, 2002,513(1):5866.
[9] Hung A Y, Sheng M. PDZ domains : structural modules for protein complex assembly[J]. J Biol Che,2002 ,277(8):56995702.
[10] Sheng M, Sala C. PDZ domains and the organization of supramolecular complexes[J]. Annu Rev Neurosci ,2001 ,24 :129.
[11] Hansen L H, Wang X, Kopchick J J, et al . Identification of tyrosine residues in the intracellular domain of the growth hormone receptor required for transcriptional signaling and Stat5 activation[J]. J Biol Chem, 1996,271(21):1266912673.
[12] Kato Y, Ito M, Kawai K, et al. Determinants of ligand specificity in groups I and IV WW domains as studied by surface plasmon resonance and model building[J]. J Biol Chem, 2002,277(12): 1017310177.