蛋白质组学的基本技术流程主要为以下四方面:
蛋白质标本的制备及分离:寻找较好的方法尽可能完全地抽提细胞或组织中的全部蛋白质是比较蛋白质组学研究的重要前提。蛋白质图像的差异对比分析:给予双向电泳所获得的凝胶图谱,可用图像分析软件进行分析对比。差异蛋白质肽段鉴定:图像分析显示的不相匹配点及有异常变化匹配点是比较蛋白质组学的兴趣所在。单排之数据库的搜索分析:蛋白质数据库是属性化的数据库,通过搜索蛋白质数据库可分析和确定该蛋白质性质特征,若搜索不到,可能为新蛋白。蛋白质组学三大基本技术
蛋白质组学三大基本技术有:质谱技术、SDS-PAGE 技术、免疫淋巴细胞技术。
1、质谱技术:质谱技术是蛋白质组学中最常用的和最基本的技术,它可以检测和识别各种生物样品中的蛋白质和其他大分子有机物,从而可以提高研究的准确性,特别是在研究动态蛋白信号转导及表观遗传因子的时候,质谱技术的应用更加广泛。
质谱技术包括两种:基于气相法的高级数据库技术,和基于液相法的 maldi 技术。质谱技术主要是利用质谱仪来获取受体上蛋白质结构的数据,然后利用数据库搜索,来识别出蛋白质结构特征及在受体上的结合状态。
2、SDS-PAGE 技术:SDS-PAGE 技术是一种蛋白电泳分析技术,它可以分离组成复合蛋白的每个蛋白质组分,并对蛋白质的组成成分及其特有的分子量进行测定,是一种蛋白质分类及检测的基础性技术。
SDS-PAGE 技术利用聚丙烯酰胺亚胺(SDS)作为为分子内部量均分剂,可将蛋白链折叠、聚集形成单个分子,然后进行电泳分离操作,在膜隔开一定距离然后再对所获取到的蛋白分子特征进行识别,以得出它的结构和分子量的信息,进而得出受体上分子的特征及其功能。
3、免疫淋巴细胞技术:免疫淋巴细胞技术使实验可能性较好、分离效果更好。它以电泳分离技术作为分离介质,从新鲜样品中分离出完整的肤盐化药物,可有效地检测及克隆受体上的蛋白片段及肩膀,进而得出蛋白质组学上受体特征及其功能。
什么是蛋白质组学?
这个概念最早是在1995年提出的,它在本质上指的是在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平,翻译后的修饰,蛋白与蛋白相互作用等,由此获得蛋白质水平上的关于疾病发生,细胞代谢等过程的整体而全面的认识。
目前,在蛋白质功能方面的研究是极其缺乏的。大部分通过基因组测序而新发现的基因编码的蛋白质的功能都是未知的,而对那些已知功能的蛋白而言,它们的功能也大多是通过同源基因功能类推等方法推测出来的。有人预测,人类基因组编码的蛋白至少有一半是功能未知的。因此,在未来的几年内,随着至少30种生物的基因组测序工作的完成,人们研究的重点必将转到蛋白质功能方面,而蛋白质组的研究正可以完成这样的目标。在蛋白质组的具体应用方面,蛋白质在疾病中的重要作用使得蛋白质组学在人类疾病的研究中有着极为重要的价值。
疾病的产生可能仅仅是因为基因组中一个碱基对的变化,如β-血红蛋白第六位上的Glu变为Val就导致了镰刀型细胞贫血症的发生。然而,对于大多数疾病来说,其疾病发生机制要复杂的多。因此,对于疾病发生的分子机制的认识就需要一些能够解决这些复杂性的方法来完成。而作为细胞中的活性大分子,蛋白质无疑是与疾病相关的主要分子,蛋白表达水平的改变是与疾病,药物作用或毒素作用直接相关的。因此,基于蛋白质整体水平的蛋白质组学在人类疾病研究中无疑将发挥重要作用。
现在,蛋白质组学在人类疾病中的应用已经在一些疾病如皮肤病,癌症,心脏病中广泛开展了,而这些研究则主要集中在这样几个方面:寻找和疾病相关的单个蛋白,整体研究某种疾病引起的蛋白表达或修饰的变化,利用蛋白质组寻找一些致病微生物引起的疾病的诊断标记和疫苗等。下面,我们就将就蛋白质组学的基本技术和这些领域的应用作一些介绍。
蛋白质组学研究的基本技术
对于蛋白质组学的研究来说,它的最基本的实验手段就是利用双向凝胶电泳(two-dimensional protein electrophoresis, 2DE),在整个 基因组水平上检测蛋白质表达的情况。双向凝胶电泳首先利用等电点聚焦来分离不同等电点的蛋白,再利用SDS-PAGE来分离不同分子量的蛋白,其分辨率是非常高的。微克级的蛋白质就可以被很好的分辨开了,如在微克级水平上,有人从一个蛋白混合物中最多分开了11200种蛋白质,数量是非常可观的。因而,微克级的蛋白的双向凝胶电泳常被用来初步检测表达或修饰有变化的蛋白。然后,同样的蛋白混合物样品可用于毫克级的2DE,这样,电泳图谱上的每一个多肽就可被纯化并进行下一步的分析,如质谱,末端或中间的氨基酸序列分析等。
仅仅进行双向凝胶电泳显然是远远不够的,因为由双向电泳得到的蛋白质表达情况的变化并不能和具体的何种蛋白表达出了变化联系起来。而一些如蛋白质印迹或凝集素亲和印迹等传统技术对于这方面的信息也帮助不大。为了鉴定这些由电泳得来的蛋白,质谱(MS,mass spectrometry)被广泛应用在蛋白质组学中。对于蛋白质的鉴定,有两种方法用的最为广泛,即MALDI-MS ( matrix-assisted laser desorption ionization)和ESI-MS (electrospray ionization)。这两种方法各有自己的 适用范围,通常前者对于分析高分子量的蛋白更有效,而后者对于蛋 白的检测灵敏度更高,常可达到飞克级水平以下。质谱可以用于蛋白质分析主要是因为它可以提供特定蛋白的不同方面的结构信息,如它可直接测定蛋白或多肽的分子量信息,也可用来获得一些蛋白质序列信息等。同时,质谱也可通过多肽片段分子量的改变来得到一些关于糖型,磷酸化和其它翻译后修饰的数据。因此,质谱对于蛋白质的鉴定是非常重要的,而它的进展也无疑会大大促进蛋白质组学的研究进展。
单个的疾病相关蛋白的寻找
在疾病发生过程中,由于和疾病相关的遗传信息的变化常常会导致蛋白的种类和数量发生变化,而这些变化是可以被可以被高解析度的双向凝胶电泳所检测到的,这就是利用蛋白质组学寻找和鉴定疾病相关蛋白的依据。
结肠癌的产生是一个包含了多个基因突变的多步过程,这其中包括抑癌基因的功能丧失,癌基因的活化等。然而,肿瘤发生的具体机制仍不清楚。对于这样一种涉及多种蛋白的疾病,人们已经开始利用蛋白质组学来分析结肠粘膜发生恶性转化后的多肽的变化了。对照15例结肠癌病人和13例正常人的结肠表皮的双向凝胶电泳结果发现,二者分别含有882个和861个点,而这些点中,有一个蛋白,其分子量为 13kDa,等电点为5.6,它只在肿瘤组织中专一性的表达。在15个癌症样品中,有13例的此蛋白表达上调,占到了87%。进一步的研究也证实了这个蛋白在不同程度的癌症引起的发育异常中也有明显的表达水平上的差异。由双向电泳发现的这个可能与癌症相关的蛋白到底是什么蛋白呢?从电泳的凝胶上得到的这个点经胰蛋白酶水解后,得到的肽段由μ-HPLC分离后测序。测序的结果拿到两个序列,LGHPDTLNQ和VIEHMEDLDTNADK,这与钙粒蛋白B的情况完全吻合。进一步的用MALDI-MS分析的结果也证实了这个蛋白就是钙粒蛋白B。同时,结合以前的发现,即由钙粒蛋白B和A组成的异源二聚体蛋白钙防卫蛋白在胃肠肿瘤病人的粪便样品中含量有很大提高,钙粒蛋白B在肿瘤性转化的组织中的高专一性存在显示出它在结肠癌的产生中具有重要的作用。尽管蛋白的具体功能还需要进一步的阐明,但这个例子已经可以证明,由蛋白质组学方法寻找疾病相关蛋白肯定是可行的。
这方面的另一个例子是关于肝细胞癌的研究。双向凝胶电泳已经被成功的用于发现化学诱导的鼠的肝癌相关蛋白中。而双向电泳和蛋白质化学方法的联合应用也更深化了对这些癌症相关蛋白的具体特征的认识。在用N-甲基-N-亚硝基脲诱导了鼠的肝癌后,利用双向电泳发现了一些表达有变化的蛋白,经氨基酸序列分析后,分析其中一个蛋白是来源于肝癌的醛糖还原酶样蛋白( hepatoma-derived aldose reductase-like protein)。这个蛋白分子量为35KDa,等电点为7.4,它是 一种在肝癌和胚胎的肝中特异性表达的蛋白。利用双向电泳得到了这样一种可能和癌症相关的蛋白后,一些蛋白质化学的方法可用来对这种蛋白和疾病的相关性作进一步的研究。有人利用免疫组化的方法发现,直接针对来源于肝癌的醛糖还原酶样蛋白的抗体FR-1表明,这个蛋白在化学诱导的肝癌小鼠的发生肿瘤转化的前期和转化的早期就已经有很强的表达了,而正常肝组织中并无表达。这都是该蛋白涉及肝癌发生过程的有力证据。
已有的一些关于此蛋白的研究表明,醛糖还原酶是还原酶超家族的成员,在山梨糖醇途径中它可以催化葡萄糖向山梨糖醇的转化,而且在一些糖尿病的并发症的发生中它也有作用。作为一种酶,它可以水解一些生物异源物质等,因此它也参与了一些解毒过程。而在肝癌发生过程中,一些解毒酶的表达水平或活力增高已是公认的事实了。对于醛糖还原酶这一类有解毒功能的蛋白来说,只有由双向电泳发现的肝癌来源的醛糖还原酶样蛋白是与肝癌相关的。它首先在胚胎肝中表达,但在成年的肝中就不表达了。肝癌发生时,它又重新表达了。因此,目前可以初步推断,醛糖还原酶样蛋白在肝癌发生过程中是与肝的解毒过程相关的。现在,在人的肝癌中,也找到了鼠的醛糖还原酶样蛋白的同源蛋白,它同样是在人的不同组织中选择性表达的。
疾病相关蛋白的整体研究
对于大多数疾病来说,疾病造成的往往不只一个或几个蛋白的变化,参与疾病过程的蛋白的数目也是很大的,因此除了通过双向凝胶电泳来寻找与疾病相关的单个蛋白外,通过蛋白质组对表达情况有变化的蛋白在整体水平上的研究同样是非常重要的。目前,在利用双向凝胶电泳进行的蛋白整体水平的研究方面,扩张性的心肌病(Dilated cardiomyopathy, DCM)是一个较好的例子。
扩张性的心肌病是一种严重的心脏疾病,对于这种疾病的致病机理和涉及的分子都还不清楚,而且,对于这样一种复杂的疾病来说,也不可能仅由一种致病机理造成。因此,对于这样的疾病,从整体的蛋白质组水平来研究是极为必要的。另外,相对其它组织而言,主要由心肌细胞组成的心脏是一种相对均一的组织,这也为用双向凝胶电泳进行蛋白质组的研究提供了良好的基础。对DCM的蛋白质组的研究在九十年代初就已经开始了,目前,心肌的双向凝胶电泳的数据库已经建立。尽管国际上各实验室之间的数据之间有着如不同的样品制备,不同的等电聚焦条件,不同的凝胶大小等差异,但这些数据的比较证明,在大多数情况下,不同蛋白的点的位置还是相对稳定的,可以进行大规模的比较研究。
在Knecht等人的研究中,得到了一个高解析度的具有大约3300个心肌蛋白点的双向电泳结果,并对其中的150个蛋白进行了氨基酸分析,N端和中间的Edman降解以及MALDI-MS等一系列鉴定。而对几百个正常和扩张性心肌病的病人的2-DE结果比较发现,两者的蛋白条带具有可比性。除去一些可能由不同的疾病有关参数如患病程度,用药情况,病人年纪等因素造成的无重复性的点的多少和强度的变化外,患病者和正常人有25种蛋白在统计学上具有显著差异。这些即是DCM相关蛋白。而这个结果是在对几百个样品的大规模研究的基础上得来的,而也只有大规模的研究,才能体现出这个结果在实际应用前景上的价值。对于这几十种疾病相关蛋白,我们可以用一些其它方法,如免疫组化,酶活测定等,来作进一步的鉴定,确认它们与疾病的相关性以及它们在疾病中的作用等。这些工作都是在基于蛋白质组的研究基础上进一步的深入而进行的,显然,在几百个DCM患者和正常对照的样品的大规模水平上对疾病相关蛋白的整体研究无疑是最为基础和有效的。
病原微生物的蛋白质组学分析
近几年来,关于传染病的研究变得比原来更为重要。一些新的传染原,如Borrelia burgdorferi,HIV,Ebola病毒等的出现,使得一些原来认为已被控制的疾病如结核,多抗药性的链球菌属感染等又有所增 加。因此,对于有毒力的微生物和病毒进行蛋白质组学的分析就显得非常必要,它可以用来寻找和研究毒力因子,抗原,疫苗等,而这些对于疾病的诊断,治疗和防治是极为重要的。目前,已经有18种微生物的基因组测序已经完成,而另有60多种的微生物的基因组测序正在进行当中,这些基因序列的信息和相对真核组织来说少得多的基因数量都为蛋白质组的研究提供了良好的基础。
疏螺旋体属的Borrelia burgdoferi是引起多系统疾病人类Lyme氏疏 螺旋体病的主要致病因子。这种疾病的症状开始时常表现为一些环状红斑样皮疹以及流感样症状,发展下去也会造成一些神经系统的并发症和关节炎等。目前,对这种疾病的诊断主要是通过临床症状的判断并辅以血清学实验如ELISA,免疫印迹等来证实。由于这些实验具有不同程度的敏感性和特异性,诊断并不是标准化的。利用蛋白质组学的研究提供一些新的较为标准的诊断标记就显得尤为必要了。
Borrelia burgdoferi的染色体上有853个基因,它的11个质粒上有额 外的430个基因。它的双向凝胶电泳图谱大约有300个点,由这些蛋白点就可以寻找免疫相关抗体等蛋白了。将银染的 Borrelia burgdoferi的 2DE凝胶上的其中217个点编号后,用来源于兔子的多克隆抗体采用免 疫杂交的方法鉴定了一些抗原在胶上的位置,如外表面蛋白A(OspA),OspB,OspC,p83/100,p39,flagellin p41等。除了p83/100外,所有 抗原在2DE图上都存在于不只一个点上。利用不同表现症状的Lyme氏 疏螺旋体病病人的血清与疏螺旋体的2DE图进行印迹分析发现,具有 红斑迁移症状的十个病人的血清中分别含有60种和88种抗原的IgM型和IgG型抗体,而关节炎病人的血清中含有15种抗原的IgM抗体和76种不同抗原的IgG抗体,晚期神经疏螺旋体病人的血清中则含有33种抗原的IgM抗体和76种抗原的IgG抗体,但在这三种不同疾病时期的病人血清中都含有这样几种抗原的抗体,OspA,OspB,OspC,flagellin,p83/100,p39等,这几个抗原同时也是原来血清学实验中用来诊断的标记,蛋白质组的结果验证了原来诊断的合理性,同时,2DE的结果也发现了一些原来并没有发现的抗原,这些正是一些新的潜在的诊断标记。更多诊断标记的发现对于诊断的标准化和准确性的提高大有帮助。
弓形虫病是由原生动物Toxoplasma gondil寄生感染引起的,全世 界约有30%的人携带此种寄生虫,而在欧洲,弓形虫病是发生频率最 高的传染病之一,因此,这种疾病的危害是相当高的。在健康人群中,寄生虫的感染通常是无症状的或症状极其轻微的,但如果是怀孕期间感染,寄生虫就会通过胎盘,并造成胎儿的死亡。随着怀孕时间的增加,寄生虫穿透的可能性也会增加。因此,确定感染的时间就显得非常重要了。另一方面,怀孕不同时期的感染后果也是不同的,在怀孕早期,器官形成过程时的感染危害可能是致死的,而怀孕的后期,胎儿的感染经常会导致一些并发症的出现如视网膜色素异常等。如果在怀孕期间感染的妇女得到了充分的治疗,胎儿感染的可能和后果的严重性都会大大降低。因此,及时的诊断和准确判断感染时间对于弓形虫病的治疗是非常重要的。
但实际上,90%以上的怀孕妇女的初期感染都不能被及时发现。目前的诊断主要是依靠血清学手段和PCR方法,而用血清学的方法来检测抗体对于一些无免疫应答的和怀孕的病人显然是不够的,而潜伏性感染致病恰恰是经常发生在无免疫应答的人中。如在艾滋病患者中, T.gondil就是导致脑内病变并致死的主要原因。由这些都可看出,疾病的有效的诊断对于有效的治疗是非常关键的。同样,蛋白质组水平上的研究为这方面的进展提供了非常有力的方法。我们可以用不同感染情况的病人的血清和T.gondil的2DE图进行免疫印迹来寻找和感染相关的抗 原来作为诊断标记。这些不同的血清包括:急性感染弓形虫病的 怀孕妇女的血清,急性弓形虫病的非怀孕病人的血清,潜伏性感染弓形虫的尚未发病者的血清。结果显示,2DE图上的9个点可以和感染者血清中的任一类型的免疫球蛋白反应,且这种反应和感染的状态和发病与否无关,这9个点就可用来作为T.gondil 感染的标记。另外有7个点 和抗体的反 应则与抗体类型或发病情况有关,可用来区分不同疾病状 况如潜伏期和急性期等,它们同样可作为进一步判断感染状态的诊断标记使用。
小结
双向凝胶电泳就象一个分子显微镜,将复杂的蛋白混合物分离开来,而进一步的由疾病和对照的比较可以找到一些疾病相关蛋白。目前,蛋白质组的应用最多的领域就是通过疾病和对照的2DE条带的比较寻找单个的疾病相关蛋白,钙粒蛋白B在结肠癌中的表达上调和肝癌来源的醛糖还原酶样蛋白在鼠的肝癌发生过程中的重新表达就是两个典型的例子。这些蛋白和疾病的相互关系还可以通过免疫组化等方法进一步的鉴定。而另一方面,利用蛋白质组来进行整体水平上的研究也是不可缺少的。如对扩张性心肌病的研究就显示出了患病者和对照的 25种蛋白的显著差异,人的心肌的包括了3300个蛋白的双向凝胶电泳数据库也已经建立了。对于整体水平上的研究而言,规模越大,使用样品数目越多,对分子机制的研究可能就越深入,因而国际间的协作是非常重要的。蛋白质组学应用的另一领域是在致病微生物的诊断用蛋白的寻找方面,如在上面所提到的Borrelia burgdoferi引起的Lyme氏 疏螺旋体病和Toxoplasma gondil引起的弓形虫病等,由蛋白质组学得 来的诊断标记甚至还可用来区分不同的疾病时期,这些都为有效的 诊断检测的发展提供了基础。蛋白质组学的研究在蛋白质功能和人类疾病研究方面为我们开辟了一个新的领域,尽管它还处于刚刚起步的不成熟期,很多技术还有待完善和发展,但它的潜力是不可低估的,在将来,蛋白质组在人类疾病中的应用也必然会更加广泛和深入。
什么是蛋白质组学?在技术上有何特点?
蛋白质组学二楼解释过了。技术上面,核心的是质谱技术,大致就是将一个纯蛋白质用胰酶消化之后,得到多肽片断根据其在电场中的偏转和位移确定其分子量与所带电荷,再综合所有多肽片断的特性与数据库中已知蛋白质进行对比,能对上的,就能够确认蛋白质身份。如此再检测过某个样本中的所有蛋白质之后,能够得到这个样本蛋白质组的详细信息。当然在使用质谱分析之前还有将样本中不同蛋白质进行分离的关键步骤,我听过常用的是二维电泳。
蛋白质组学简介
目录 1 拼音 2 英文参考 3 概念 4 基因组和蛋白质组的关系 1 拼音
dàn bái zhì zǔ xué
2 英文参考Proteomics
3 概念蛋白质组学是阐明生物体各种生物基因组在细胞中表达的全部蛋白质的表达模式及功能模式的学科;包括鉴定蛋白质的表达、存在方式(修饰形式)、结构、功能和相互作用等。
4 基因组和蛋白质组的关系90年代初期开始实施的人类基因组计划,在经过各国科学家近10年的努力下,已经取得了巨大的成就。不仅完成了十余种模式生物(从大肠杆菌、酿酒酵母到线虫)基因组全序列的测定工作,还有望在2003年提前完成人类所有基因的全序列测定。那么,知道了人类的全部遗传密码即基因组序列,就可以任意控制人的生老病死吗?其实并不是这么简单。基因组学(genomics)虽然在基因活性和疾病的相关性方面为人类提供了有力根据,但实际上大部分疾病并不是因为基因改变所造成。并且,基因的表达方式错综复杂,同样的一个基因在不同条件、不同时期可能会起到完全不同的作用。关于这些方面的问题,基因组学是无法回答的。所以,随着人类基因组计划的逐步完成,科学家们又进一步提出了后基因组计划,蛋白质组(proteome)研究是其中一个很重要的内容。
那么,基因组和蛋白质组到底有什么联系?我们可以这样理解生命,遗传信息从DNA(基因)转变为一种被称作mRNA的中间转载体,然后再合成各式各样的结构蛋白质和功能蛋白质,构成一种有机体,完成生命的功能。基因→ mRNA→蛋白质,三位一体,构成了遗传信息的流程图,这即是传统的中心法则。现在已经证明,一个基因并不只存在一个相应的蛋白质,可能会有几个,甚至几十个。什么情况下会有什么样的蛋白,这不仅决定于基因,还与机体所处的周围环境以及机体本身的生理状态有关。并且,基因也不能直接决定一个功能蛋白。实际上,往往是通过基因的转录、表达产生一个蛋白质前体,在此基础上再进行加工、修饰,才成为一个具生物活性的蛋白质。这样的蛋白质还通过一系列的运输过程,到组织细胞内适当的位置才能发挥正常的生理作用。基因不能完全决定这样的蛋白质后期加工、修饰以及转运定位的全过程。而且,这些过程中的任何一个步骤发生微细的差错即可导致机体的疾病。纽约Rockefeller大学的细胞和分子生物学家Günter Blobel博士就是因其“蛋白质内在的信号分子活性,调节自身的细胞内转运和定位”研究上的卓越成就,获得了1999年诺贝尔医学奖和生理学奖。近些年来人们又发现蛋白质间亦存在类似于mRNA分子内的剪切、拼接,具有自身特有的活动规律。这种自主性不能从其基因编码序列中预测,而只能通过对其最终的功能蛋白进行分析。因此说,基因虽是遗传信息的源头,而功能性蛋白是基因功能的执行体。基因组计划的实现固然为生物有机体全体基因序列的确定、为未来生命科学研究奠定了坚实的基础,但是它并不能提供认识各种生命活动直接的分子基础,其间必须研究生命活动的执行体蛋白质这一重要环节。蛋白质组学(proteomics)研究即旨在解决这一问题。
蛋白质组(proteome)一词,源于蛋白质(protein)与 基因组(genome)两个词的杂合,意指“一种基因组所表达的全套蛋白质”,即包括一种细胞乃至一种生物所表达的全部蛋白质。蛋白质组的研究不仅能为生命活动规律提供物质基础,也能为众多种疾病机理的阐明及攻克提供理论根据和解决途径。通过对正常个体及病理个体间的蛋白质组比较分析,我们可以找到某些“疾病特异性的蛋白质分子”,它们可成为新药物设计的分子靶点,或者也会为疾病的早期诊断提供分子标志。确实,那些世界范围内销路最好的药物本身是蛋白质或其作用靶点为某种蛋白质分子。因此,蛋白质组学研究不仅是探索生命奥秘的必须工作,也能为人类健康事业带来巨大的利益。
蛋白质组学主要包括哪些分析技术及各自特点
双向凝胶电泳
双向凝胶电泳的原理是第一向基于蛋白质的等电点不同用等电聚焦分离,第二向则按分子量的不同用SDS-PAGE分离,把复杂蛋白混合物中的蛋白质在二维平面上分开。由于双向电泳技术在蛋白质组与医学研究中所处的重要位置,它可用于蛋白质转录及转录后修饰研究,蛋白质组的比较和蛋白质间的相互作用,细胞分化凋亡研究,致病机制及耐药机制的研究,疗效监测,新药开发,癌症研究,蛋白纯度检查,小量蛋白纯化,新替代疫苗的研制等许多方面。近年来经过多方面改进已成为研究蛋白质组的最有使用价值的核心方法。
等电聚焦
等电聚焦(isoelectric focusing,IEF)是60年代中期问世的一种利用有pH梯度的介质分离等电点不同的蛋白质的电泳技术。等电聚焦凝胶电泳依据蛋白质分子的静电荷或等电点进行分离,等电聚焦中,蛋白质分子在含有载体两性电解质形成的一个连续而稳定的线性pH梯度中电泳。载体两性电解质是脂肪族多氨基多羧酸,在电场中形成正极为酸性,负极为碱性的连续的pH梯度。蛋白质分子在偏离其等电点的pH条件下带有电荷,因此可以在电场中移动;当蛋白质迁移至其等电点位置时,其静电荷数为零,在电场中不再移动,据此将蛋白质分离。
生物质谱
生物质谱技术是蛋白质组学研究中最重要的鉴定技术,其基本原理是样品分子离子化后,根据不同离子之间的荷质比(M/E)的差异来分离并确定分子量。对于经过双向电泳分离的目标蛋白质用胰蛋白酶酶解(水解Lys或Arg的-C端形成的肽键)成肽段,对这些肽段用质谱进行鉴定与分析。目前常用的质谱包括两种:基质辅助激光解吸电离-飞行时间质谱(MALDI-TOF-MS)和电喷雾质谱(ESI- MS)。
飞行时间质谱
MALDI 的电离方式是 Karas和Hillenkamp于1988年提出。MALDI的基本原理是将分析物分散在基质分子(尼古丁酸及其同系物)中并形成晶体,当用激光(337nm的氮激光)照射晶体时,基质分子吸收激光能量,样品解吸附,基质-样品之间发生电荷转移使样品分子电离。它从固相标本中产生离子,并在飞行管中测定其分子量,MALDI-TOF-MS一般用于肽质量指纹图谱,非常快速(每次分析只需3~5min),灵敏(达到fmol水平),可以精确测量肽段质量,但是如果在分析前不修饰肽段,MALDI-TOF-MS不能给出肽片段的序列。
电喷雾质谱(ESI-MS)
ESI- MS是利用高电场使质谱进样端的毛细管柱流出的液滴带电,在N2气流的作用下,液滴溶剂蒸发,表面积缩小,表面电荷密度不断增加,直至产生的库仑力与液滴表面张力达到雷利极限,液滴爆裂为带电的子液滴,这一过程不断重复使最终的液滴非常细小呈喷雾状,这时液滴表面的电场非常强大,使分析物离子化并以带单电荷或多电荷的离子形式进入质量分析器。ESI-MS从液相中产生离子,一般说来,肽段的混合物经过液相色谱分离后,经过偶联的与在线连接的离子阱质谱分析,给出肽片段的精确的氨基酸序列,但是 分析时间一般较长。 目前,许多实验室两种质谱方法连用,获得有意义的蛋白质的肽段序列,设计探针或引物来获得有意义的基因。随着蛋白质组研究的深入,又有多种新型质谱仪出现,主要是在上述质谱仪的基础上进行改进与重新组合。
1. 蛋白质组学研究方法概述(上)
说明:此篇笔记系2016-2017年由克里克学院与康昱盛主办的蛋白质组学网络大课堂整理而成,侵删。该课程由上海交通大学系统生物医学研究院助理研究员库鑫博士所授。
大伙儿都知道,蛋白质组学(proteomics),是研究一种细胞或者一种生物体所表达的全部蛋白质。虽说现在基因组测序火得一塌糊涂,但是,我们不要忽略了,蛋白质才是执行生命体功能的基本单元,而且蛋白质都是通过形成各种复合物,组成通路网络,去行使各种生物学功能的!所以,有很多生物学问题只能在蛋白质层面上去研究去探索,而且需要站在系统的层面去考察,比如说:蛋白-蛋白相互作用、蛋白的细胞定位、翻译后修饰、信号通路及代谢通路的调控和功能等。这就是为啥蛋白质组学如此重要啦!
既然重要,科学家们自然是想尽办法来研究了!最开始使用的技术就是传说中的双向凝胶电泳(2-DE),由于分辨率低、蛋白质重叠等各种问题,无论是通量还是准确度,都不尽如人意。当质谱技术兴起以后,就迅速被替代了。
说起质谱技术的诞生,估计很多小伙伴都听过那个著名的diao丝逆袭的段子,讲的就是2002年诺贝尔化学奖得主田中耕一,作为蛋白质谱发明人之一,由于一个不小心在实验时错加了甘油,结果神奇地将质谱技术引入到鉴定生物大分子的应用领域。想想,大到整个人类的科技发展史,小到每个个体的人生,都充满了多少不可思议~
当质谱技术与蛋白质组学碰到了一起,真是天雷引了地火,产生出强烈的化学反应,迅速引爆整个学科的发展!也就十几年的时间吧,蛋白质组学的研究目标从细胞模型、动物模型,到人的体液、组织等人体样本,应用范围的生物复杂度越来越高。研究目的呢,也从最初的肽段序列推导,到多肽和蛋白质的定性定量分析,翻译后修饰,再到如今成为新热点的靶向蛋白质组学,总之,势不可挡啊!
说到靶向蛋白质组学,咱们都知道,一直以来蛋白质组学的应用领域主要是针对基础生物学,比如研究通路、蛋白复合物、互作网络,表征细胞和组织的类型,观察细胞周期内蛋白质的表达等。近年来,由于技术的飞速发展,蛋白质组学开始被用于医学研究和药物研究。比如说药物研究,国内可能用得还不多,但在欧美已经开始越来越广泛。以肝毒性为例,蛋白质组学可以为药物研发前期的肝毒性评估提供研究手段。
那么,怎么将蛋白质组学应用到临床及药物研发中呢?就是需要靶向蛋白质组学技术了!以前,蛋白质组学技术主要用于发现新的未知物,比如肽段、蛋白复合物、蛋白的翻译后修饰等。这部分的应用很广,技术门槛比较低,方法比较通用。但问题是,这种方法思路没办法应对大量的临床样本,可重复性和准确性达不到要求。
于是,靶向分析开始兴起,就是说,分析之前我们就明确知道需要分析的物质是什么,然后把它挑出来,进行一个精确的定量和分析!我们不需要一次性验证成千上万的蛋白,但我们需要在成百上午的样本中验证十几种或者几十种我们关心的蛋白质,而且这些蛋白质常常都是浓度很低的蛋白,用传统的方法基本上只有被遗漏的命(后面我会详细讲为什么会遗漏)。有了靶向技术,对于研究临床诊断的生物标志物,就有了更大的可能和更强的支撑了!
那么接下来,根据老师讲课的思路,我就从定性检测、定量检测和靶向蛋白质组学三个方面来分享下听课的收获。
无论是定性还是定量检测,样品制备是跑不掉的准备工作。用于质谱的蛋白质样品,来源非常广泛,只要你是包含了蛋白质的东西,都可以作为来源。对于复杂的样品,比如人体体液或组织样本,蛋白质的提取及去高峰度,常常需要复杂的精细的处理,而且处理流程根据样本和研究目的的不同而不同。这部分内容呢,第二讲“样品前处理”会详扒,感兴趣的小伙伴可以期待我的下一篇听课笔记吧~
话说,蛋白质的定性检测有两种思路:Bottom-up和Top down。Top down是指从一个完整的蛋白出发,在质谱中进行碎片化处理,通过对碎片分子的检测,推导出蛋白的序列。而在使用中真正占绝大多数是Bottom-up方法,也就是我们常说的shotgun方法,它充分利用了蛋白质自身的特点:可以被特定的酶在特定的位点切断。基本思路是,先用蛋白酶把蛋白序列进行酶切,再针对酶切后的肽段进行鉴定,所以进入质谱的检测对象永远是肽段,再根据肽段序列再推导出蛋白序列。
1. 样本处理 :拿到蛋白来源的各种样本,进行前处理和优化。
2. 蛋白分离 :根据研究需要,用凝胶分离,提取所需的蛋白,或者不分离,全部拿来检测,需要注意去杂质;
3. 酶切 :用序列特异性的酶,对蛋白进行酶切;
4. 肽段分离 :酶切后的肽段进入HPLC(高压液相色谱),这也就是我们常说的LC-MS中的LC,肽段会因为在色谱柱填料上的保留时间的不同,得到预分离;
5. 电离 :分离后的肽段,加电压使其离子化(ESI);或者用MALDI基质辅助的激光解离,就不需要HPLC的过程;
6. 质谱解析 :将带上电荷的肽段送入质谱,肽段会在磁场中发生偏转(质谱仪的基本原理),在质谱里收集信号,得到谱图。
7. 搜库 :用搜索软件对质谱图进行自动化的分析,得到肽段及蛋白序列信息。
换个角度,对Shotgun方法的流程,我们可以这样来总结:
这里面最关键的一个指标,我们叫Peptide-Spectrum matching(PSM),就是指谱图与肽段的匹配。匹配得越好,则反推出的蛋白就越准确。这个匹配的过程,也就是我们常说的搜库。那么接下来我就来分享一下从课程中学习到的搜库背景知识、搜库工具和算法,以及对搜索结果的评估。
质谱,听上去很高大上,无论有多贵重,都是由三部分组成的:离子源+质量分析器+检测器。
一台质谱可以不止一个离子源\分析器\检测器,可以把几种串联起来,针对不同分析需要来使用。
离子源
我们先来说说离子源。蛋白质谱所使用的ESI(Electrospray ionization)电喷雾离子化,对蛋白质组学来说是一个标志性的发明!因为是直接从液相进行离子化,使它与LC(液相色谱)的联用变得更加容易了,我们可以先用LC将非常复杂的肽段混合物进行预分离,减少每次分析物的复杂度,然后分离的肽段可以直接进入ESI,形成电离喷雾。
那么,ESI喷雾是怎么形成的呢?简单来说,分离柱前端有一个小开口,被分析物根据质量及电荷的不同,依次通过前端的小开口。小开口处加了电压,刚开始,静电力与表面张力相同,当加大静电力使它大于表面张力的时候,液膜破裂,形成无数带电的小液滴,就形成喷雾了。像现在比较新的nanoESI技术,LC的流速就更加慢,离子化的效果也更好。觉得以上描述还不够形象的童鞋,直接看图吧:
质量分析器
说完了离子源,接下来我们来说质量分析器,这是质谱仪里最重要的一部分。我们通常听到的各种质谱仪的名字,就是根据质量分析器的类型来命名的。我们样品中各组分在离子源中发生电离,并经加速电场的作用后,形成离子束,进入质量分析器中。质量分析器将带电离子根据其质荷比加以分离,记录各种离子的质量数和丰度,用于后续定性与定量的分析。
质量分析器有两个主要的技术参数:质量范围和分辨率。质量范围是指是所能测定的质荷比的范围,它决定了咱们能检测到的离子的范围。比如,ESI离子源能产生许多m/z大于3000的离子,如果你选的质量分析器的上限达不到3000,那么3000以上的离子你就检测不出来了。
然而,另一个更为重要的指标,就是质量分析器的分辨率!先上个公式描述:
分辨率=观测的一个质谱峰的质荷比/半峰高处的峰宽(FWHM)
啥意思呢?比如下图中最左边的那个峰,它的质荷比是1,085.55,峰高一半的地方的峰宽值是0.217,于是:
分辨率=1,085.55/0.217=5,000
如果这么讲还是不太明白,那你可以简单理解为,质谱分辨率越高,我们将得到越尖越细的谱峰。你可能会问:谱峰又尖又细的好处是什么?这是个好问题!事实上,分辨率可以表征两个相邻的谱峰在质谱中被区分开的能力。大家通过下图感受一下不同分辨率的质谱仪能给我们多么不同的谱峰图。
图中以Glucagon(胰高血糖素)为例,展示了不同分辨率的质谱仪给出的谱峰。当分辨率是1000时,只能看一个很宽的峰(蓝色);分辨率增加到3000时,峰窄一些(红色),但还感受不到明显的差别;当提高到10000时,很明显能看到,其实这里包含了8个峰(绿色);再提高到30000的时候,半峰宽更窄,两个相邻的峰可以彻底地被分开(黑色)。显然,我们在分辨率为1000或3000,不能准确的检测被分析肽段的精确分子量, 从而导致谱图无法匹配或者发生错配。
不同的质量分析器有不同的分辨率,通常的顺序是:傅里叶变换质谱分辨率最高,但造价太贵;其次是Orbitrap(轨道阱系列),分辨率远远高于其它质谱;再次是TOF(时间飞行质谱);然后是离子阱(Ion Trap);最后是四级杆质谱(Quadrupole)。
这里我多说一句,分辨率高固然好,但价格肯定就贵,选择质谱仪的时候要根据咱们自己的研究目的以及预算范围啦!
二级质谱
然而,要对肽段进行鉴定,一级质谱显然是办不到的,我们没法根据肽段离子m/z的值就推断出这个肽段由哪些氨基酸残基组成(可能的组合非常多),以及序列顺序是怎么样的,对吧?所以,鉴定肽段还需要二级质谱。
什么是二级质谱呢?简单来说,肽段混合物通过一级质谱得到了一级谱图,然后从中选择一个肽段,通过一些方法,比如,与随性气体进行碰撞,把肽段碰碎,得到碎片离子,再形成二级谱图。我们通过观察碎片离子的质量分布来推断肽断的残基组成,最后再反推出蛋白质是什么。上个图,帮助大家理解一下二级质谱是怎么来的。
在上一段,我提到是从一级质谱中“选择”一个肽段进入二级质谱。这里看似讲得云淡风轻,事实上怎么选却是一个很关键的问题!通常选择的方法我们可以叫做“TOP”法(这是我自己起的名字),比如TOP15就是指从一级谱里选前15个高度的峰,每一次分离一个肽段,然后对这个肽段进行扫描,得到二级谱图。
大家发现了没有?如果一个肽段在一级谱图中没有进入TOP15,那它连打二级谱图的资格都没有!原来质谱的世界竞争也是如何残酷!二级质谱能扫描哪些肽段是由一级质谱决定的,所以我们将这种方法称为“数据依赖性采集(DDA, data dependent acquisition)!
明白了吧,DDA这个名字就是这么来的!下次大伙儿再听到有人说DDA,心里不会再一百个问号飞过了吧?
咱们细想一下就不难发现,如果一个蛋白的浓度不够高,也就是说,它的肽段在一级谱图中很难成为那些TOPs,那么它能进入二级质谱的可能性基本上没有。这就是为什么低峰度蛋白很难被鉴定到!这也就是为什么我们在做比如血液这种样品的时候,一定要去除血红蛋白等高峰度蛋白(如果你想鉴定的蛋白不是血红蛋白的话)!
很显然,DDA方法的局限性就摆在那里!这叫想要研究低峰度蛋白的科学家们怎么忍?于是,一种叫做数据非依赖性采集(DIA)的新方法就应运而生了!关于这种方法的原理,下一篇推文会详扒。
我们再通过以下这个图来感受一下一级谱图与二级谱图之间的关系:
比如,第一个时间点,我们先进行MS1扫描,然后选一个峰高的肽段进行MS2扫描,依次类推。在一些扫描速度比较快的质谱仪里,一个MS1谱图可以进行80张MS2的扫描。
鉴定碎片离子
好,我们搞清楚了二级质谱是怎么来的,那么我们怎么根据检测到的离子信息来推测这是什么氨基酸呢?可能你会说,这还不简单么?根据分子量呀!
没错,不同的氨基酸,它的分子量不就是一个简单的值吗?然而,这件事却并没有这么简单,因为这个世界上还存在一个神奇的东西,它的名字叫同位素!
比如说碳元素,最常见的是原子量12的这种,我们叫C12,然而它还有一个同样很稳定的好基友,C13(多一个中子)。于是,我们得考虑到这两种稳定同位素的含量(百度百科说C13占 1.11%,C12占98.89%),对于一个氨基酸而言,我们就会得到两个不同的分子量:
为啥说平均呢?因为当肽段分子量越大,含有各种同位素的可能性及不同组合就越多,我们如果把每一种组合都算一遍分子量,这样会得到一个长长的list,到时候做谱图匹配时用哪一个值呢?也没谱。所以干脆用一个平均值来表示。
我们通过下表来感受一下各种不同的氨基酸残基的单同位素分子量与平均分子量有多大的区别:
可能你又会问,这两个不同的分子量分别在什么情况下用呢?这里又要说到分辨率了,如果咱们用的是高分辨率质谱仪,不同的同位素峰会被明显地分开,也就是说,谱图里我们能看几个同位素峰,这时我们就可以使用单同位素分子量,可以与相应的单同位素峰准确对应。但在低分辨率质谱仪里,这些峰很可能混在一起,看上去只是一个峰,这种情况下,也没办法,只能用平均分子量去近似一下了。
下面这个图可以很形象地展示出,单同位素分子量与平均分子量在质谱图上差别有多大。在高分辨质谱看来,这完全就是两种不同的离子了。上面我们也说了,根据平均分子量来计算,结果并不准确,但用单同位素分子量来计算,就可以准确对应了。
除了同位素,还有一个因素我们也需要考虑,那就是肽段碎裂进入二级质谱时,可能会形成三种不同的离子类型,这就是我们通常所说的by离子,ax离子和cz离子。
之所以会形成不同的离子对,是因为不同的碎裂方法,造成肽段断裂的位置不同。大伙儿看看上面这个图就明白了。当我们使用CID(碰撞诱导解离)或HCD(High-energy C-trap Dissociation)碎裂时,与惰性气体碰撞的是C-N键这里,C端生成y离子,N端生成b离子,这是二级质谱产生的最常见的离子对了。当我们使用ETD(电子转移解离)碎裂时,因为有一个电子反应的过程,在加上电子后才产生的碎裂,它的断裂位置可能出现在N-C键这里,形成cz离子,而TOF类仪器可能会产生ax离子。
离子类型的信息需要传递给后续的搜库步骤(通常我们在搜库软件中指定了仪器类型,软件就会自动匹配离子类型),计算机需要模拟最可能的碎裂位置,生成对应的理论谱图,然后拿来与实际谱图比对。我们以by离子为例,来看看对一个肽段来说,它可能碎裂成哪些碎片离子:
那么它可能会生成如下这样的谱图:
从谱图上看,这个肽段所有的by离子都检测到了。通常来说,对于丰度不错,长短合适的肽段,在高精度质谱仪上被完整捕获到的情况是很常见的。通常情况下50%-80%的by离子都能被捕获到。
下篇继续讲定性检测里的搜库工具、结果评估,以及定量检测的各种背景知识。
简述蛋白组学的概念、研究技术和应用
概念
蛋白质组学(Proteomics)一词,源于蛋白质(protein)与 基因组学(genomics)两个词的组合,意指“一种基因组所表达的全套蛋白质”,即包括一种细胞乃至一种生物所表达的全部蛋白质。蛋白质组本质上指的是在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平,翻译后的修饰,蛋白与蛋白相互作用等,由此获得蛋白质水平上的关于疾病发生,细胞代谢等过程的整体而全面的认识
研究技术
二维电泳和质谱技术
应用
1.蛋白质鉴定:可以利用一维电泳和二维电泳并结合Western等技术,利用蛋白质芯片和抗体芯片及免疫共沉淀等技术对蛋白质进行鉴定研究。
2.翻译后修饰:很多mRNA表达产生的蛋白质要经历翻译后修饰如磷酸化,糖基化,酶原激活等。翻译后修饰是蛋白质调节功能的重要方式,因此对蛋白质翻译后修饰的研究对阐明蛋白质的功能具有重要作用。
3.蛋白质功能确定:如分析酶活性和确定酶底物,细胞因子的生物分析/配基-受体结合分析。可以利用基因敲除和反义技术分析基因表达产物-蛋白质的功能。另外对蛋白质表达出来后在细胞内的定位研究也在一定程度上有助于蛋白质功能的了解。Clontech的荧光蛋白表达系统就是研究蛋白质在细胞内定位的一个很好的工具。
4.对人类而言,蛋白质组学的研究最终要服务于人类的健康,主要指促进分子医学的发展。如寻找药物的靶分子。很多药物本身就是蛋白质,而很多药物的靶分子也是蛋白质。药物也可以干预蛋白质-蛋白质相互作用。
在基础医学和疾病机理研究中,了解人不同发育、生长期和不同生理、病理条件下及不同细胞类型的基因表达的特点具有特别重要的意义。这些研究可能找到直接与特定生理或病理状态相关的分子,进一步为设计作用于特定靶分子的药物奠定基础。