Dogecoin - An open-source peer-to-peer digital currency (访问: hash.cyou 领取999USDT)
1、蛋白质组学蛋白质是生物体的重要组成局部,参与几乎所有生理和细胞代谢过程。此外,与基因组学和转录组学比拟,对一个 细胞或组织中表达的所有蛋白质,及其修饰和相互作用的大规模研究称为蛋白质组学。蛋白质组学通常被认为是在基因组学和转录组学之后,生物系统研究的下一步。然而,蛋白质组的研究远比基因组 学复杂,这是由于蛋白质内在的复杂特点,如蛋白质各种各样的翻译后修饰所决定的。并且,研究基因组学的技术 要比研究蛋白质组学的技术强得多,虽然在蛋白质组学研究中,质谱技术的研究已取得了一些进展。尽管存在方法上的挑战,蛋白质组学正在迅速开展,并且对癌症的临床诊断和疾病治疗做出了重要奉献。几项研究 鉴定出了一些蛋白质
2、在乳腺癌、卵巢癌、前列腺癌和食道癌中表达变化。例如,通过蛋白质组学技术,人们可以在 患者血液中明确鉴定出肿瘤标志物。表1列出了更多的蛋白质组学技术用于研究癌症的例子。另外,高尔基体功能复杂。最新研究说明,它除了参与蛋白加工外,还能参与细胞分化及细胞间信号传导的过程,并在凋亡中扮演重要角色,其功能障碍也许和肿瘤的发生、开展有某种联系。根据人类基因组研究,约1000多种人类高尔基体蛋白质中仅有500600种得到了鉴定,建立一条关于高尔基体蛋白质组成的技术路线将有助于其功能的深入研究。 蛋白质组学是一种有效的研究方法,特别是随着亚细胞器蛋白质组学技术的迅猛开展,使高尔基体的全面研究变为可能。因此研究
3、人员希望能以胃癌细胞中的高尔基体为研究对象,通过亚细胞器蛋白质组学方法,建立胃癌细胞中 高尔基体的蛋白质组方法学。研究人员采用蔗糖密度梯度的超速离心方法别离纯化高尔基体,双向凝胶电泳(2-DE)别离高尔基体蛋白质,用ImageMaster 2D软件分析所得图谱,基质辅助激光解吸离子化飞行时间质谱(MALDI-TOF MS)鉴定蛋白质点等 一系列亚细胞器蛋白质组学方法建立了胃癌细胞内高尔基体的蛋白图谱。最后,人们根据别离出的纯度较高的高尔基体建立了分辨率和重复性均较好的双向电泳图谱,运用质谱技术鉴定出12个蛋白质,包括蛋白合成相关蛋白、膜融合蛋白、调节蛋白、凋亡相关蛋白、运输蛋白和细胞增殖分化相
5、分析,因为这种方法适合于微阵列分析的全部基因。在表3中,前三项列举了三种同源搜索方法。FASTA方法虽然应用还不太广泛,但它要优于BLAST ,或者至少相当。FASTA程序是第一个使用的数据库相似性搜索程序。为了到达较高的敏感程度,程序引用取代矩阵实行局部 比对以获得最正确搜索。美国弗吉尼亚大学可以提供这项程序的地方版本,当然数据库搜索结果依赖于要搜索的数据 库序列。如果最近的序列数据库版本在弗吉尼亚大学不能获得,那么就最好试一下京都大学(Kyoto University )的KEGG站点。PSI-BLAST(位点特异性反复BLAST )是BLAST的转化版本,PSI-BLAST的特色是每次用
6、profile搜索数据库后再利用搜索的结果重新构建profile ,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库,将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,有研究说明这种方法可以有效地找到很 多序列差异较大而结构功能相似的相关蛋白,所以它比BLAST和FASTA有更好的敏感性。PSI-BLAST效劳可以在NCBI的BLAST主页上找到,还可以从NCBI的FTP效劳器上下载PSI-BLAST的独立程序。在检查PSI-BLAST的搜
11、一些重要的生物学位点,包括功能位点和容易被修饰的位点。ELM是真核生物功能位点数据库。PROSITE数据库是基于多序列比拟而得到的单一保守序列片段,或称序列模体。PROSITE数据库是基于对蛋白质家族中同源序列多重序列比对得到的保守性区域,这些区域通常与生物学功能有关,例如酶的活性位点、配体或金 属结合位点等。因此,PROSITE数据库实际上是蛋白质序列功能位点数据库。通过对PROSITE数据库的搜索, 可判断该序列包含什么样的功能位点,从而推测其可能属于哪一个蛋白质家族。Prosite数据库实际上包括两个数据库文件:一个为数据文件,即Prosite,该文件给出了能进行匹配的序列及序列的详细信
12、息;另一个为说明文件,即PrositeDoc。PrositeDoc说明文件中给出该序列模式的生物学功能及其文献资料来源。PROSITE数据库使用正那么表达式来表示序列模式。STRING是一个和预测基因间功能联系的数据库。STRING一个有趣的特点是,一个查询序列的功能是利用比较基因组学方法预测的。例如,假设一个要查询的基因是几个基因组中功能的基因,这几个基因组进化上相关,那么预示着要查询的基因与相邻基因可能涉及相同的途径或功能。具有相同的系统发生的那些基因,或同时存在和同时消失的那些基因也预示着他们的功能是相互联系的。SMART也利用微阵列中的共表达来分析,用户可以利用SMART站点进行功能预
13、测,基因功能之间的联系资料也可以免费获得。PSORT工具可以预测基因的亚细胞定位。从根本上说,PSORT工具基于其氨基酸序列预测蛋白质亚细胞定位。它利用机器将要查询蛋白质的特殊序列如信号肽序列检测和分类并定位到位置。PSORT II是广泛使用的蛋白质亚细胞定位分析软件,通过输入的氨基酸序列,能够预测出其在亚细胞结构中可能的位置。PFP蛋白质功能预测效劳器是最近研发的。不同于传统的PSI-BLAST , PFP利用序列采样数可以开掘更多的功能信息。在列出的蛋白质功能预测工具中,BLAST、FASTA和Pfam最可靠,但它们无法提供关于已经储存在公共数据库中的已注解基因的更多的信息。其它方法都优于
18、重要。当今二级结构预测算法的准确率大约75%,足以到达平常预测的要求。表4中列举了5种二级结构预测工具,它们都利用机器学习的技术来识别大家熟悉的二级结构,如a-螺旋和3-折叠。机器学习就是要使计算机能模拟人的学习行为自动通过学习获取知识和技能,不断改善性能,实现自我完善。机器学习研究的就是如何通过识别和利用现有知识来获取新知识和新技能。PSI-PRED、PORTER、SABLE和PredictProtein seartificial利用人工神经网络Artificial Neural Networks,简写为ANNs,而SAM-T02那么利用HMM。SABLE和PORTER被 认为是这个领域中最
19、准确的预测工具,它们的准确率分别可以到达78.4%和79%。尽管列表中的工具在蛋白质预测方面准确率还相对较低,但这些工具不仅能够预测二级结构,也能够预测其它结构信息,包括混乱区域、两个或两个以上的a螺旋组成的超螺旋结构区域、每个残基的可溶解程度以及要搜索序列的模体结构,所以他们可以用来-步完成蛋白质序列分析。COILS通过序列中周期出现的疏水残基来预测蛋白质的卷曲螺旋。卷曲螺旋是存在于多 种天然蛋白质中的结构模式。近年来,人们通过对天然蛋白质中的卷曲螺旋结构以及根据已有知识设计合成的卷曲 螺旋结构的研究,已根本掌握了这类结构模式的特点,并将特异的卷曲螺旋结构应用于生化分析、工业和医药卫生等领域
20、。GlobPlot和PONDR是预测蛋白质固有无规那么区域的工具,这些区域的天然构象中,没有稳定的蛋白质二级结构。这些无规那么区域的重要性最近才刚刚被人们发现,因为它们是很多重要的功能性位点,例如其它蛋白质和 配体的结合区域位于球状蛋白质的结构域的外部,所以本质上是没有规那么的3。HMMTOP是预测蛋白序列的跨膜螺旋与拓扑结构工具,TMHMM是预测蛋白的跨膜螺旋工具。它们都利用了HMM。跨膜结构域预测是生物信息学在蛋白质结构预测中应用得最成功,HMMTOP预测的跨膜蛋白质98%的结构域和85%的拓扑结构是正确的。且上述这两种工具是基于网络的,HMMTOP也提供本地拷贝3。表5的后面列举了5种预
21、测三级结构的工具。预测蛋白质三级结构的方法在最近几十年中有了较大的改良,并且有些方法的准确率已经足以应用于实践3。结构预测方法大致分为三类:(1)同源性建模(homology modeling)方法:这类方法的理论依据是,如果两个蛋白质的序列比拟相似,那么其结构也有很大可能比拟相似。有实验说明,如果序列相似性高于75%,那么可以使用这种方法进行粗略的预测。这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况;(2)从头计算(Ab initio或de novo )方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。生物学 家和物理学家等认为从原理上讲这是影响蛋白质
22、结构的本质因素。然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。旧M开发的Blue Gene超级计算机就是要解决这个问题;穿线法(Threading或fold recognition):由于Ab Initio方法目前只有理论上的意义,Homology方法受限于待求蛋白质必需和模板库中某个蛋白质有较高的序列相似性, 因此对于其它大局部蛋白质来说, 有必要寻求新 的方法, 于是Threading应运而生。以上三种方法中,Ab Initio方法不依赖于结构,其余两种那么需要结构的协助。通常将蛋白质序列和其真实 三级结构组织成模板库,待预测三级结构的蛋白质序列,那么称之为查询
23、序列(query sequence)。SWISS-MODEL和HHPred是基于网络的同源建模工具,HHPred软件也可以下载。MODELLER是这一类型软件中应用最早和最广泛的软件。MODELLER和SWISS-MODEL有同源建模数据库。接下来三个工具FUGUE、Phyre和SPARKS属于穿线法。穿线法可在数据库中搜寻和待测蛋白结构非常匹配的模板蛋白质。与同源建模法不同,穿线法中模板蛋白质和待测蛋白质明显的序列相似性并不是必要条件。穿线法可以检测一个数据库中亲缘关系很远的蛋白质,Z-score作为一个统计学值,可以显示模板蛋白质和待测蛋白之间的匹配程度,当Z-score较低时,就意味着没
24、有匹配搜索的结构3。最后,Robetta工具属于从头计算法。它利用从数据库收集的序列片段来组装模型,是一个自动化的蛋白质结构预 测效劳工具。它由贝克实验室提供,用于非商业性质的从头计算和比拟建模3。3.3蛋白质-蛋白质相互作用数据库表5列出了蛋白质之间相互作用(protein-protein interactions, PPI)的数据库。在过去的几年中,有大规模实验开 始研究蛋白质之间的相互作用,并且很多相关资源可以在互联网上得到。了解一个基因编码蛋白质与其它蛋白质之间的关系,对于推测这个基因发挥功能所需的背景关系具有重要意义。BIND (biomolecular interaction ne
27、库详细记录了蛋白质相互作用的类型、实验证据及其结合位点。同时,它 还提供蛋白质名称、实验方法和物种等多种查询方式3。HPRD (human protein reference database)数据库是包含蛋白质注释、PPI、转录后修饰和亚细胞定位等多种信息的综合数据库3。IntAct也是一个存储和分析生物分子间相互作用的公共数据库。它主要记录二元相互作用及其实验方法、实验条件 和相互作用结构域,包括人、酵母、果蝇和大肠杆菌等物种。IntAct数据库分为根本查询和高级查询:根本查询可以根据蛋白质名称、PubMedID等进行简单搜索;高级查询根据实验方法和IntAct自定义的控制词汇进行查询。G
28、RID存储了酵母、果蝇和线虫的遗传和生理作用。Osprey蛋白质相互作用网络可视化系统是加拿大多伦多大学一个生物信息学研究组开发的,其目的在于更好地研究蛋白质相互作用网络和蛋白质复合物3。表5蛋白质-蛋白质相互作用数据库和数据库工具工具类型所在地网址BIND蛋白质-蛋白质相互作用途径加拿大多伦多西乃山医院:/bind.ca/DIP蛋白质-蛋白质相互作用加州大学洛杉矶分校://MIPS哺乳动物的蛋白质-蛋白质相互作用慕尼黑蛋白质序列信息中心:/mips.gsf.de/proj/ppi/HPRD人类蛋白质参考资源美国约翰霍普金斯大学://GRID酵母、果蝇和线虫的遗传和生理作用加拿大多伦多西乃山医院:/biodata.mshri.on.ca/grid/IntAct蛋白质相互作用数据库的 db 系统和工具的开发资源欧洲生物信息学中心:/ebi.ac.uk/intact/Ospray蛋白质相互作用的可视化工具加拿大多伦多西乃山医院:/biodata.mshri.on.ca/osprey/