星期六, 12/30/2017

——读贺福初院士、李栋老师关于泛素化E3特异性调控关系研究的Nature Communications论文有感

欣闻贺院士、李栋老师在国际著名学术期刊Nature Communications上发表了关于泛素化E3特异性调控关系的论文《An integrated bioinformatics platform for investigating the human E3 ubiquitin ligase-substrate interaction network》,作为一名从事蛋白质翻译后修饰的生物信息学研究人员,看到这样一篇漂亮、经典的计算与实验结合的论文,立马就下载拜读了。我有幸自研究生起师从华中科技大学薛宇老师进入这个领域,在贺思敏老师的鼓励下,写一点感想以记之。

一、情深深雨蒙蒙,如欲相知先相逢

看到这篇论文的时候,我的第一反应是:熟悉的味道。在薛老师实验室学习过程中,接触到最多的词之一就是“kinase-substrate relation”,所以看到“bioinformatics platform”,“E3 ubiquitin ligase-substrate interaction”这些词,就如同闻到了小时候吃的辣条,味道太熟悉了!磷酸化也好,泛素化也罢,酶对底物的催化都至少需要两个条件:一是底物满足酶进行识别的特异性条件,二是酶和底物要能相遇。薛老师2004年以预测激酶特异性磷酸化位点的算法和工具GPS进入蛋白质翻译后修饰相关生物信息学领域,解决的是第一个条件。国际上更早一点点的有Michael Yaffe基于peptide library建立激酶识别底物motif(Nat Biotechnol. 2001,19(4):348-53)的Scansite(Nucleic Acids Res. 2003, 31(13): 3635–3641)。如果把激酶与底物位点关系的计算分析比作青年男女的相亲,Scansite的方法比较简单粗暴,搞清楚激酶对底物的要求:身高体重发型肤色,然后按照要求进行模式匹配即可。GPS则是基于“相似的激酶识别相似的底物位点”,其优势在于解决了相亲里的重要问题——“我也不知道我喜欢什么样的对象”。Peptide library建立激酶识别底物motif的方法虽然直截了当,但是它存在很多问题:难、贵、library设计上就会有偏。GPS通过对激酶家族进行细致分类(我喜欢的对象类型我的好朋友应该也会比较喜欢)、与之前已知的底物进行相似性比较(我以前喜欢的对象类型现在应该还是会比较喜欢)这两个思路,极大地扩充了可预测底物的激酶数量以及准确度。后来薛老师及合作者对GPS的优化、欧洲的NetPhosK、李婷婷老师与张学工老师开发的phoscan等,都是基于序列特异性识别。

时间很快到了2007年,Rune Linding等人在Tony Pawson、Michael Yaffe和Peer Bork三位大神的领导下发布了NetworKIN(Cell. 2007,129(7):1415-26),在序列特异性识别这一基础上,加上了“contextual factors”,其核心内容是:激酶和底物之间需要在一个“上下文”里(我个人觉得把“上下文”改为“微环境”来表述更为方便)。这主要是解决了第二个问题,激酶和底物位点要能相遇。通过分析激酶底物是否有共表达、是否在一个代谢通路里、是否有相互作用、甚至是否在同一篇论文的摘要里出现等信息来判断激酶底物是否相遇。薛老师也注意到了这个问题,于是有了“kiss farewell” model与iGPS(Genomics. 2008, 92(6):457-63; Mol Cell Proteomics. 2012, 11(10):1070-83)。写了这么多,这个读后感似乎与这篇论文无关,其实不然。在这篇文章刚接受的时候,薛老师的第一反应是这个工作做得真聪明。因为这篇文章的计算部分,就是解决泛素化的第二个问题。相比于磷酸化而言,泛素化酶特异性底物位点的研究积累很少,而泛素化相关的酶比磷酸化更多更复杂、adapter等特别多,造成从序列特异性角度预测泛素化非常难(“我完全不知道我喜欢什么样的对象”)。薛宇老师在这方面的工作正在开展,很艰难但是一直在坚持。通过整合模式生物同源数据、网络拓扑结构、相互作用domain、共同参与生物学功能、识别序列特异性等信息(“是否有共同的好友,是否学同一个专业,是否参加同一类社团等是否有交集的信息“),这篇论文中开发的Ubibrowser软件推断了E3与底物之间相遇的可能性,进而推断泛素化调控的可能性。这是一个非常聪明的角度,因为就现在的研究现状而言,泛素化从序列特异性角度预测难做,而且随着质谱技术的广泛运用,先验证泛素化调控关系再找具体的泛素化位点似乎要方便些。所以,对于泛素化而言,“情深深雨蒙蒙,如欲相知先相逢”,先预测E3-底物调控关系,是一个非常漂亮的思路。

二、实验是检验计算的最终标准

不管是出于主动的还是被动的原因,我所认识的国内生物信息学前辈老师们都或多或少的在开展实验研究,蛋白质组以及蛋白质生物信息学领域估计也是如此。确实,实验验证是检验计算预测与分析的最终标准。可能因为生物信息学相对实验生物学而言还是较小的领域,也可能因为生物学研究还处于大航海大发现时代,评委、编辑、审稿人等总是觉得,这个实验你得去做出来。这让生物信息学的老师们非常羡慕做理论物理的学者,你看,他们就不用自己做实验……做实验不容易,做与计算分析结合的实验就更不容易,纯做计算的学者做实验就更更更不容易了。有幸亲身经历过恩师薛老师第一篇自己实验室做实验的文章(Brief Bioinform. 2013, 14(3):344-60),虽然实验不是我做的,但是其中的辛苦我历历在目。这篇文章的实验部分所花的时间精力、所带来的心跳刺激可以从李栋老师关于这篇论文的叙述中略窥一二,我就不赘述了。在此,向李杨博士、谢萍老师等学者的付出致敬!实验难归难,但是在当前形势下,似乎也是不得不做,因为实验是检验计算的最终标准。希望蛋白质组及生物信息学领域的各位老师自己的实验研究能顺利开展,与实验学者的合作能顺利开展!

三、源浚者流长,根深者叶茂

蛋白质翻译后修饰的生物信息学这一领域内,研究第一个问题(“底物位点的序列结构特征”)的前辈老师很多,方法也很多。机器学习、贝叶斯方法乃至深度学习,都有很多人在做。但是研究第二个问题(“底物与酶要相遇”)的老师极少。有多方面的原因,我觉得一个原因是第一个问题里阳性阴性数据集的构建、算法的设计等方面比较直观一些,计算领域的学者可能更容易切入,而第二个问题则相对更生物学一些。贺院士和李栋老师从第二个问题入手研究泛素化,确实不是偶然。很荣幸,我刚开始读研究生的时候恩师薛老师就经常领我参加各种学术会议。在2010年的国际生物信息学讨论会(IBW) (IBW 2010)上,李栋老师讲了他在蛋白质相互作用方面的生物信息学研究工作(Mol Cell Proteomics. 2008, 7(6):1043-52; Mol Cell Proteomics. 2009, 8(9):2063-70)。李栋老师讲的具体内容我完全不记得了,但是他为算法工具取的名字PRINCESS我却一直记得很清楚,因为这个名字取得太优美了!薛老师也很注意软件工具的取名问题,在他的指导下,我取过CPLA(蛋白质乙酰化数据库,“中国人民解放军”),CPLM(蛋白质赖氨酸修饰数据库,还是“中国人民解放军”),THANATOS(细胞死亡相关数据库,“古希腊神话中的死神塔纳托斯”)。2008、2009年连续两篇Mol Cell Proteomics论文的分量想必蛋白质组相关领域的老师都很清楚。可能是因为蛋白质相互作用这一领域最近降温降得比较厉害,贺院士与李老师后来没有在这方面做很多纯计算的工作,但是有重要的大数据分析工作(Mol Syst Biol. 2011,7:536)。所以在看到这篇论文的时候,我一点都不意外,因为预测E3是否能与底物蛋白质相遇这一蛋白质相互作用问题正是他们的专长,十年前在这个问题上就已然是专家。源浚者流长,根深者叶茂,这篇文章开的这朵花,多年前就已经埋下根了。

结语

这篇论文的发表,从文章内容到网站工具的可视化设计,都有非常多的值得我学习和参考的地方,相信贺院士与李老师团队也会在这个工作的基础上进行进一步的研究和开发。蛋白质组的时代正在悄然到来,通量在逐步增加、费用在逐步降低、商业化服务的公司在迅速推进。现在的Ubibrowser可能更适合实验学家针对某一个E3或者底物的预测和分析。如果Ubibrowser能够针对蛋白质组用户进行进一步优化,比如用户提交一个定量泛素化组数据或者差异泛素化蛋白质列表,Ubibrowser推断这个差异泛素化很有可能是哪些E3的异常造成的,那么Ubibrowser将会成为蛋白质组时代泛素化研究的利器!欣闻NC文章第一作者李杨博士留在了李栋老师团队,祝愿李老师团队再取硕果!贺院率李栋东方,泛素化“里”“自然”扬!

作者:刘泽先,中山大学肿瘤防治中心副研究员。