13636351217
聯(lián)系人:錢經(jīng)理
電 話:13636351217
手 機(jī):13636351217,13636351073
地 址:上海市松江臨港科技城漢橋文化科技園B座
郵 編:201615
傳 真:021-64881400
郵 箱:2881726255@qq.com
阿儀網(wǎng)商鋪:http://www.app17.com/c60514/
手機(jī)網(wǎng)站:m.shhyswkj.com
閱讀次數(shù):4205 發(fā)布時間:2012/9/26 10:08:41
Andreas D. Baxevanis
Genome Technology Branch
National Human Genome Research Institute
National Institutes of Health
Bethesda. Mryland
David Landsman
National Center fro Biotechnology Informaiton
Computational Biology Branch
National Library of Medicine
National Institute of Health
Bethsda. Maryland
本書對數(shù)據(jù)庫的討論及前幾章中提供的信息都說明,當(dāng)前各種公共數(shù)據(jù)庫中的序列信息的數(shù)量正急劇增加。與我們已知的核酸序列一樣,所有蛋白質(zhì)序列,無論是直接測得還是由核酸序列中的開放閱讀框轉(zhuǎn)換而來,都包含有決定其結(jié)構(gòu)功能的內(nèi)在信息。可惜用實(shí)驗(yàn)方法獲取這些信息的速度遠(yuǎn)遠(yuǎn)趕不上單純序列數(shù)據(jù)產(chǎn)生的速度。象圓二色譜、旋光色散、X光晶體衍射和核磁共振都是確定結(jié)構(gòu)特征的強(qiáng)有力技術(shù),但它們的實(shí)現(xiàn)需要大量時間,并對技術(shù)和技巧都有很高要求。對比蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)庫的容量可知兩類信息之間差距已十分明顯,到寫這本書時,有428,814個條目在冗余的蛋白質(zhì)序列庫(nr),而PDB庫中僅有5017個條目1。為縮小這一差距所做的嘗試都圍繞于“預(yù)測的方法”。這些序列條目能在缺少生物化學(xué)數(shù)據(jù)的情況下提供關(guān)于蛋白質(zhì)性質(zhì)的見解。 本章的焦點(diǎn)是從序列本身中獲取生物學(xué)發(fā)現(xiàn)的計(jì)算技術(shù),與前幾章中的技術(shù)不同之處于這些方法大多并不依賴于雙序列或多序列的比對。核酸序列所包含的四種核苷酸在化學(xué)上性質(zhì)相似(但不相同),與之不同的是,構(gòu)成蛋白質(zhì)的20種氨基酸殘基由于化學(xué)構(gòu)造上差別很大,因而在結(jié)構(gòu)和功能上存在更大多樣性。任一殘基對蛋白質(zhì)的整體物理性質(zhì)都會產(chǎn)生影響,因?yàn)檫@些殘基本身就是酸性或者堿性的。因而在蛋白質(zhì)結(jié)構(gòu)域中每種殘基對構(gòu)成不同類型結(jié)構(gòu)都存在偏向。當(dāng)然,這些屬性就是生物化學(xué)的核心原理“序列決定構(gòu)象”的基礎(chǔ)(Anfinsen等,1961)。 在談及這種或那種預(yù)測技術(shù)之前要預(yù)先說明的是,無論用哪種方法,這些結(jié)果都是預(yù)測。不同的方法,采用了不同的算法,可能產(chǎn)生相同或不同的結(jié)果。但有一點(diǎn)很重要:弄清楚某種方法的原理,而不是僅把算法當(dāng)作一個“黑箱”。因?yàn)橐环N方法可能對特定實(shí)例很合適,而對另一個則完全不對。雖然如此,存在一種強(qiáng)大合作的潛力:正確應(yīng)用這些預(yù)測技術(shù),參照以主要的生化數(shù)據(jù),就能提供有關(guān)蛋白質(zhì)結(jié)構(gòu)與功能的有價值信息。
基于組成的蛋白質(zhì)辨識 人們早已熟知了20種氨基酸中每一個的物理和化學(xué)性質(zhì),并以此開發(fā)了許多有用的計(jì)算工具用于確認(rèn)未知蛋白(或反過來分析已知蛋白)。其中的大部分可通過在Geneva大學(xué)醫(yī)院和Geneva大學(xué)的ExPASy服務(wù)(Appel等,1994)來獲得。ExPASy工具的應(yīng)用有兩個焦點(diǎn):既分析和確認(rèn)由二維凝膠電泳分離得到的未知蛋白,也預(yù)測已知蛋白的基本性質(zhì)。這些工具利用了SWISS-PROT數(shù)據(jù)庫中的有效注解來進(jìn)行預(yù)測。既然這類計(jì)算對電泳分析有用,它們也能在其它實(shí)驗(yàn)領(lǐng)域中有所幫助,尤其是對色譜和沉降分析。在這里及以下內(nèi)容中,包含在ExPASy中的工具都會標(biāo)明,但由此而來的討論也包括了許多由其他小組開發(fā)提供的有用程序。本章末列出了與本章中所提及的工具有關(guān)的因特網(wǎng)資源。 AACompIdent與AACompSim(ExPASy) 與把氨基酸序列在SWISS-PROT庫中搜索不同,AACompIdent工具利用未知蛋白的氨基酸組成去確認(rèn)具有相同組成的已知蛋白(Wilkins等,1996)。對于輸入部分,該程序需要蛋白質(zhì)的氨基酸組成,等電點(diǎn)pI和分子量(如果知道),正確的物種分類及特別的關(guān)鍵詞。此外,用戶還需在六種氨基酸“組合”中作出選擇,這影響到分析如何進(jìn)行。例如,某種“組合”會把殘基Asp/Asn(D/N)和Gln/Glu(Q/E)組合成Asx(B)和Glx(Z);或者某種殘基會在分析中被完全除去。 對數(shù)據(jù)庫中的每一個蛋白序列,算法會對其氨基酸組成與所查詢的氨基酸組成的差異打分。由電子郵件返回的結(jié)果被組織成三級列表:張列表中的蛋白都基于特定的物種分類而不考慮pI和分子量;第二張列表包含了不考慮物種分類、pI和分子量的全體蛋白;第三張列表中的蛋白不但基于特定物種分類,并且將pI和分子量也考慮在內(nèi)。雖然計(jì)算所得結(jié)果各不相同,但零分表明了該序列與提出的組成完全相符。 AACompIdent的一個變種,AACompSim提供類似的分析,但與前者以實(shí)驗(yàn)所得的氨基酸組成為依據(jù)進(jìn)行搜索不同,后者使用SWISS-PROT中的序列為依據(jù)(Wilkins等,1996)。利用Compute pI/MW(見下)所得的不同數(shù)值可以計(jì)算出理論等電點(diǎn)和分子量。有報道稱,氨基酸組成在物種之間是十分保守的(Cordwell等,1995),并且通過分析氨基酸的組成,研究者能從低于25%序列相似性的蛋白之間發(fā)現(xiàn)弱相似性(Hobohm和Sander,1995)。因此,在“傳統(tǒng)的”數(shù)據(jù)庫搜索基礎(chǔ)上輔以組成分析,能為蛋白質(zhì)之間關(guān)系提供更多見解。 PROPSEARCH PROPSEARCH與AACompSim一樣,也利用蛋白的氨基酸組成來檢測蛋白質(zhì)之間的微弱聯(lián)系。據(jù)該軟件開發(fā)者稱這一技術(shù)能輕易發(fā)現(xiàn)同一蛋白質(zhì)家族的成員(Hobohm和Sander,1995)。但這一技術(shù)比AACompSim更加強(qiáng)壯:它使用了144種不同的物化屬性來進(jìn)行分析,其中包括分子量、巨大殘基的含量、平均疏水性和平均電荷等。這些屬性的集合被稱作“查詢向量”,并將其與數(shù)據(jù)庫(SWISS-PROT和PIR)中的每個序列預(yù)先計(jì)算好的向量進(jìn)行比較。擁有這樣一個預(yù)先計(jì)算好的“向量數(shù)據(jù)庫”大大節(jié)約了每次查詢所需的時間。 PROPSEARCH的Web服務(wù)所需的輸入是查詢序列本身,其輸出的一個實(shí)例為圖11.1。這里作為查詢序列的是人自身抗原NOR-90的序列。結(jié)果由距離分值分成幾段,該分值代表了查詢序列與由PROPSEARCH找到的新序列之間的相似性程度,從而屬于同一家族,因此通常表明具有相似的功能。10分或更低表明兩種蛋白相似的可能性大于87%。低于8.7分將相似性可信度提高到94%,而低于7.5分則達(dá)到99.6%。分析圖11.1的結(jié)果可見,NOR-90與一些核轉(zhuǎn)錄因子、蛋白激酶、一個retinoblastoma結(jié)合蛋白、肌動蛋白結(jié)合蛋白radixin和推測是一種GTP酶靶蛋白的RalBP1等蛋白相似。既然這些蛋白的功能各自不同,它們并不都是想要的結(jié)果;然而,其中許多是DNA的結(jié)合蛋白,這就暗示一種可能是在不同功能區(qū)中都采用了的十分相似的結(jié)構(gòu)域。至少進(jìn)行一次BLASTP搜索對確認(rèn)結(jié)果和識別關(guān)鍵性殘基是十分必要的。 Fragment search: OFF (POS1 and POS2 are begin and end of sequence)
Rank | ID | DIST | LEN2 | POS1 | POS2 | pI | DE |
1 | >p1;s18193 | 0.00 | 727 | 1 | 727 | 5.33 | autoantigen NOR-90 – human |
2 | ubf1_human | 1.36 | 764 | 1 | 764 | 5.62 | NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF-1) |
3 | ubf1_mouse | 1.40 | 765 | 1 | 765 | 5.55 | NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF-1). |
4 | ubf1_rat | 1.57 | 764 | 1 | 764 | 5.61 | NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF-1). |
5 | ubf1_xenla | 3.95 | 677 | 1 | 677 | 5.79 | NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF-1). |
6 | ubf2_xenla | 4.18 | 701 | 1 | 701 | 6.05 | NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPSTREAM BINDING FACTOR 2) (UBF-2). |
7 | >p1;s57552 | 7.72 | 606 | 1 | 606 | 6.63 | hypothetical protein YPR018w – yeast (Saccharomyces cerevisiae) |
8 | >p1;i50463 | 8.49 | 772 | 1 | 772 | 5.71 | protein kinase – chicken |
9 | >p1;h54024 | 8.83 | 768 | 1 | 768 | 5.27 | protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2-3 – human |
10 | >p1;b54024 | 8.87 | 777 | 1 | 777 | 5.27 | protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2-3 – human |
11 | >p1;g54024 | 8.90 | 766 | 1 | 766 | 5.21 | protein kinase (EC 2.7.1.37) cdc2-related PITSLRE beta 2-2 – human |
12 | >p1;a55817 | 9.00 | 783 | 1 | 783 | 5.19 | cyclin-dependent kinase 130-PITSLRE – mouse |
13 | >p1;f54024 | 9.11 | 777 | 1 | 777 | 5.30 | protein kinase (EC 2.7.1.37) cdc2-related PITSLRE beta 2-1 – human |
14 | >p1;e54024 | 9.11 | 779 | 1 | 779 | 5.42 | protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2-1 – human |
15 | yaa5_schpo | 9.45 | 598 | 1 | 598 | 4.78 | HYPOTHETICAL 69.5 KD PROTEIN C22G7.05 IN CHROMOSOME I. |
16 | >p1;s62449 | 9.45 | 598 | 1 | 598 | 4.78 | hypothetical protein SPAC22G7.05 – fission yeast (Schizosaccharomyces pombe) |
17 | >f1;i58390 | 9.45 | 920 | 1 | 920 | 5.00 | retinoblastoma binding protein 1 isoform I – human (fragment) |
18 | >p1;s63193 | 9.58 | 590 | 1 | 590 | 6.15 | hypothetical protein YNL227c – yeast (Saccharomyces cerevisiae) |
19 | ynw7_yeast | 9.58 | 590 | 1 | 590 | 6.15 | HYPOTHETICAL 68.8 KD PROTEIN IN URE2-SSU72 INTERGENIC REGION. |
20 | >p1;s49634 | 9.74 | 899 | 1 | 899 | 4.79 | hypothetical protein YML093w – yeast (Saccharomyces cerevisiae) |
21 | ymj3_yeast | 9.74 | 899 | 1 | 899 | 4.79 | HYPOTHETICAL 103.0 KD PROTEIN IN RAD10-PRS4 INTERGENIC REGION. |
22 | radi_human | 9.76 | 583 | 1 | 583 | 6.33 | RADIXIN. |
23 | radi_pig | 9.81 | 583 | 1 | 583 | 6.21 | RADIXIN (MOESIN B). |
24 | >f1;i78883 | 9.83 | 866 | 1 | 866 | 4.77 | retinoblastoma binding protein 1 isoform II – human (fragment) |
25 | >p1;b42997 | 9.87 | 754 | 1 | 754 | 5.17 | retinoblastoma-associated protein 2 – human |
26 | >p1;a57467 | 9.91 | 647 | 1 | 647 | 5.74 | Ra1BP1 – rat |
圖11.1基于氨基酸組成的PROPSEARCH數(shù)據(jù)搜索。輸入序列是人自身抗原NOR-90。為簡潔起見,除去了解釋性材料和一張與整個目標(biāo)數(shù)據(jù)庫距離打分的直方圖。表中的列給出的是根據(jù)距離得分排列的順序、SWISS-PROT或PIR標(biāo)識、距離得分、查詢序列與該序列重疊的長度、重疊的位置(從POS1到POS2)、計(jì)算出的pI,以及對該序列的描述。
MOWSE
分子量搜索(Molecular Weight Search,MOWSE)算法利用了通過質(zhì)譜(MS)技術(shù)獲得的信息(Pappin等,1993)。利用完整蛋白質(zhì)的分子量及其被特定蛋白酶消化后產(chǎn)物的分子量,一種未知蛋白質(zhì)能被準(zhǔn)確無誤地確認(rèn),給出由若干實(shí)驗(yàn)才能決定的結(jié)果。由于未知蛋白無需再全部或部分測序,這一方法顯著地減少了實(shí)驗(yàn)時間。
MOWSE的輸入是一個純文本文件,包含一張實(shí)驗(yàn)測定的肽段列表,分子量范圍在0.7到4.0Kda之間。計(jì)算過程基于在OWL非冗余蛋白質(zhì)序列庫(Akrigg等,1988)中包含的信息。打分基于在一定分子量范圍內(nèi)蛋白中一個片段分子量出現(xiàn)的次數(shù)。輸出的結(jié)果是得分*佳的30個蛋白的列表,包括它們在OWL中的條目名稱,相符肽段序列,和其它統(tǒng)計(jì)信息。模擬研究得出在使用5個或更少輸入肽段分子量時,準(zhǔn)確率為99%。該搜索服務(wù)可通過向mowse@daresburg.ac.uk發(fā)送電子郵件實(shí)現(xiàn)。為獲得更多關(guān)于查詢格式的細(xì)節(jié)信息,可以相該地址發(fā)送電子郵件,并在消息正文中寫上“help”這個詞。
基于序列的物理性質(zhì)
Compute pI/MW(ExPASy)
Compute pI/MW是計(jì)算輸入序列等電點(diǎn)和分子量的工具。對pI的確定基于早期研究中將蛋白質(zhì)從由中性到酸性變性條件下遷移過程中所獲得的pK值(Bjellqvist等,1993)。因此,該作者警告用戶,對于堿性蛋白質(zhì)所得到的pI值可能不準(zhǔn)確。分子量的計(jì)算是把序列中每個氨基酸的同位素平均分子量加在一起,再加上一個水分子的分子量。用戶可以把序列整理為FASTA格式,或提供SWISS-PROT標(biāo)識,或者是可確定的添加號。若用戶提供了序列,該工具會自動計(jì)算全序列的pI和分子量;若用戶提供的是SWISS-PROT標(biāo)識,程序會顯示該條目的描述和物種記錄;如果用戶給出了一段序列片段范圍則計(jì)算將在該片段上進(jìn)行,而不是針對整個序列。
PeptideMass(ExPASy)
PeptideMass工具針對肽段譜圖分析實(shí)驗(yàn),用于確定蛋白質(zhì)在與特定蛋白酶或化學(xué)試劑作用下的內(nèi)切產(chǎn)物(Wilkins等,1997)。通過PeptideMass可以預(yù)測水解結(jié)果的酶和試劑包括:胰蛋白酶(trypsin)、糜蛋白酶(chymotrypsin)、LysC、溴化氰、ArgC、AspN和GluC(雙羧酯或磷酸酯)。半胱氨酸和甲硫氨酸可在計(jì)算產(chǎn)物肽段前加以修飾。若用戶提供的是SWISS-PROT標(biāo)識,而不單是一段序列,PeptideMass還能利用SWISS-PROT庫中標(biāo)注中的信息協(xié)助計(jì)算。例如,除去信號序列,后在剪切之前引入已知的翻譯后修飾。輸出結(jié)果會列成表格,其中將給出輸入蛋白的pI和分子量,然后是SWISS-PROT中關(guān)于變種的分子量、位點(diǎn)、修飾后變種的信息,*后是肽片段的序列。
TGREASE
TGREASE是沿蛋白質(zhì)序列長度計(jì)算其疏水性的工具(Kyte和Doolittle,1982)。“疏水性”是每種氨基酸所固有的特性,即氨基酸遠(yuǎn)離周圍水分子,將自己包埋進(jìn)蛋白質(zhì)核心的相對趨勢。這一趨勢加上空間立體條件和其它一些因素決定了一個蛋白質(zhì)*終折疊成的三維空間構(gòu)象。因此,TGREASE對預(yù)測球狀蛋白內(nèi)埋區(qū)以及判斷待定跨膜序列等方面都有應(yīng)用。TGREASE屬于FASTA系列程序,可以從Virginia大學(xué)得到,并可以作為獨(dú)立程序在Mac或Dos系統(tǒng)下運(yùn)行。
疏水性預(yù)測的方法依賴于疏水性的衡量尺度,這里每個氨基酸根據(jù)其一系列的物理特性(例如,溶解性、跨越水-汽相時產(chǎn)生的自由能等),被賦予一個數(shù)值以代表其疏水性。具有更高正值的氨基酸具有更大的疏水性;而具有更低負(fù)值的氨基酸則更加親水。然后,沿蛋白質(zhì)序列的疏水性的移動平均值,或者稱為親/疏水性索引被計(jì)算出來。窗口的寬度是可以調(diào)整的,這里推薦7-11殘基的窗口寬度以獲得更多的信息和更少的噪聲干擾。*后把結(jié)果繪制成親/疏水性-殘基序號的線形圖。圖11.2是用人的白介素8受體B作的TGREASE圖。圖中的峰與實(shí)際跨膜區(qū)段的位置雖然不完全一致,但二者的相關(guān)性已經(jīng)相當(dāng)明顯。要注意的是這種方法不僅僅預(yù)測跨膜區(qū)段,還預(yù)測所有的疏水區(qū)。專門用來檢測跨膜區(qū)段的方法將在后面專門討論。
………………
圖11.2 TGREASE所作Kytt-Doolittle疏水性分析結(jié)果。輸入序列是人高親和白介素8受體B,使用了缺省的窗口長度。圖中底部的粗橫線是手工加上的,代表了SWISS-PROT中標(biāo)注的該蛋白1L-8R-B(P25025)中的七個跨膜區(qū)段的位置。
SAPS
蛋白質(zhì)序列統(tǒng)計(jì)分析方法(Statistical Analysis of Protein Sequences,SAPS)用于給出關(guān)于查詢序列的廣泛的統(tǒng)計(jì)信息(Brendel等,1992)。當(dāng)一個蛋白序列通過Web界面提交給SAPS,服務(wù)器會返回一大堆關(guān)于該蛋白的物理和化學(xué)性質(zhì)的信息,這些都是僅僅通過序列本身就可以分析出來的。輸出的結(jié)果*先是按種類對氨基酸的統(tǒng)計(jì)計(jì)數(shù);隨后是電荷分布分析,包括正/負(fù)電荷聚集區(qū)的位置,高度帶電和不帶電區(qū)段,以及電荷的傳播和模式等;*后的部分給出了高疏水性和跨膜區(qū)段、重復(fù)結(jié)構(gòu)和多重態(tài)、以及周期性分析。
二級結(jié)構(gòu)和折疊類
分析新發(fā)現(xiàn)的蛋白質(zhì)或未知功能的基因產(chǎn)物的步是用BLAST或其它工具在公共數(shù)據(jù)庫中進(jìn)行相似性搜索。然而,這種搜索可能無法找到一個已知相符蛋白質(zhì);即使能得到一個統(tǒng)計(jì)顯著的相符蛋白質(zhì),也很可能在序列記錄中沒有任何關(guān)于其二級結(jié)構(gòu)的信息,而這些信息對設(shè)計(jì)合理的生物化學(xué)實(shí)驗(yàn)十分重要。雖然沒有“已知”的信息,但仍然有辦法預(yù)測出序列折疊成a 螺旋或b 疊片的性能。這些方法依賴于對大量實(shí)驗(yàn)測定三維結(jié)構(gòu)的蛋白質(zhì)的觀察和分析。
在討論技術(shù)本身之前,有必要簡要回顧一下二級結(jié)構(gòu)和折疊類。前面已經(jīng)提及,許多氨基酸具有疏水性的側(cè)鏈,而主鏈或稱骨架是親水性的。肽鏈通過構(gòu)成離散的二級結(jié)構(gòu)元件來平衡這兩種相反的作用力。這在1951年由Linus Pauling及其合作者提出(Pauling和Corey,1951)。a 螺旋是一種用來起瓶塞的鉆頭一樣的螺旋結(jié)構(gòu),由主鏈構(gòu)成螺旋的骨架,側(cè)鏈從螺旋向外伸出。骨架是通過各個氨基酸上的CO基團(tuán)與C末端方向+4個氨基酸(n+4)的NH基團(tuán)形成的氫鍵來保持穩(wěn)定的,這樣就形成了結(jié)實(shí)的棒狀結(jié)構(gòu)。一些殘基比其它殘基更易形成a 螺旋:丙氨酸、谷氨酸、亮氨酸和甲硫氨酸經(jīng)常在a 螺旋中出現(xiàn);而脯氨酸、甘氨酸、酪氨酸和絲氨酸一般不會在a 螺旋中出現(xiàn)。通常認(rèn)為,脯氨酸是螺旋破壞者,這是由于它的環(huán)狀結(jié)構(gòu)中斷了n+4氫鍵的形成。
與a 螺旋相比,b 鏈?zhǔn)且环N更舒展的結(jié)構(gòu)。與a 螺旋在二級結(jié)構(gòu)單元內(nèi)部形成氫鍵不同,氫鍵形成于兩條或多條相鄰的b 鏈之間。多條b 鏈間通過這種氫鍵作用使整個結(jié)構(gòu)形成b 折疊片。這些折疊片可以是平行的,也可以是反平行的,這取決于各b 鏈中N末端和C末端的取向。一個b 折疊片的變種是b 拐角,多肽鏈構(gòu)成發(fā)卡狀的急轉(zhuǎn)彎,并形成反平行b 疊片。
1976年Levitt和Chothia根據(jù)蛋白質(zhì)中二級結(jié)構(gòu)元件的排列順序提出了一個分類系統(tǒng)(Levitt和Chothia,1976)。非常簡單,一個a 結(jié)構(gòu)基本由a 螺旋構(gòu)成;一個b 結(jié)構(gòu)主要由b 鏈構(gòu)成。肌紅蛋白是典型的全由a 螺旋構(gòu)成的蛋白質(zhì),因而屬于a 結(jié)構(gòu)類(Takano,1977)。質(zhì)體藍(lán)素是b 類的好例子,其中8條b 鏈間的氫鍵的模式形成了一個緊密的桶狀結(jié)構(gòu)(Guss和Freeman,1983)。組合折疊類a /b 是由交替出現(xiàn)的b 鏈和a 螺旋構(gòu)成的。黃素氧還蛋白是a /b 蛋白的一個好例子,其中b 鏈構(gòu)成中心的b 折疊,周圍由a 螺旋包圍(Burnett等,1974)。
在以下討論中,有一個術(shù)語會經(jīng)常出現(xiàn):神經(jīng)網(wǎng)絡(luò)。它賦予了計(jì)算過程“學(xué)習(xí)”的能力以模仿人類的學(xué)習(xí),而大多數(shù)計(jì)算程序都延著固有的順序盲目地執(zhí)行指令。神經(jīng)網(wǎng)絡(luò)技術(shù)在如二級結(jié)構(gòu)預(yù)測這種分析模式和趨勢的問題中有廣泛的應(yīng)用。每個神經(jīng)網(wǎng)絡(luò)都包含一個輸入層和一個輸出層。在二級結(jié)構(gòu)預(yù)測的應(yīng)用中,輸入層是序列帶來的信息,輸出層是每個特定氨基酸形成特定二級結(jié)構(gòu)的幾率。實(shí)際的學(xué)習(xí)過程發(fā)生在位于輸入層和輸出層之間的一個或多個隱含層中。學(xué)習(xí)的實(shí)現(xiàn)需要向網(wǎng)絡(luò)提供一組訓(xùn)練數(shù)據(jù)集。這里,一組合適的訓(xùn)練集是已測出結(jié)構(gòu)的蛋白質(zhì)數(shù)據(jù)庫。網(wǎng)絡(luò)會加工這些信息去尋找氨基酸序列與之以特定上下文關(guān)系所形成結(jié)構(gòu)之間的微弱聯(lián)系。神經(jīng)網(wǎng)絡(luò)在二級結(jié)構(gòu)預(yù)測中的應(yīng)用更具體的討論可見Kneller等(1990)的文獻(xiàn)。
nnpredict
nnpredict算法使用了一個雙層、前饋神經(jīng)網(wǎng)絡(luò)去給每個氨基酸分配預(yù)測的類型(Kneller等,1990)。在預(yù)測時,服務(wù)器使用FASTA格式的文件,其中有單字符或三字符的序列以及蛋白質(zhì)的折疊類(a 、b 或a /b )。殘基被分為幾類,如a 螺旋(H)、b 鏈(E)或其它(-)。若對給定殘基未給出預(yù)測,則會標(biāo)上問號(?),這說明無法作出可信的分配。若沒有關(guān)于折疊類的信息,預(yù)測也能在不定折疊類的情況下進(jìn)行,而且這是缺省的工作方式。據(jù)報道,對于*佳實(shí)例的預(yù)測,nnpredict的準(zhǔn)確率超過了65%。
序列通過向nnpredict@celeste.ucsf.edu發(fā)送電子郵件提交給nnpredict。以黃素氧還蛋白為例,電子郵件的格式為:
option: a/b
>flavodoxin - Anacystis nidulans
AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASKLNAYDYLIIGCPTWNVGELQSDWEGIY
DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG
LAIDEDNQPDLTKNRIKTWVSQLKSEFGL
Option行標(biāo)明蛋白質(zhì)的折疊類:n用于無折疊類,a為a ,b為b ,a/b為a /b 。每個電子郵件只能提交一個序列,服務(wù)器返回的結(jié)果經(jīng)整理見圖11.3。
PredictProtein
PredictProtein(Rost等,1994)在預(yù)測中應(yīng)用了略為不同的方法。首先,蛋白質(zhì)序列被作為查詢序列在SWISS-PROT庫中搜索相似的序列。當(dāng)相似的序列被找到后,一個名為MaxHom的算法被用來進(jìn)行一次基于特征簡圖的多序列比對(Sander和Schneider,1991)。MaxHom用迭代的方法來構(gòu)造比對:當(dāng)次搜索SWISS-PROT后,所有找到的序列與查詢序列進(jìn)行比對,并構(gòu)造出一個比對后的特征簡圖。然后,這個簡圖又被用來在SWISS-PROT中搜索新的相似序列。由MaxHom產(chǎn)生的多序列比對隨后被置入一個神經(jīng)網(wǎng)絡(luò),用一套稱為PHD(Rost,1996)的方法進(jìn)行預(yù)測。PHD這一套二級結(jié)構(gòu)預(yù)測方法不僅僅給每個殘基分配一個二級結(jié)構(gòu)類型,它還對序列上每個位點(diǎn)的預(yù)測可信度給予統(tǒng)計(jì)分析。該方法的平均準(zhǔn)確率超過72%:*佳殘基預(yù)測準(zhǔn)確率達(dá)90%以上。
向predictprotein@embl-hcidelberg.de發(fā)送的輸入序列電子郵件為以下格式:
Joe Buzzcut
National Human Genome Research Institute, NIH
buzzcut@baldguys.org
# flavodoxin - Anacystis nidulans
AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY
DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG
LAIDEDNQPDLTKNRIKTWVSQLKSEFGL
在名字、從屬關(guān)系和地址行之后,#號向服務(wù)器表明隨后是一個單字符序列。序列基本上是FASTA格式,但其中不允許有空格,傳統(tǒng)的>號由#號代替,序列之后也不許有其它東西。
輸出結(jié)果內(nèi)容很多并包含大量有關(guān)信息。其中有MaxHom搜索結(jié)果,并包括多序列比對的結(jié)果,它可以用于例如基于特征簡圖的搜索或物種譜系分析等 進(jìn)一步研究。如果 提交的序列在PDB庫中有已知同源蛋白,則其PDB標(biāo)識號也會輸出返回。隨后是方法本身信息,*后是實(shí)際預(yù)測結(jié)果。與nnpredict不同,PredictProtein還返回每個位點(diǎn)的“預(yù)測可信度索引”,范圍從0到9,9具有的可信度,也就是說該位點(diǎn)所分配的二級結(jié)構(gòu)類型是正確的。對特定例子該程序返回的預(yù)測結(jié)果,以及與其它預(yù)測方法的比較整理后見圖11.3。
SSPRED
與PredictProtein相似,EMBL的二級結(jié)構(gòu)預(yù)測方法(Mehta等,1995)先在數(shù)據(jù)庫中搜索序列的相似蛋白,構(gòu)建多序列比對,然后進(jìn)行預(yù)測。該方法在比對時,特別注意非保守位點(diǎn)的替換,并利用比對結(jié)果作為初始預(yù)測結(jié)果。初始預(yù)測結(jié)果經(jīng)過濾除去那些簡單不合理的結(jié)果單元,這些包括長度不合理的單元或是一種結(jié)構(gòu)類型打斷了一串另一種類型(例如,預(yù)測為HHHEHH,就應(yīng)變成HHHHHH)。所有的a 螺旋應(yīng)至少4個殘基長,所有的b 鏈應(yīng)至少3個殘基長。
同樣以黃素氧還蛋白為例,以下是提交給sspred@embl-heidelberg.de的作SSPRED搜索郵件格式:
SEQUENCE
TITLE flavodoxin - Anacystis nidulans
BLOSUM 62
ALIGN 50
INDEL 10
Z_SCORE 7.0
SEQ
AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY
DDLDSVNFQGEKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG
LAIDEDNQPDLTKNRIKTWVSQLKSEFGL
END
關(guān)鍵詞SEQUENCE提示服務(wù)器有一個單序列被提交上來。TITLE行允許包含關(guān)于輸入序列的一些評語,并會在返回結(jié)果中出現(xiàn)。BLOSUM 62命令指示SSPRED在作比對打分時使用該矩陣。PAM矩陣和BLOSUM矩陣都是可以選用的,而缺省的設(shè)置是PAM 120。INDEL 10是空位罰分值。用戶可以不管這一行而讓SSPRED基于所用的打分矩陣預(yù)測合適的缺省值。降低INDEL值使空位插入更可接受。ALIGN 50指示服務(wù)器用50個*佳比對進(jìn)行二級結(jié)構(gòu)預(yù)測。Z_SCORE 7.0行允許用戶提高或降低BLITZ搜索的敏感度。*后,序列要加上特定起始關(guān)鍵字SEQ和結(jié)束關(guān)鍵字END。
在分析結(jié)束后,用戶將得到包含一系列輸出文件的電子郵件。其中包括在預(yù)測中用到的BLITZ產(chǎn)生的多序列比對的結(jié)果,以及*終預(yù)測的結(jié)果。電子郵件中還包括*初預(yù)測結(jié)果及過濾后的結(jié)果。前面的序列實(shí)例的SSPRED*終預(yù)測結(jié)果與其它方法的比較見圖11.3。
SOPMA
位于法國里昂的CNRS(Centre National de la Recherche Scientifique)使用獨(dú)特的方法進(jìn)行蛋白質(zhì)二級結(jié)構(gòu)預(yù)測。它不是用一種,而是5種相互獨(dú)立的方法進(jìn)行預(yù)測,并將結(jié)果匯集整理成一個“一致預(yù)測結(jié)果”。這5種方法包括:Garnier-Gibrat-Robson(GOR)方法(Garnier等,1996)、Levin同源預(yù)測方法(Levin等,1986)、雙重預(yù)測方法(Deléage和Roux,1987)、作為前面PredictProtein一部分的PHD方法和CNRS自己的SOPMA方法(Geourjon和Déleage,1995)。簡單的說,SOPMA這種自優(yōu)化的預(yù)測方法建立了已知二級結(jié)構(gòu)序列的次級數(shù)據(jù)庫,庫中的每個蛋白質(zhì)都經(jīng)過基于相似性的二級結(jié)構(gòu)預(yù)測。然后用次級庫中得到的信息去對查詢序列進(jìn)行二級結(jié)構(gòu)預(yù)測。
使用這種方法可以將序列本身作為電子郵件提交給deleage@ibcp.fr,用SOPMA作為郵件主題,或使用SOPMA的Web界面。各種作為一部分的預(yù)測結(jié)果以及“一致預(yù)測結(jié)果”都見圖11.3。
各種方法的比較
根據(jù)圖11.3,可以明顯看出所有的方法在預(yù)測二級結(jié)構(gòu)方面完成得相對較好,但都不完美。選黃素氧還蛋白作為測試的實(shí)例是因?yàn)樗哂邢鄬?fù)雜的結(jié)構(gòu):它有6個a 螺旋和5個b 疊片,屬于a /b 折疊類。有一些分配結(jié)果在各種方法中是一致的:如各種方法都很好地找到了b 1、b 3、b 4和a 5。但有些方法把某些二級結(jié)構(gòu)單元徹底漏掉了(如nnpredict漏掉了a 2、a 3和a 4),而有些預(yù)測方法所得的結(jié)果缺乏生物學(xué)意義(如雙重預(yù)測方法在b 4,認(rèn)為螺旋、疊片和拐角一個接一個交替出現(xiàn))。PredictProtein方法正確找到了所有的二級結(jié)構(gòu)單元,并在多處準(zhǔn)確識別了二級結(jié)構(gòu)元件的長度,在整體上預(yù)測表現(xiàn)*佳。但并非說明其它方法沒用或不夠好,因?yàn)樵谄渌承⿲?shí)例中無疑會有某種方法表現(xiàn)更好。由于沒有更多信息可用來判斷哪種方法,是把序列提交給多個服務(wù)器,將結(jié)果匯集整理,通過人為的比較來判斷哪些預(yù)測結(jié)果成立或不成立。(在圖11.3中顯示的CNRS一致序列就屬于這一類嘗試,但一致序列也不是完全正確的。)雖然這一方法中并未包含某種對預(yù)測方法失敗保險的預(yù)測,但由這些預(yù)測的確增強(qiáng)了結(jié)果了可信度。
………………
圖11.3各種二級結(jié)構(gòu)預(yù)測方法的比較。作為查詢序列的黃素氧還蛋白(flavodoxin)是一種a /b 蛋白,其序列排在行。對每個預(yù)測,H代表a 螺旋,E代表b 鏈,T代表b 拐角,其它位點(diǎn)都認(rèn)為是無規(guī)卷曲。所采用的各預(yù)測方法列在其結(jié)果的左側(cè),其詳細(xì)描述見正文。圖的*下一行是由PDB文件中的黃素氧還蛋白(1OFV,Smith等,1983)所得的二級結(jié)構(gòu)分布。
特殊結(jié)構(gòu)或結(jié)構(gòu)特征
就象a 螺旋和b 疊片的位置可以較為準(zhǔn)確地預(yù)測出來,其它特定的結(jié)構(gòu)或結(jié)構(gòu)特征,如卷曲螺旋和跨膜區(qū)也可以預(yù)測出來。但這類預(yù)測的方法沒有二級結(jié)構(gòu)預(yù)測方法多,主要是由于這些結(jié)構(gòu)或結(jié)構(gòu)特征的折疊規(guī)律尚不十分清楚。盡管如此,若查詢序列在已知結(jié)構(gòu)數(shù)據(jù)庫中能搜索到相似蛋白,則預(yù)測的準(zhǔn)確度可能很高。
卷曲螺旋
COILS算法將查詢序列在一個由已知包含卷曲螺旋蛋白結(jié)構(gòu)的數(shù)據(jù)庫中進(jìn)行搜索(Lupas等,1991)。程序也將查詢序列與包含球狀蛋白序列的PDB次級庫進(jìn)行比較,并根據(jù)兩個庫搜索得分的不同決定輸入序列形成卷曲螺旋的概率。COILS可以下載到VAX/VMS系統(tǒng)上使用,通過簡單的Web界面使用則更方便。
程序要求序列數(shù)據(jù)為GCG或FASTA格式,一次可以提交一條或多條序列。除了序列,用戶還能在兩種打分矩陣中選擇一種:MTK是根據(jù)肌球蛋白、原肌球蛋白和角蛋白序列得到的打分矩陣;或MTIDK,是根據(jù)肌球蛋白、原肌球蛋白、中間纖維類蛋白Ⅰ-Ⅴ、橋粒蛋白和角蛋白得到的打分矩陣。程序作者引述了兩種矩陣的適用特點(diǎn):MTK更適合檢測雙鏈結(jié)構(gòu),而MTIDK適合其它情形。用戶還能啟動一個選項(xiàng)給予每個卷曲a和d位置上殘基(通常為親水性)相同的權(quán)重。如果COILS在無權(quán)重和有權(quán)重情況下得到的結(jié)果相差很大,則可能表明存在正錯誤。程序的作者警告說COILS是用來檢測與溶液接觸的左手性卷曲螺旋的,對于包埋的或右手性卷曲螺旋則可能檢測不到。若一個序列被提交到服務(wù)器,程序會整理出一張預(yù)測結(jié)果圖,顯示沿著序列各個部分形成卷曲螺旋的傾向性。
一個基于Macintoshi系統(tǒng)的應(yīng)用程序――MacStripe使用了Lupas的COILS的預(yù)測方法,能輸出較簡單的預(yù)測結(jié)果(Knight,1994)。MacStripe要求輸入文件為FASTA、PIR或其它普遍文件格式,并象COILS一樣產(chǎn)生一個圖形文件,包含形成卷曲螺旋的概率,以及用柱狀圖顯示七連體重復(fù)模式的連續(xù)性。下面是以GCN4為例,由MacStripe得到的統(tǒng)計(jì)結(jié)果文件的一部分。
89 89 L 5 a 0.760448 0.000047
90 90 D 5 b 0.760448 0.000047
91 91 D 5 c 0.760448 0.000047
92 92 A 5 d 0.760448 0.000047
94 94 V 5 f 0.760448 0.000047
95 95 E 5 g 0.760448 0.000047
96 96 S 5 a 0.760448 0.000047
97 97 F 5 b 0.760448 0.000047
98 98 F 5 c 0.774300 0.000058
99 99 S 5 d 0.812161 0.000101
100 100 S 5 e 0.812161 0.000101
101 101 S 5 f 0.812161 0.000101
102 102 T 5 g 0.812161 0.000101
從左到右各列分別代表殘基序號(顯示兩次)、氨基酸種類、七連體框架和殘基在七連體中的位置(a-b-c-d-e-f-g)、Lupas得分和Lupas概率。在這個例子中,注意到第五列,我們能清楚看出七連體重復(fù)模式。分析整個GCN4序列結(jié)果表明七連體重復(fù)模式得到良好維持,只在某些區(qū)域有所分離。既然統(tǒng)計(jì)結(jié)果不能忽略不計(jì),其結(jié)果能更容易地說明七連體重復(fù)模式是否明顯存在。也可以從COILS得到類似的輸出,但不是通過Web服務(wù)器,而是在合適的Unix計(jì)算機(jī)上安裝一個C語言編寫的程序,這一步對許多用戶而言是做不到的。
跨膜區(qū)域
前面曾討論過的Kyte-Doolittle的TGREASE算法能有效地檢測高疏水性的區(qū)域,但它并不是專門用來預(yù)測跨膜區(qū)域的,因?yàn)樗苄郧驙畹鞍椎膬?nèi)埋區(qū)也是基本為疏水性的。我們先來看一種專門預(yù)測跨膜區(qū)的方法:TMpred,它依靠一個跨膜蛋白數(shù)據(jù)庫Tmbase(Hofmann和Stoffel,1993)。Tmbase來源與Swiss-Prot庫,并包含了每個序列的一些附加信息:跨膜結(jié)構(gòu)區(qū)域的數(shù)量、跨膜結(jié)構(gòu)域的位置及其側(cè)翼序列的情況。Tmpred利用這些信息并與若干加權(quán)矩陣結(jié)合來進(jìn)行預(yù)測。 2 possible models considered, only significant TM segments used -----> STRONGLY prefered model: N-terminus outside 7 strong transmembrane helices, total score : 14196 # from to length score orientation 1 55 74 (20) 2707 o-i 2 83 104 (22) 1914 i-o 3 120 141 (22) 1451 o-i 4 166 184 (19) 2155 i-o 5 212 235 (24) 2530 o-i 6 255 276 (22) 2140 i-o 7 299 319 (21) 1299 o-i ------> alternative model 7 strong transmembrane helices, total score : 11974 # from to length score orientation 1 47 69 (23) 2494 i-o 2 84 104 (21) 1407 o-i 3 123 141 (19) 1352 i-o 4 166 185 (20) 1904 o-i 5 219 236 (18) 2453 i-o 6 252 274 (23) 1386 o-i 7 300 319 (20) 915 i-o 每種建議的模型都指出格區(qū)段起始和終止位點(diǎn),及其相對膜的取向(由內(nèi)到外inside-to-outside,或由外到內(nèi)outside-to-inside)。算法作者恰當(dāng)?shù)刂赋鲞@些模型基于假設(shè)全部跨膜區(qū)在預(yù)測中都被找到。因而這些模型應(yīng)被看作是從該方法所得數(shù)據(jù)的角度出發(fā)所的結(jié)果。
第二種預(yù)測方法是TMAP,它類似于SSPRED采用了多序列比對來提高預(yù)測的準(zhǔn)確性(Persson和Argos,1994)。同樣一G蛋白耦合受體為例,提交給tmap@embl-heidelberg.de的查詢序列的格式如下所示:
SEQUENCE
TITLE G protein-coupled receptor
BLOSUM 62
INDEL 10
ALIGN 50
Z_SCORE 4
SEQ
MSGESMNFSDVFDSSEDYFVSVNTSYYSVDSEMLLCSLQEVRQFSRLFVPIAYSLICVFGLLGNILVVIT
FAFYKKARSMTLVYLLNMAIADLLFVLTLPFWAVSHATGAWVFSNATCKLLKGIYAINFNCGMLLLTCIS
END
TITLE行使返回給用戶的結(jié)果易于辨認(rèn)。BLOSUM 62命令指定用BLITZ在Swiss-Prot中搜索是采用的得分矩陣,這里可以采用任一可得的BLOSUM或PAM矩陣;INDEL、ALIGN和Z_SCORE等命令與前面在SSPRED服務(wù)中所述含義完全一樣。序列本身前面標(biāo)上起始關(guān)鍵字SEQ,*后標(biāo)上END關(guān)鍵字。無論用電子郵件還是用Web界面,結(jié)果都由電子郵件返回。返回的內(nèi)容包括BLITZ為查詢序列所作的多序列比對結(jié)果,關(guān)于各跨膜區(qū)位置的預(yù)測,以及給出結(jié)果圖示的PostScript文件。對G蛋白耦合受體的TMAP預(yù)測結(jié)果如下:
PREDICTED TRANSMEMBRANE SEGMENTS FOR PROTEIN G protein-coupled receptor
TM 1: 46 - 74 (29)
TM 2: 82 - 108 (27)
TM 3: 117 - 145 (29)
TM 4: 159 - 187 (29)
TM 5: 212 - 240 (29)
TM 6: 251 - 276 (26)
輸出結(jié)果格式很簡單,給出了跨膜區(qū)段序號、各區(qū)段起始和終止位置,括號中是區(qū)段長度。顯然,對于同一個蛋白兩個不同的方法給出了有顯著不同的預(yù)測結(jié)果。Tmpred預(yù)測了七個跨膜區(qū)段,而TMAP的預(yù)測是六個,并且兩組區(qū)段邊緣相互重疊。在Swiss_Prot中,這個序列條目中注明了七個跨膜區(qū)段(43-69、79-99、115-136、155-175、206-233、250-274以及299-316)。相比之下,Tmpred的結(jié)果更符合這些位置,在多數(shù)情況下,Tmpred的預(yù)測比實(shí)際情況會稍微長一些和偏一些。對TMAP也是一樣,只是TMAP把*后一個區(qū)段整個漏掉了。用戶可能設(shè)想TMAP預(yù)測比Tmpred好,但這里同樣要強(qiáng)調(diào)利用多種方法進(jìn)行預(yù)測這一慣用策略,然后再手工審查其結(jié)果。
信號肽
丹麥技術(shù)大學(xué)的生物序列分析中心開發(fā)了SignalP這個強(qiáng)大的信號肽及其剪切位點(diǎn)檢測工具(Nielsen等,1997)。該算法基于神經(jīng)網(wǎng)絡(luò)方法,用已知信號序列的革蘭氏陰性原核生物、革蘭氏陽性原核生物及真核生物的序列分別作為訓(xùn)練集。SignalP預(yù)測的是分泌型信號肽,而不是那些參與細(xì)胞內(nèi)信號傳遞的蛋白。
人類胰島素樣生長因子IB前體(生長調(diào)節(jié)素C,P05019),具有已知剪切位點(diǎn),通過Web界面提交給SignalP加以分析。預(yù)測采用的是真核訓(xùn)練集,分析結(jié)果如下:
************************* SignalP predictions *************************
Using networks trained on euk data
>IGF-IB length = 195
# pos aa C S Y
46 A 0.365 0.823 0.495
47 T 0.450 0.654 0.577
48 A 0.176 0.564 0.369
49 G 0.925 0.205 0.855
50 P 0.815 0.163 0.376
< Is the sequence a signal peptide?
# Measure Position Value Cutoff Conclusion
max. C 49 0.925 0.37 Yes
max. Y 49 0.855 0.34 Yes
max. S 37 0.973 0.88 Yes
mean S 1-48 0.550 0.48 Yes
# Most likely cleavage site between pos. 48 and 49: ATA-GP
輸出結(jié)果的部分中,標(biāo)記為C的列是剪切位點(diǎn)打分。在剪切點(diǎn)的C末端位點(diǎn)上得分。標(biāo)記為S的列是信號肽打分,位于剪切點(diǎn)之前的位點(diǎn)得分高而剪切點(diǎn)之后的位點(diǎn)得分低。非分泌型蛋白的N末端的S得分也較低。*后的Y列給出綜合剪切點(diǎn)打分,這個幾何平均分值指出哪個位點(diǎn)具有高C分值同時又是S分值由高轉(zhuǎn)低。輸出文件的結(jié)尾提出問題“這個序列是信號肽嗎?”,然后根據(jù)統(tǒng)計(jì)推斷出*可能的剪切點(diǎn)。在Swiss_Prot中對該蛋白的注解是:成熟肽鏈起始與49位,正是SignalP預(yù)測的*可能的剪切點(diǎn)。
非球形區(qū)域
第七章中已經(jīng)討論過用SEG程序在進(jìn)行數(shù)據(jù)庫搜索前遮蓋低復(fù)雜性區(qū)段。用同樣的算法,通過調(diào)節(jié)觸發(fā)窗口長度、觸發(fā)復(fù)雜性K1和延伸復(fù)雜性K2,可以用來檢測待定的非球形區(qū)域。受到命令“seq sequence.txt 45 3.4 3.75”后,SEG將使用長于缺省值12的窗口,因而能檢測到長非球形結(jié)構(gòu)域。一個用SEG檢測非球形區(qū)域的例子見圖11.4。
1-307 | MAGAIASRMSFSSLKRKQPKTFTVRIVTMD AEMEFNCEMKWKGKDLFDLVCRTLGLRETW FEGLQYTIKDTVAWLKMDKKVLDHDVSKEE PVTFHFLAKFYPENAEEELVQEITQHLFFL QVKKQILDEKIYCPPEASVLLASYAVQAKY GDYDPSVHKRGFLAQEELLPKRVINLYQMT PEMWEERITAWYAEHRGRARDEAEMEYLKI AQDLEMYGVNYFAIRNKKGTELLLGVDALG LHIYDPENRLTPKISFPWNEIRNISYSDKE FTIKPLDKKIDVFKFNSSKLRVNKLTLQLC IGNHDLF | |
mrrrkadslevqqmkaqareekarkqmerq rlarekqmreeaertrdelerrllqmkeea tmanealmrseetadllaekaqiteeeakl laqkaaeaeqemqrikatairteeekrlme qkvleaevlalkmaeeserrakeadqlkqd lqeareaerrakqklleiatk | 308-478 | |
479-496 | PTYPPMNPIPAPLPPDIP | |
sfnligdslsfdfkdtdmkrlsmeiekekv eymekskhlqeqlnelkteiealklkeret aldihnensdrggsskhntikkltlqsak s | 497-587 | |
588-595 | RVAFFEEL |
圖11.4 SEG預(yù)測的neurofibromatosis type 2基因(L11353)產(chǎn)物蛋白的非球形區(qū)域。非球形區(qū)以小寫列于左邊。數(shù)字標(biāo)出每一塊的殘基位置。
三級結(jié)構(gòu)
結(jié)構(gòu)預(yù)測大概是基于蛋白質(zhì)序列數(shù)據(jù)的預(yù)測方法中*復(fù)雜和技術(shù)上*困難的。從序列充分和準(zhǔn)確地預(yù)測蛋白質(zhì)結(jié)構(gòu)的重要性扎根于這樣的認(rèn)識:既然序列可以決定構(gòu)象,那么多個序列就可能決定同一個構(gòu)象。根據(jù)結(jié)構(gòu)比序列更加保守,以及蛋白質(zhì)骨架motif數(shù)量有限的想法(Chothia和Lesk,1986;Chothia,1992)說明,沒必要僅僅從傳統(tǒng)的基于序列比對的方法去尋找蛋白之間的相似性。序列與結(jié)構(gòu)的關(guān)系問題的根源在于“蛋白質(zhì)折疊過程”的問題,這是近來一些綜述的討論的焦點(diǎn)(Bryant和Altschul,1995;Eisenhaber等,1995;Lemer等,1995)。
當(dāng)前*健壯的結(jié)構(gòu)預(yù)測方法是同源建模,或稱“threading”方法(Bryant和Lawrence,1993;Fetrow和Bryant,1993;Jones和Thornton,1996)。這種方法將未知結(jié)構(gòu)的蛋白質(zhì)序列“穿過”由X光晶體衍射或NMR核磁共振得到的已知結(jié)構(gòu)靶蛋白的結(jié)構(gòu)坐標(biāo)。對于序列-結(jié)構(gòu)的每次定位,算出殘基間相互作用力和疏水作用大小。這些熱力學(xué)計(jì)算的目的是找出未知結(jié)構(gòu)序列在目標(biāo)結(jié)構(gòu)上的能量*優(yōu)和構(gòu)象*穩(wěn)固的比對位置。這樣的程序要作密集的計(jì)算,要求計(jì)算機(jī)硬件至少是一臺強(qiáng)大的UNIX工作站,以及要有特定計(jì)算機(jī)語言的知識。
雖然threading這樣的技術(shù)很強(qiáng)大,但是它對硬件和專門知識的要求可能仍是大多生物學(xué)家應(yīng)用的障礙。為了降低應(yīng)用的障礙,一些易于使用的程序被開發(fā)出來為大多生物學(xué)家提供了比較蛋白建模的良好初步近似。(許多商業(yè)蛋白結(jié)構(gòu)分析工具,如WHAT-IF和LOOK都提供了更深入功能,但這里只限于討論基于Web的免費(fèi)軟件)。
一個序列結(jié)構(gòu)自動比較程序SWISS-MODEL(Peitsch,1996)是一個兩步過程。“First Approach”模式,先用來決定序列能否被建模:當(dāng)序列提交到程序,SWISS-MODEL將其與晶體圖像數(shù)據(jù)庫(ExPdb)比較,只有當(dāng)ExPdb中存在與序列充分相似的同源序列時才被接受建模。如果這一步在ExPdb中找到了一個或多個合適的同源物,則會建立一個原子模型,并將結(jié)果由電子郵件返回。這些結(jié)果能再提交給SWISS-MODEL的“Optimize”模式,利用其它知識如生物化學(xué)信息,來修正提出的結(jié)構(gòu)模型。
第二種方法是將結(jié)構(gòu)與結(jié)構(gòu)相對比,與第七章中討論的向量比對搜索工具(VAST)原理類似。DALI算法在兩個蛋白之間尋找相似的接觸模式,并進(jìn)行優(yōu)化后返回*佳的結(jié)構(gòu)比對方案(Holm和Sander,1993)。這種方法允許任意長度的空隙,并允許比對片段間互相交替連接,這樣就幫助了在整體上不相似的不同蛋白之間尋找相似的特定結(jié)構(gòu)域。DALI的Web界面能對PDB中已有的兩組坐標(biāo)進(jìn)行分析,也可由用戶提交一組PDB格式的坐標(biāo)。其中,若兩個目標(biāo)蛋白都在PDB庫中,則可以在一個“全對全”的PDB比較數(shù)據(jù)庫FSSP蛋白折疊類家族結(jié)構(gòu)比對庫(Holm和Sander,1994)中找到已經(jīng)算好的結(jié)構(gòu)近鄰。
*后一種方法是對前面的PHD二級結(jié)構(gòu)預(yù)測方法的補(bǔ)充。TOPITS方法(Rost,1995)中,PDB庫里的蛋白質(zhì)三維結(jié)構(gòu)被翻譯成二級結(jié)構(gòu)的一維“字符串”,構(gòu)成搜索的數(shù)據(jù)庫。然后,查詢序列的二級結(jié)構(gòu)和溶液可及性通過PHD方法被確定,結(jié)果也存成一維字符串。查詢和目標(biāo)字符串再以動態(tài)規(guī)劃方法進(jìn)行比對,并以此作出結(jié)構(gòu)預(yù)測。返回的結(jié)果是分級列表,給出查詢序列與目標(biāo)結(jié)構(gòu)的*優(yōu)比對,以及對預(yù)測準(zhǔn)確性概率的評估(Z score)。
這里討論的三種方法都是相當(dāng)基本的方法,因此它們能較快返回結(jié)果并可以使用Web類界面。但它們在檢測結(jié)構(gòu)間弱相似性中所表現(xiàn)出的水平令人信服。“threading”方法的*終潛力可以通過*近的Aslomar會議來說明,許多工作小組應(yīng)邀參與了一個“結(jié)構(gòu)預(yù)測競賽”(Lemer等,1995)。這個為前面提到的更復(fù)雜技術(shù)開設(shè)的實(shí)驗(yàn)場表明,雖然蛋白質(zhì)折疊問題還遠(yuǎn)未得到解決,大量蛋白質(zhì)折疊類還是能得到可靠的辨識。盡管不同方法在競賽中各有所長,競賽主持人還是建議采用“一致相似方法”的結(jié)構(gòu),就象前面二級結(jié)構(gòu)預(yù)測中給出例子的方法一樣。這些發(fā)展成果所處時代時機(jī)十分令人振奮,緊隨著人類基因組計(jì)劃的同時發(fā)展,為研究者在辨識出假定基因產(chǎn)物后能預(yù)測結(jié)構(gòu)與功能的關(guān)系提供了強(qiáng)有力的工具。
第11章中涉及內(nèi)容的因特網(wǎng)資源
PREDICTION OF PHYSICAL PROPERTIES | |
Compute pI/MW | http://expasy.hcuge.ch/ch2d/pi.tool.thml |
PeptideMass | http://expasy.hcuge.ch/sprot/peptide-mass.html |
TGREASE | ftp://ftp.vrgnia.edu/pub/fasta/ |
SAPS | http://ulrec2.unil.ch/software/SAPS_form.html |
| |
PREDICTION OF PROTEIN IDENTITY BASED ON COMPOSITION | |
AACompIdent | http://expasy.hcuge.ch/ch2d/aacompi.html |
AACompSim | http://expasy.hcuge.ch/ch2d/aacsim.html |
PROPSEARCH | http://www.embl-heidelerg.de/prs.html |
| |
PREDICTION OF SECONDARY STRUCTURE AND FOLDING CLASS | |
nnpredict | http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html |
PredictProtein | http://www.embl-heidelerg.de/predictprotein/ |
SOPMA | http://www.ibcp.fr/predict.html |
SSPRED | http://www.embl-heidelberg.de/sspred/sspred_info.html |
| |
PREDICTION OF SPECIALIZED STRUCTURES OR FEATURES | |
COILS | http://ulrec3.unil.ch/software/COILS_form.html |
MacStrip | http://www.wi.mit.edu/matsudaira/macstripe.html |
SignalP | http://www.cbs.dtu.dk/services/SignalP/ |
TMAP | http://ww.embl-heidelberg.de/tmap/tmap_sin.html |
TMpred | http://ulrec3.unil.ch/software/TMPRED_form.htm |
| |
STRUCTURE PREDICTION | |
Bryant-Lawrence | ftp://ncbi.nlm.nih.gov/pub/pkb |
DALI | http://www.embl-heidelberg.de/dali/dali.html |
FSSP | http://www.embl-heidelberg.de/dali/fssp/fssp.html |
SWISS-MODEL | http://expasy.hcuge.ch/swissmod/SWISS-MODEL.html |
TOPITS | http://www.embl-heidelberg.de/predictprotein/phd_help.html |
參考文獻(xiàn)
Akrigg, D., Bleasby, A. J., Dix, N. I. M., Findlay, J. B. C., North, A. C. T., Parry-Smith, D., Wootton, J. C., Blundell, T. I., Gardner, S. P., Hayes, F., Stemberg, M. J. E., Thornton, J. M., Tickle, I. J., and Murray-Rust, P. (1988). A protein sequence/structure database. Nature 335, 745-746.
Anfinsen, C. B., Haber, E., Sela, M., and White, F. H. (1961). The kinetics of the formation of native ribonuclease during oxidation of the reduced poly peptide chain. Proc. Natl. Acad. Sci. U.S.A. 47, 1309-1314.
Appel, R. D., Bairoch, A., and Hochstrasser, D. F. (1994). A new generation of information retrieval tools for biologists: The example of the ExPASy WWW server. Trends Biochem. Sci. 19, 258-260.
Bjellqvist, B., Hughes, G., Pasquali, C., Paquet, N., Ravier, F., Sanchez, J.-C., Frutiger, S., and Hochstrasser, D. F. (1993). The focusing positions of polypeptides in immobilized pH gradients can be predicted from their amino acid sequence. Electrophoresis 14, 1023-1031.
Brendel, V., Bucher, P., Nourbakhsh, I., Blasidell, B. E., and Karlin, S. (1992). Methods and algorithms for statistical analysis of protein sequences. Proc. Natl. Acad. Sci. U.S.A. 89, 2001-2006.
Bryant, S. H., and Altschul, S. F. (1995). Statistics of sequence-structure threading. Curr. Opin. Struct. Biol. 5, 236-244.
Bryant, S. H., and Lawrence, C. E. (1993). An empircal energy function for threading protein sequence through the folding motif. Proteins 16, 92-112.
Burnett, R. M., Darling, G. D., Kendall, D. S., LeQuesne, M. E., Mayhew, S. G., Smith, W. W., and Ludwig, M. L. (1974). The structure of the oxidized form of clostridial favodoxin at 1.9 Å resolution. J. Biol. Chem. 249, 4383-4392.
Chothia, C. (1992). One thousand families for the molecular biologist. Nature 357, 543-544.
Chothia, C., and Lesk, A. M. (1986). The relation between the divergence of sequence and structure in proteins. EMBO J. 5, 823-826.
Cordwell, S. J., Wilkins, M. R., Cerpa-Poljak, A., Gooley, A. A., Duncan, M., Williams, K. L., and Humphery-Smith, I. (1995). Cross-species identification of proteins separated by two-dimensional eletrophoresis using matrix-assisted laser desorption ionization/time-of-flight mass spectrometry and amino acid compsition. Electrophoresis 16, 438-443.
Deléage, G., and Roux, B. (1987). An algorithm for protein secondary structure based on class prediction. Protein Eng. 1, 289-294.
Eisenhaber, F., Persson, B., and Argos, P. (1995). Protein structure prediction: Recognition of primary, secondary, and tertiary structural features from amino acid sequence. Crit. Rev. Biochem. Mol. Biol. 30, 1-94.
Fetrow, J. S, and Bryant, S. H. (1993). New programs for protein tertiary structure prediction. Bio/Technology 11, 479-484.
Garnier, J., Gibrat, J.-F., and Robson, B (1996). GOR method for predicting protein secondary structure from amino acid sequence. Methods Enzymol. 266, 540-553.
Geourjon, C., and Déleage, G. (1995). SOPMA: Significant improvements in protein secondary structure prediction by consensus prediction from multiple alignments. CABIOS 11, 681-684.
Guss, J. M., and Freeman, H. C. (1983). Structure of oxidezd poplar plastocyanin at 1.6 Å resolution. J. Mol. Biol. 169, 521-563.
Hobohm, U., and Sander, C. (1995). A sequence property approach to searching protein databases. J. Mol. Biol. 251, 390-399.
Hofmann, K., and Stoffel, W. (1993). TMbase: A database of membrane-spanning protein segments. Biol. Chem. Hoppe-Scyler 347, 166.
Holm, L., and Sander, C. (1993). Protein structure comparison by alignment of distance matrices. J. Mol. Biol. 233, 123-138.
Holm, L., and Sander, C. (1994). The FSSP database of structurally-aligned protein fold families. Nucl. Acids Res. 22, 3600-3609.
Jones, D. T., and Thornton, J. M. (1996). Poteintial energy functions for threading. Curr. Opin. Struct. Biol. 6, 210-216.
Kneller, D. G., Cohen, F. E., and Langridge, R. (1990). Improvemnets in protein secondary structure prediction by and enhanced neural network. J. Mol. Biol. 214, 171-182.
Knight, A. E. (1994). The Diversity of Myosin-like Proteins (Cambridge: Cambridge University Press).
Kyte, J., and Doolittle, R. F. (1982). A simple method for displaying the hydropathic charactor of a protein. J. Mol. Biol. 157, 105-132.
Lemer, C. M., Rooman, M. J., and Wodak, S. J. (1995). Protein structure prediction by threading methods: Evaluation of current techniques. Protein 23, 337-355.
Levin, J. M., Robson, B., and Garnier, J. (1986). An algorithm for secondary structure determination in proteins based on sequence similarity. FEBS Lett. 205, 303-308.
Levitt, M., and Chothia, C. (1976). Structural patterns in globular proteins. Nature 261, 552-558.
Lupas, A., Van Dyke, M., and Stock, J. (1991). Predicting coiled coils from protein sequences. Science 252, 1162-1164.
Mehta, P. K., Heringa, J., and Argos, P. (1995). A simple and fast approach to prediction of protein secondary structure from multiply aligned sequences with accuracy above 70%. Protein Sci. 4, 2517-2525.
Nielsen, H., Engelbrecht, J., Brunak, S., and von Heijne, G. (1997). Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites. Protein Eng. 10, 1-6.
Papin, D. J. C., Hojrup, P., and Bleasby, A. J. (1993). Rapid identification of proteins by peptide-mass fingeprinting. Curr. Biol. 3, 327-332.
Pauling, L., and Corey, R. B. (1951). The structure of proteins: Tow hydrogen-bonded helical configurations of the polypeptide chain. Proc. Natl. Acad. Sci. U.S.A. 37, 205-211.
Peitsch, M. C. (1996). ProMod and SWISS-MODEL: Internet-based tools for automated comparative protein modelling. Biochem. Soc. Trans. 24, 274-279.
Person, B., and Argos, P. (1994). Prediction of transmembrane segments in proteins utilising multiple sequence alignments. J. Mol. Biol. 237, 182-192.
Rost, B. (1995). TOPITS: Threading one-dimensional predictions into three-dimensional structures. In Third International Conference on Intelligent Systems for Molecular Biology. C. Rawlings, D. Clark, R. Altman, L. Hunter, T. Lengauer, and S. Wodak, Eds. (Cambridge: AAA1 Press), pp. 314-321.
Rost, B. (1996). PHD: Predicting one-dimensional protein structure by profile-based neural networks. Methods Enzymol. 266, 525-539.
Rost, B., Sander, C., and Schneider, R. (1994). PHD: A mail server for protein secondary structure prediction. CABIOS 10, 53-60.
Sander, C., and Schneider, R. (1991). Proteins 9, 56-68.
Smith, W. W., Pattridge, K. A., Ludwig, M. L., Petsko, G. A., Tsernoglou, D., Tanaka, M., and Yasunobu, K. T. (1983). Structure of oxidized flavodoxin from Anacystis nidulans. J. Mol. Biol. 165, 737-755.
Takano, T. (1977). Structure of myoglobin refined at 2.0 ?. J. Mol. Biol. 110, 537-584.
Wilkins, M. R., Pasquali, C., Appel, R. D., Ou, K., Golaz, O., Sanchez, J.-C., Yan, J. X., Gooley, A. A., Hughes, G., Humphery-Smith, I., Williams, K. L., and Hochstrasser, D. F. (1996). From proteins to proteomes: Large-scale protein identification by two-dimensional electrophoresis and amino acid analysis. Bio/Techniques 14, 61-65.
Wilkins, M. R., Lindskog, I., Gasteiger, E., Bairoch, A., Sanchez, J.-C., Hochstrasser, D. F., and Appel, R. D. (1997). Detailed peptide characterization using PeptideMass, a World Wide Web accessible tool. Electrophoresis 18, 403-408.
上海很遠(yuǎn)生物科技發(fā)展有限公司是主要經(jīng)營的產(chǎn)品有elisa試劑盒,生物試劑,標(biāo)準(zhǔn)品,血清,抗體,培養(yǎng)基,歡迎各位前來咨詢。
Tmpred的Web界面十分簡明。用戶將單字符序列輸入查詢序列文本框,并可以指定預(yù)測時采用的跨膜螺旋疏水區(qū)的*小長度和長度。輸出結(jié)果包含四個部分:可能的跨膜螺旋區(qū)、相關(guān)性列表、建議的跨膜拓?fù)淠P鸵约按硐嗤Y(jié)果的圖。如果用G蛋白耦聯(lián)受體(P51684)作查詢序列,將會得到下面的模型:
首 頁| 公司介紹| 產(chǎn)品展示| 公司新聞| 技術(shù)文章| 聯(lián)系我們| 客戶留言
阿儀網(wǎng) 設(shè)計(jì)制作,未經(jīng)允許翻錄必究. 聯(lián)系人:錢經(jīng)理 聯(lián)系電話:13636351217 ICP備案號:滬ICP備11004148號-11 總訪問量:9093254 管理登錄
主營產(chǎn)品:ELISA試劑盒、人ELISA試劑盒、大鼠ELISA試劑盒、小鼠ELISA試劑盒、生物試劑、抗體、血清、進(jìn)口標(biāo)準(zhǔn)品、微生物培養(yǎng)基
掃一掃,關(guān)注我們!