18221656311
聯系人:錢經理
電 話:18221656311
手 機:18221656311
地 址:上海市松江臨港科技城漢橋文化科技園B座
郵 編:200093
傳 真:021-64881400
郵 箱:2885617636@qq.com
阿儀網商鋪:http://www.app17.com/c58469/
手機網站:m.hybiosh.com
閱讀次數:3851 發布時間:2012/9/21 9:41:21
上海恒遠生物科技有限公司主要經營的產品有:elisa試劑盒,生物試劑,標準品,血清,抗體,培養基,細胞,歡迎前來咨詢。
Gregory D.Schuler
National Center for Biotechnology Information
National Library of Medicine. National Institutes of Health
Bethesda. Maryland
引言
在生物學的研究中,有一個常用的方法,就是通過比較分析獲取有用的信息和知識。達爾文正是研究比較了galapagos finches同其它一些物種的形態學特征,從而提出了自然選擇學說。今天,我們對基因和蛋白質序列進行比較,從本質上來講是同達爾文一樣,進行同樣的分析,只不過更加精細,更加詳盡。在這個意義上,我們從核酸以及氨基酸的層次去分析序列的相同點和不同點,以期能夠推測它們的結構、功能以及進化上的聯系。*常用的比較方法是序列比對,它為兩個或更多個序列的殘基之間的相互關系提供了一個非常明確的圖譜。在這一章,我們只討論一下雙重比對,即只比較兩個序列,至于較多的序列即多序列比對,將在第八章介紹。
七十年代以來,DNA測序方法的飛速發展,極大地引發了序列信息量的擴增,從而使可供比較的序列數量呈現爆炸式增長。分子生物學家應該意識到,將未知序列同整個數據庫中的已知序列進行比較分析已經成為他們手中一個強有力的研究手段。在過去的三十年里,即使不提及計算機的應用,序列比較的各種算法也已經發展得越來越迅速,也越來越成熟,已經能夠跟上序列數據庫增長的步伐。今天,我們已經擁有一些小的模式物種的基因組的全序列,還擁有人類基因序列的一些較大的樣品,我們已經進入比較基因組時代,也就是說,對兩個物種進行全基因組序列比較已經不再是一個夢想。
序列比對的進化基礎
進行序列比對的目的是讓人們能夠判斷兩個序列之間是否具有足夠的相似性,從而判定二者之間是否具有同源性。值得注意的是,相似性和同源性雖然在某種程度上具有一致性,但它們是完全不同的兩個概念。相似性是指一種很直接的數量關系,比如部分相同或相似的百分比或其它一些合適的度量,而同源性是指從一些數據中推斷出的兩個基因在進化上曾具有共同祖先的結論,它是質的判斷。基因之間要么同源,要么不同源,絕不象相似性那樣具有多或少的數量關系。如圖7.1所示,比較家鼠和小龍蝦的同源的胰蛋白酶序列,發現它們具有41%的相似性。
由于受到研究進化關系這一目的的影響,大多數比對方法很自然地都希望能夠在某種程度上建立起分子進化的模型。我們通常都假定同源序列是從某一共同祖先不斷變化而來,但事實上,我們無法得知這個祖先序列到底是什么樣子,除非能夠從化石中獲得它的DNA,我們所能夠做到的只是從現存物種中,探求真相。從祖先序列以來所發生的變化包括取代、插入以及缺失。在理想情況下,同源基因或蛋白質序列在相互比較時,殘基之間相互對應,從而使取代的情況很明顯地表現出來。在某些位置,一個序列中擁有某些殘基而另一個序
Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins Edited by A.D.Baxevanis and B.F.F.Ouellette ISBN 0-471-19196-5.pages 145-171. Copyright© 1998 Wiley-Liss. Inc.
列中缺少這種殘基,表明這些殘基是插入到前者或是從后者中丟失的。這些空位在序列比對時用連續的短線填補。如圖7.1,在序列比對中,發現了5個空位。
|------ S-S-------*|
Mouse IVGGYNCEENSVPYQVSLNS-----GYHFCGGSLINEQWVVSAGHCYK-------SRIQV Crayfish IVGGTDAVLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDDYENPSGLQI * Mouse RLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTA Crayfish VAGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNVAPIALPAQ |---- S-S--------| Mouse PPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPG-KITSNMFCVGFLE Crayfish GHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIFDSMICAGVPE ◇ *|-------------S-S------------------| Mouse GGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN Crayfish GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV--
圖7.1、保守位點通常在功能上極為重要。對老鼠的胰蛋白酶(Swiss-Prot P07146)和小龍蝦的胰蛋白酶(Swiss-Prot P00765)作比對,相同的殘基用下標線標出,在比對上方標出的是三個二硫鍵(-S-S),這些二硫鍵中的半胱氨酸殘基極為保守,打星號的殘基的側鏈參與電荷傳遞系統,打菱形符號的活性位點的殘基負責底物的特異性。
在殘基-殘基比對中,很明顯,某些位置的氨基酸殘基相對于其它位置的殘基具有較高的保守性,這個信息揭示了某些殘基對于一個蛋白質的結構和功能是極為重要的。如圖7.1所示,處于活性位點的殘基都是極為保守的,比如形成二硫鍵的半胱氨酸,參與電子傳遞的氨基酸殘基以及決定底物特異性的氨基酸殘基。這些保守的殘基對于保持蛋白的結構與功能非常重要,另一方面,由于歷史原因,某些保守位置對蛋白功能并無太大的重要性。當我們處理非常相近的物種時必須十分小心,因為相似性在某些情況下更多地是歷史的反映而不是功能的反映,比如,mouse和rat的某些序列具有高度的相似性,可能僅僅是因為沒有足夠的時間進行分化而已。盡管如此,系列比對仍然是從已知獲得未知的一個十分有用的方法,比如通過比較一個新的蛋白同其它已經經過深入研究的蛋白,可以推斷這個未知蛋白的結構與功能的某些性質。必須指出的是,不能夠僅僅是通過比較分析這一判據來斷定結論是否正確,結論還必須經過實驗驗證。
當我們發現兩個基因或蛋白質具有驚人的相似性時,我們會認為他們之間具有一段共同的進化歷程,從而我們判斷他們會具有相似的生物學功能,但是,這個推斷在成為結論之前必須經過實驗的驗證。例如,ζ-晶狀物是脊椎動物眼睛里晶狀體基質的組成部分,根據序列相似性的基礎,它在E.coli中的同源物是代謝酶苯醌氧化還原酶(如圖7.2),不管二者的共同祖先如何,它們的功能在進化中已經改變了(Gonzalez et al.,1994)。這就好象火車變成了鐵路餐車,雖然對二者的外部結構的觀察揭示了它們結構的歷史,但是僅僅根據這一信息往往會得出有關其功能的錯誤結論。當一個基因適應了一個新的功能時,保守位置通常也會發生一些形式上的變化,比如,當蛋白具有催化功能時,活性為點的殘基相當保守,而當蛋白功能改變時,這些殘基將會發生漂移。
Human-ZCr MATGQKLMRAVRVFEFGGPEVLKLRSDIAVPIPKDHQVLIKVHACGVNPVETYIRSGTYS Ecoli-QOR ------MATRIEFHKHGGPEVLQA-VEFTPADPAENEIQVENKAIGINFIDTYIRSGLYP
. . ******. . . * …. . . * *.* ..****** *
Human-ZCr RKPLLPYTPGSDVAGVIEAVGDNASAFKKGDRVFTSSTISGGYAEYALAADHTVYKLPEK Ecoli-QOR -PPSLPSGLGTEAAGIVSKVGSGVKHIKAGDRVVYAQSALGAYSSVHNIIADKAAILPAA * ** *.. **.. ** . * **** . . * *. ** Human-ZCr LDFKQGAAIGIPYFTAYRALIHSACVKAGESVLVHGASGGVGLAACQIARAYGLKILGTA Ecoli-QOR ISFEQAAASFLKGLTVYYLLRKTYEIKPDEQFLFHAAAGGVGLIACQWAKALGAKLIGTV . * * ** . * * * .. .* * * * *.***** *** *.* * *..** Human-ZCr GTEEGQKIVLQNGAHEVFNHREVNYIDKIKKYVGEKGIDIIIEMLANVNLSKDLSLLSHG Ecoli-QOR GTAQKAQSALKAGAWQVINYREEDLVERLKEITGGKKVRVVYDSVGRDTWERSLDCLQRR
** . . *. ** .* * ** …. * * * . .. . . . . * * .
Human-ZCr GRVIVVG-SRGTIEINPROTMAKES----SIIGVTLFSSTKEEFQQYAAALQAGMEIGWL Ecoli-QOR GLMVSFGNSSGAVTGVNLGILNQKGSLYVTRPSLQGYITTREELTEASNELFSLIASGVI * .. * * *.. . . . . . .*.** . . * . . * . Human-ZCr KPVIGSQ--YPLEKVAEAHENIIHGSGATGKMILLL Ecoli-QOR KVDVAEQQKYPLKDAQRAHE-ILESRATQGSSLLIP * . * *** *** *. . * .*.
圖7.2、*佳全局比對:對人類ζ-晶狀物(Swiss-Prot Q08257)和E.coli苯醌氧化還原酶(Swiss-Prot P28304)的氨基酸序列進行比對。這是一個由CLUSTAL W程序(Higgins et al., 1996)得到的*佳全局比對結果。在比對下方,星號表示殘基相同,打點表示這個殘基是保守的。
早期的序列比對方法只應用于那些在全長范圍內具有簡單相似性的一些序列。全序列比對就是對序列進行全程掃描,進行比較。以上討論的胰蛋白酶和ζ-晶狀物之間的比較就屬于全序列比對。具有簡單的球形結構域的蛋白一般可以使用全序列比對的策略,以為所有的同源序列尚未經過實質上的變化
蛋白質的模塊性質
許多蛋白質在全程范圍內并不具有相似性,但卻似乎是由眾多的模塊結構域搭建而成。圖7.3描述了這樣的一個例子,如圖所示的是在血凝過程中的兩種蛋白的組成結構,它們是凝血因子XII(F12)和組織型血纖蛋白溶酶原活化因子(PLAT),除了具有絲氨酸蛋白酶活性的催化結構域,這兩種蛋白還具有不同數量的其它結構域單元,包括兩種纖連蛋白重復,一個類似于上皮生長因子的結構域以及一個成為“kringle”域的單元。這些組分可以以不同順序反復出現,組分形式的不同通常是由于整個外顯子交換引起的。由于全程比對建立時,基因的外顯子/內含子結構還沒有被發現,因此全程比對并沒有顧及到上述現象的重要性,這是可以理解的。在大多數情況下,使用局部比對是較為合理的,這種比對方法可能會揭示一些匹配的序列段,而本來這些序列段是被一些完全不相關聯的殘基所淹沒的,因此,操作者應該明白,如果不恰當地使用了全程比對,很可能會掩埋一些局部的相似性。設計局部比對的另外一個很明顯的原因就是在比較一個拼接后的mRNA和它的基因序列時,每個外顯子都應該進行局部比對。
圖7.3、血凝過程中的兩中蛋白的模塊結構:人類組織血纖蛋白溶酶原活化因子以及凝血因子XII的模塊結構的示意圖。標記為Catalytic的模塊在若干種凝血蛋白中是常見的,F1和F2是較為常見的重復模塊,首先在纖連蛋白中被發現。E模塊同表皮生長因子極為類似。通常稱為”Kringle domain”的模塊被標記為K。
點陣描述方法之所以廣泛流行,其部分原因就在于它能夠揭示出擁有多個局部相似性的復雜關系,圖7.4就是應用這種處理后的一個例子。圖中F12和PLAT蛋白質序列使用DOTTER程序進行比較(軟件可見本章結尾列表),其基本思路就是把兩個序列分別作為一個二維坐標系中的兩個坐標軸,在這個坐標系區域內,如果某一點所對應的橫軸坐標和縱軸坐標所對應的兩條序列的殘基相同,則在這個位置上打上標記點,每個點通常都表示在一些小窗口中,序列相似性高于其它一些隔絕的區域(或者由DOTTER程序定義的隔絕區域,由不同的灰色陰影標記)。如果兩個序列在一段區域內很相似,標記點將會連成一條斜線段,將這些線段的位置同圖7.3中兩個蛋白的已知的組成結構相比較是很有價值的,特別是要注意連續反復出現的結構域的出現方式。從PLAT的kringle結構域開始水平掃描,可以發現兩條線段對應于F12序列中的兩個kringle結構域,雖然現在我們已經擁有許多更復雜更精確的方法來尋求局部相似性(下面將會討論),點陣描述方法仍然是一個很流行很有效的描述方法。
圖7.4、點陣序列比較:對人類凝血因子XII(F12:Swiss-Prot P00748)和組織血纖蛋白溶酶原活化因子(PLAT:Swiss-Prot P00750)的氨基酸序列進行打點比較。這個圖由DOTTER程序(Sonnhammer and durban,1996)產生。
在點陣描述方法中,某些形式的點可能會勾勒出一定的路徑,但這需要操作者通過這些信息進行推理,另外一個圖形描述方法即路徑圖提供了更直接明了的比較結果,圖7.5描述了PLAT和PLAU中與EGF相似的結構域之間進行比較時的比對、點陣和路徑圖三種方法的關系。
c
PLAU 90 EPKKVKDHCSKHSPCQKGGTCVNMP—SGPH-CLCPQHLTGNHCQKEK---CFE 137
PLAT 23 ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72
圖7.5、點陣、路徑圖和比對:所有這三種視圖都表示人類尿激酶血纖蛋白溶酶原活化因子(PLAU:Swiss-Prot P00749)和組織血纖蛋白溶酶原活化因子(PLAT:Swiss-Prot P00750)中同EGF相似的模塊的比對結果。a) .整個蛋白都由DOTTER程序進行比較:這里只顯示了同EGF模塊相似的較小區域的放大圖;b)由BLASTP得到的比對的路徑圖;.c).用普通的字符形式顯示的BLASTP空位比對。
要理解路徑圖,先想象一個二維格子,頂點表示序列殘基之間的點(與點陣中表示殘基本身相反),沿線段上連接兩個頂點的邊緣對應兩個序列上匹配的殘基,水平和豎直線段的邊緣對應一個序列擁有而另一個序列上沒有的殘基,換句話說,這些邊緣平臺組成了比對中的空位,全圖對應了所有可能的比對中必須審視的搜索空間,這個空間中每條可能的路徑都對應于一種比對。 *佳比對方法 除了某些很不重要的問題,對于眾多問題而言,比對方法多種多樣,很有必要從中挑選出的一個或幾個方法,這就是把一種比對描述成一個路徑的概念所指。許多計算機科學的問題都可以簡化為通過圖表尋求*優路徑(比如尋找從紐約打電話到舊金山的*有效的途徑)。為了這一目的已經確立了許多行之有效的算法,對每一種路徑都有必要對其進行某種意義上的打分,通常是對沿這一途徑的每一步的增量進行加和。更精密的打分程序將在下文敘述,在這里我們只假定相同殘基加正分,有插入或缺失的殘基就加負分(扣分),根據這一定義,*合適的比對方法會得到分,也就是我們尋找的*佳路徑。
今天我們所熟悉的Needleman-Wunsch算法就是針對尋求*佳序列比對這一問題所設計的動態規劃尋優策略(Needleman and Wunsch,1970)。動態規劃的思想是這樣的,如果一條路徑終止于*佳路徑上的一點,那么這條路徑本身就是起點到這個中間點的*佳路徑,也就是說,任何一個終止于*佳路徑上的一點的次級路徑必然就是終止于這一點的*佳路徑本身。這樣,*佳路徑就可以通過把各個*佳的次級路徑連接而成。在基本的Needleman-Wunsch公式表達中,*佳比對必然對每個序列都由始至終,就是說從搜索空間的左上角直至右下角。換句話說,它搜索全程比對。
然而,對這種基本策略稍作修改就可以實現*佳的局部比對。這種比對的路徑不需要到達搜索圖的盡頭,只需要在內部開始和終結。如果某種比對的打分值不會因為增加或減少比對隊的數量而增加時,這種比對就是*佳的。這個過程依賴于打分系統的性質,就是說某種路徑的打分會在不匹配的序列段位置減少(以下敘述的打分系統合乎這個標準)。當分值降為零時,路徑的延展將會終止,一個新的路徑就會應運而生。這樣,我們會得到許多獨立的路徑,它們以不匹配的序列段為界限而不是像在全程比對中以序列的結尾作為界限。在這些路徑中,擁有分的一個就是*佳的局部比對。
應該意識到,尋優方法總是把*佳的比對方法表達出來,而不在意它是否具有生物學意義,另一方面,尋求局部比對時可能會發現若干個重要的比對,因此,不能僅僅注意*佳的一個。改良的Smith-Waterman(Altschul and Erickson,1986;Waterman and Eggert,1987)算法把尋找K種的但不相互交叉的比對方式*為目標,這些思想后來都在SIM算法(Huang et al.,1990)的發展中得以體現。一個名叫LALIGN(在FASTA程序包中)的程序提供了有用的SIM工具(Pearson,1996)。對于比對多模塊的蛋白質而言,尋找次優比對尤為重要。正如圖7.6所示,LALIGN程序被用來獲得三個的局部比對(比對人類凝血因子IX和因子XII)。一個標準的Smith-waterman算法只會報告出的一個比對,改良的算法會報告出第二和第三的比對方式,從而顯示出功能結構域。
Comparison of: using protein matrix ① 35.4% identity in 254 aa overlap; score: 358 220 230 240 250 260 270 F9 QSFNDFTRVVGGEDAKPGQFPWQVVLNGKVDAFCGGSIVNEKWIVTAAHCVE---TGVKI .:....:::::: : .:. :. ..: ..::.::... :..:::::.. . .. F12 KSLSSMTRVVGGLVALRGAHPYIAALY-WGHSFCAGSLIAPCWVLTAAHCLQDRPAPEDL 370 380 390 400 410 420 280 290 300 310 320 330 F9 TVVAGEHNIEETEHTEQKRNVIRIIPHHNYNAAINKYNHDIALLELDEPL-----VLNSY ::: :... ... .. :. .: . :...... .:.::.::: :.: .:..: F12 TVVLGQERRNHSCEPCQTLAVRSYRLHEAFSPV--SYQHDLALLRLQEDADGSCALLSPY 430 440 450 460 470 480 340 350 360 370 380 F9 VTPICIADKEYTNIFLKFGSGYVSGWGRVFHKGRS-ALVLQYLRVPLVDRATCLRSTKF- : :.:... . .. :.:::. :. . . : :: .::... . : ..
F12 VQPVCLPSGAARPSETTLCQ—VAGWGHQFEGAEEYASFLQEAQVPFLSLERCSAPDVHG
490 500 510 520 530 390 400 410 420 430 440 F9 -TIYNNMFCAGFHEGGRDSCQGDSGGPHVTEVEGTS---FLTGIISWGEECAMKGKYGIY .: .:.:::: ::: :.:::::::: : : .... : ::::::..:. ..: :.: F12 SSILPGMLCAGFLEGGTDACQGDSGGPLVCEDQAAERRLTLQGIISWGSGCGDRNKPGVY 540 550 560 570 580 590 450 F9 TVVSRYVNWIKEKT :.:. :..::.:.: F12 TDVAYYLAWIREHT 600 610 ------------------------------------ ② 34.7% identity in 49 aa overlap; score: 120 100 110 120 130 140 F9 VDGDQCESNPCLNGGSCKDDINSYECWCPFGFEGKNCELDVTCNIKNGR .....: .::::.::.: . . : :: :..: :..:.. . .:: F12 LASQACRTNPCLHGGRCLEVEGHRLCHCPVGYTGPFCDVDTKASCYDGR 180 190 200 210 220 ------------------------------------- ③ 33.3% identity in 36 aa overlap; score: 87 100 110 120 F9 DQCESN-PCLNGGSCKDDINSYECWCPFGFECKNCE :.:... :: .::.: . .. .: :: ..:..:. F12 DHCSKHSPCQKGGTCVNMPSGPHCLCPQHLTGNHCQ 100 110 120 130 --------------------------------------
圖7.6、*佳和次佳的局部比對:在使用LALIGN對人類凝血因子IX(F9;Swiss-Prot 900740)和凝血因子XII(F12;Swiss-Prot P00748)進行比對時發現了三個*佳的比對結果。
取代分和空位處罰
剛才描述的打分系統僅僅使用于簡單的匹配/不匹配的情況,但是在比較蛋白質時,我們可以用取代矩陣來增強弱勢比對的敏感性。很顯然,在相關蛋白質之間,某些氨基酸可以很容易地相互取代而不用改變它們的生理生化性質,這些保守取代的例子包括異亮氨酸(isoleucine)和頡氨酸(valin)(體積小,疏水),絲氨酸(serine)和蘇氨酸(threonin)(極性)。在計算比對分之時,相同的氨基酸打分會高于取代的氨基酸,而保守的取代打分高于非保守變化,換句話說,設計了一系列的分值,而且,在比對非常相近的序列(mouse和rat的同源基因)以及差異極大的序列(mouse和 yeast的基因)時會設計出不同系統的分值,考慮到這些因素,使用取代矩陣會極為有利,在這個矩陣中,任何氨基酸配對的分值會一目了然。
個廣泛使用的*優矩陣建立在進化的點突變模型上(PAM)(Dayhoff et al.,1978)。一個PAM就是一個進化的變異單位即1%的氨基酸改變,這并不意味著經過100次PAM后,每個氨基酸都發生變化,因為其中一些位置可能會經過多次改變,甚至可能變回到原先的氨基酸,因此另外一些氨基酸可能不發生改變。如果這些變化是隨機的,那么每一種可能的取代頻率僅僅取決于不同氨基酸的出現的頻率(稱為背景頻率)。然而,在相關蛋白中,已經發現的取代頻率(稱為目標頻率)大大地傾向于那些不影響蛋白質功能的取代,換句話說,這些點突變已經被進化所接受。Dayhoff同合作者們次使用了log-odd處理,在這種處理中,矩陣中的取代分值同目標頻率于背景頻率的比值的自然對數成比例。為了評估目標頻率,人們用非常相近的序列(比對時不需要取代矩陣)來收集對應于一個PAM的突變頻率,然后將數據外推至250個PAM,PAM250矩陣結果如圖7.7。雖然Dayhoff等人只發表了PAM250,但潛在的突變數據可以外推至其它PAM值,產生一組矩陣,在比較差異極大的序列時,通常在較高的PAM值處得到*佳結果,比如在PAM200到250之間,較低值的PAM矩陣一般使用于高度相似的序列(Altschul,1991)。
圖7.7、PAM250分值矩陣。
用同樣方式建立了BLOSUM取代矩陣,但在評估目標頻率時,應用了不同的策略,基本數據來源于BLOCKS數據庫,其中包括了局部多重比對(包含較遠的相關序列,同在PAM中使用較近的相關序列相反)。雖然在這種情況下,沒有進化模型,但它的優點在于可以通過直接觀察獲得數據而不是通過外推獲得。同PAM模型一樣,也有許多編號的BLOSUM矩陣,這里的編號指的是序列可能相同的水平,并且同模型保持獨立性。舉例來說,如圖7.8所示的BLOSUM的矩陣,至少有62%的相同比例的序列被組合成一個序列,因此取代頻率更加受到那些比空位變化還大的序列的極大影響,取代矩陣在處理高度相似序列時使用高的閾值(直至BLOSUM90),處理差異大的序列時使用低的閾值(直至BLOSUM30)。
圖7.8、BLOSUM62分值矩陣。
為了補償那些插入或缺失,可以在比對中引入一些空位,但不能太多,否則會使分子變得面目全非。每引入一個斷裂,比對的分值都會有所扣除,對于這些斷裂有許多罰分的規則。*常用的一個就是用一個附加的罰分比例去乘空位的長度,其中有兩個參數:G(有時稱為斷裂開放懲罰)和L(斷裂延伸懲罰),對于一個長度為n的空位,扣分總數為G+Ln,但在選擇空位參數時,在很大程度上是唯經驗的,所選的分值很少會有理論上的支持。通常來說,對于G會選擇一個高分(在BLOSUM62中約為10-15),對于L會選擇一個相對的低分(大約1-2),選擇這個范圍是因為插入和變異是很罕見的,但當它們一旦發生,就會影響到一系列附近的殘基。
比對的統計學顯著性 對任何一個比隊,我們都可以計算一個分值,但重要的是需要判定這個分值是否足夠高,是否能夠提供進化同源性的證據。在解決這一問題時,對于偶然出現的分,有些思想很有幫助,但是,沒有一個數學理論能夠描述全程比對的分值分布,其中一個能評估其重要性的方法就是將所得的比對分值和那些同樣長度和組成的隨機序列進行比較。
但是,對于局部比對而言,情況要好得多。正如問題總是從簡單開始,人們首先注意到那些沒有多少空位得局部比對,這種比對被稱為高分片段配對(HSP)。HSP通常用改進得Smith-waterman算法或簡單地使用大的空位罰分方法獲得。Karlin-Altschul統計學為描述隨機的HSP分值的分布提供了數學理論,概率密度函數形式被稱為極值分布,這很值得注意,因為,更普遍更一般的分布的應用可能會夸大它的重要性,把一個已知得比對分值S同預期的分布相關聯可能會計算出P值,從而給出這個分值的比對顯著性的可能性。通常,P值越趨近于零,分值越有意義。
相關的變量E表示分值不低于S得可能的比對數量,而極值分布由兩個參數表示,即K和λ,可以得到解析解,并且對于任何打分系統以及背景頻率都是固定的。比對的顯著性依賴于搜索空間的大小(就像在草堆中找針依賴于草堆的大小)。搜索空間的大小由序列長度計算出來,但由于統計的正確性,這個長度必須由局部比對的預期長度進行校正,以免出現邊緣效應(Altschul and Gish,1996),需要進行這種校正還因為在搜索空間邊緣開始的比對在達到一個有效分值之前就會超出序列的范圍。
把比對局限于沒有空位的基礎之上,使問題大大簡化,但是卻脫離分子生物學的實際情況。實際上,要建立一個插入和缺失的精確模型需要空位,但如果空位相對較少,在這些空位之間仍然可以獲得高分值區域,有代表性的是可能會獲得緊密相鄰的HSP,在這種情況下,從總體上去評估它的顯著性是較為合理的,也許,每個片段并不顯得很重要,但是幾個片段同時出現就不太像是偶然事件了。Karlin-Altschul加和統計學可以計算N個HSP的統計值,這個方法的實質是把N個*佳片段的分值進行加總,從而計算事件偶然發生的可能性,其它一些論據也被用來確認這些分值只是在片段與比對一致的情況下進行加總。雖然加總的分值分布與HSP分值值有差異,仍然可以得到解析解。
*后,仍然有必要對局部排隊的顯著性進行合理評估,其中包括了模型中的空位。正如同傳統的Smith-waterman比對,雖然沒有先驗的證據,人們仍然認為這些比對的分值也應該遵循極值分布,但是,分布參數K和λ的值不能通過計算獲得,當然,通過模型獲得這些值的方法已經被大大地發展了。
數據庫中的相似性搜索
上述討論主要集中于那些較為特別的匹配的序列,但是對于一個新發現的序列,我們無法得知用什么序列同它進行比對,數據庫相似性搜索使我們能夠從數據庫中存在的數十萬個序列中挑選出可能同感興趣的序列有關聯的序列,這個方法有時會導致意想不到的收獲。用這種策略獲得成功的個例子是人們因此發現病毒腫瘤基因v-sis是細胞中編碼血小板派生生長因子的基因的一個變體形式(Doolittle et al., 1983; Waterfield et al., 1983)。那個時候,序列數據庫還不大,因此這個發現足以另人感到萬分驚奇。然而今天如果進行數據庫搜索并且一無所獲的話,那就更另人感到費解了。如同其它幾個小的物種基因組一樣,酵母saccharomyces cerevisiae的基因組全序列已經被測定出來。在脊椎動物中,大量的部分基因諸如人類和老鼠的基因都已經被測定并存入基因庫(genebank)中,這也導致了表達序列標簽(EST)工程。EST片段的主要用途是在數據庫搜索中,用EST片段進行cDNA克隆可以分離出感興趣的基因,包括其它模型生物中的同源基因。*近報導的多重內分泌腺腫瘤(MENI)基因就和人與老鼠的多個EST片段相匹配,其中在MENI發表前一年就已經入庫保存了(Chandrasekharappa et al., 1997)。
在數據庫搜索中,基本操作就是將查詢序列和數據庫中的主題序列作比對。比對結果是排列好的hit list,后面是一系列的單獨的比對情況,以及不同的分值和統計值(如圖7.9)。下文將會詳細介紹選擇不同的搜索程序、序列數據庫和不同的參數都會對搜索產生影響,而且還有不同的界面,比如操作臺命令、WWW形式和E-mail等。圖7.10給出了一個使用Web界面進行數據庫搜索的例子。這種形式的一個優點就是對任何一個感興趣的比對,全部注解和文獻應用都可以通過超文本簡單方便地聯接至原始的序列條目和相關的在線文獻。
a
The best score are: initn initl opt z-sc E(59248)
gi|1706794|sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE 996 996 996 1350.4 0
gi|1703339|sp|P49776|APH1_SCHPO BIS(5’-NUCLEOSYL) 431 395 395 536.2 2.8e-23
gi|1723425|sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 290 171 316 428.1 2.9e-17 gi|1724021|sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 178 178 184 250.7 2.2e-07 gi|417124|sp|Q04344|HIT_YEAST HIT1 PROTEIN (ORF U 159 104 157 216.2 1.8e-05 gi|418447|sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 139 139 140 195.0 0.00028 gi|1351828|sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 132 132 133 183.9 0.0012 à gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHA 97 97 128 169.7 0.0072 gi|418446|sp|P32083|YHIT_MYCHR HYYPOTHETICAL 13.1 102 102 119 166.8 0.01 gi|1708543|sp|P49773|IPK1_HUMAN PROTEIN KINASE C 87 87 118 164.5 0.0014 gi|1724020|sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 131 82 117 161.5 0.02 gi|1724019|sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT- 98 98 116 161.5 0.02 gi|1170581|sp|P16436|IPK1_BOVIN PROTEIN KINASE C 86 86 115 160.4 0.023 gi|1730188|sp|Q03249|GAL7_MOUSE GALACTOSE-1-PHOSP 87 87 120 159.3 0.027 gi|1177047|sp|P42856|ZB14_MAIZE 14 KD ZINC-BIODIN 132 79 112 156.3 0.04 gi|1209081|sp|P07902|GAL7_HUMAN CALACTOSE-1-PHOSPH 78 78 117 154.8 0.048 gi|1177046|sp|P42855|ZB14_BRAJU 14 KD ZINC-BINDIN 115 76 110 154.5 0.05 gi|140775|sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 115 65 109 152.6 0.064 gi|1169852|sp|P31764|GAL7_HAEIN GALACTOSE-1-PHOSP 62 62 104 137.9 0.42
gi|113999|sp|P16550|APA1_YEAST 5’,5’’’-P-1,P-4-TE 108 66 103 137.1 0.47
b >>gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHATE UR (379 aa) initn: 97 init1: 97 opt: 128 z-score: 169.7 E(): 0.0072 Smith-Waterman score: 128; 30.8% identity in 107 aa overlap 10 20 30 FHIT MSFRFG-QHLIKPSVVFLKTELSFALVNRKPV ...: X.:.. . : .: ..:: : GAL7 VWASNFLPDIAQREERSQQTYHNQHGKPLLLEYGHQELLRKERLVLTSEYWIVLVPFWAV 190 200 210 220 230 240 40 50 60 70 80
FHIT VPGHVLVCPLRPVERFHDLRPDEVADLFQTTQRVGTVVEKHFHGTSLTFSM—QDGP---
: ..:. : : :.:. .: : : :: .: ... : .. X. ::. .:: . .: GAL7 WPFQTLLLPRRHVQRLPELTPAERDDLASTMKKLLTKYDNLFE-TSFPYSMGWHGAPMGL 250 260 270 280 290 300 90 100 110 120 130 140 FHIT EAGQTVKH--VHVHVLPRKAGDFHRNDSIYEELQKHDKEDFPASWRSEEEMAAEAAALRV ..: : : .:.: : GAL7 KTGATCDHWQLHAHYYPPLLRSATVRKFMVGYEMLAQAQRDLTPEQAAERLRVLPEVHYC 310 320 330 340 350 360
圖7.9:進行FASTA搜索的輸出:(a)用人類組氨酸三聯體蛋白作為(Swiss-Prot P.49789)查詢序列,以Swissprot數據庫為基礎,進行FASTA搜索所得到的命中結果,在這個操作中,參數ktup=1;(b).以數據庫中的一個條款(在命中列表中以箭頭標出)為查詢序列(其中包含老鼠的1-磷酸-半乳糖尿苷酸轉移酶序列)所得到的*佳局部比對結果。雖然在這里,序列的相似性不太好,但是這些蛋白在結構上都顯示了很好的相似性。
7.10:在WWW上進行數據庫相似性搜索:NCBI數據庫搜索的高級BLAST形式,在Web網頁上容易實現。查詢序列應該由剪切板中粘貼到的文本框中,(在本圖中,框中顯示的是U43746序列)。搜索中另外一些基本的元素包括搜索程序的名字以及數據庫的名字,這兩個元素都可以通過下拉框選擇。如果需要的話,可以設定附加的選項參數。這里還有一個基本的BLAST形式,當然高級的選項參數被隱藏起來了。*后,簡單地點擊一下“Submit”鍵,提交請求后就可以開始搜索了。 如今的序列數據庫非常之大,并且正以爆炸式的速度不斷增長,在這種條件下,利用動態程序的方法直接進行數據庫搜索已經變得不切實際。一個解決方法就是使用大型計算機和相關的特殊硬件,但是我們要討論的目的是普通計算機能干些什么。當*佳方法不可行時,我們必須求助于那些啟發式方法,這些方法充分利用了近似值以加快序列比較,但同時會在錯過正確比對這一方面冒一點險。
有一種啟發式方法建立在這樣的策略之上,它將序列分解成由連續字母組成的短串(稱為字串)。基于字的方法,在八十年代早期由Wilbur和Lipman提出,并且廣泛使用于今天的搜索程序之中。其基本思想是這樣的,一個能夠揭示出正確的序列關系的比對至少包含一個兩個序列都擁有的字串,把查詢序列中的所有字串編成索引,并且在數據庫掃描中查詢這些索引,這些擊中的字串就會很快被鑒定出來。
FASTA
FASTA程序是個廣泛使用的數據庫相似性搜索程序。為了達到較高的敏感程度,程序引用取代矩陣實行局部比對以獲得*佳搜索。但眾所周知,使用這種策略會非常耗費工作時,為了提高速度,在實施耗時的*佳搜索之前,程序使用已知的字串檢索出可能的匹配。在速度和敏感度之間權衡選擇依賴于ktup參數,它決定了字串的大小。增大ktup參數就會減少字串命中的數目,也就會減少所需要的*佳搜索的數目,提高搜索速度。缺省的ktup值在進行蛋白比較時選擇2,但是在間距較大的情況下,將ktup值降為1較為理想。
FASTA程序并不會研究每一個遇到的字串命中,但在一開始會尋找包含若干個附近的命中的片段。使用啟發式方法,這些片段會被賦予分值,的一個在輸出時會顯示為init1分值,這若干個片段會被組合起來,一個新的initn分值會從中計算出來。然后在的初始片段中局限于其對角線帶上,會進行一次包含空位的局部比對以評估*可能的匹配。這個*佳比對的分值會在輸出時顯示為opt分值。對*后報導的比對來說,還要進行一次全程的Smith-Waterman比對。圖7.9b顯示了一個例子。對數據庫中的每一個序列都只會由一個*佳的比對,但是,如果蛋白質中包含若干個模塊,一些很有意義的比對就會被錯過,匹配序列還必須由LALIGN程序作進一步分析。
從2.0版本開始,FASTA對每一個檢索到的比對都提供一個統計學顯著性的評估。程序為隨機分值假定了一個極值分布,但是改寫了概率密度函數的形式,其中預期的分值與數據庫中的序列長度的自然對數呈線形關系,這樣,可以使用簡單的線形回歸函數計算常規的比對的z值。*后,計算出預期的E值,從而給出那些z值不小于已知值的隨機比對的預期數目。
BLAST
BLAST程序對數據庫搜索進行了大量的改良,提高了搜索速度,同時把數據庫搜索建立在了嚴格的統計學基礎之上。但是,為了達到這一目的,仍然需要權衡選擇,也就是說,局部比對的限制條件可能不包括空位。這個限制條件對應用Karlin-Altschul統計學極為有利,另一方面,既然空位沒有明確地放在模型中,結果就不會象人們期望的那樣接近于預期的比對。這并不是說插入和確實會妨礙匹配,在大多數情況下,比對僅僅會被分解為若干個明顯的HSPs。無論如何,老版本的BLAST程序(1.4以前)的局限性在新版本中已經被消除了,新版本在對待空位問題上有著明確的作法(在下面討論)。
對于一個即將被BLAST程序報告的比對,其中必然包含一個HSP,其分值不小于終止值S。這個終止值因人而異,但是使用時是很難知道其合適值的。因為程序基于Karlin-Altschul統計學,人們可以指明一個預期的終止E值,然后軟件會在考慮搜索背景的性質的基礎上(比如數據庫的大小,取代矩陣的性質)計算出正確的S值。BLAST的一項創新就是鄰近字串的思想。這個協定不需要字串確切地匹配,在引入取代矩陣的情況下,當主題序列中的字串有一個分值T時,BLAST就宣布找到了一個命中的字串。這個策略允許較長字串長度(W)(為了提高速度),而忽略了敏感度。于是,T值稱為制衡速度和敏感度的臨界參數,而W是很少會變化的。如果T值增大,可能的命中字串的數目就會下降,程序執行就會加快,減小T值會發現較遠的關系。
發生一個字串命中后,程序會進行沒有空位的局部尋優,比對的分值是S。將比對同時向左方和右方延伸并將分值加和就會得到結果。當遭遇一系列的分值時,加和的分值就會下降,這時,分值就不再可能反彈回S值。這個發現為附加的啟發式知識提供了依據,因此,當分值的降低(與遭遇的值相比)超過分值下降閾值X時,命中的延伸就會終止。于是,系統回減少毫無指望的命中延伸,繼續進行其它操作。
使用BLAST
可以通過e-Mail、WWW或控制臺命令操作BLAST程序,無論如何,一次數據庫搜索包括四種基本元素:BLAST程序的名稱,數據庫名稱,查詢序列和大量的合適的參數,很顯然,當以上元素發生變化時,搜索的細節就會隨之改變。為了避免混淆,我們把BLAST功能性描述為普通名詞,避免提及專有工具。讀者可能會要參考使用到的專有工具的有關內容。要得到關于用e-Mail執行BLAST搜索的介紹,給blast@ncbi.nlm.nih.gov發一封含有“HELP”的郵件;在WWW工具中,幫助是在線的;如果使用Unix系統,使用man blast可以獲得詳細的幫助信息。
表7.1、BLAST程序:
程序 | 數據庫 | 查詢 | 內容 |
Blastp | 蛋白質 | 蛋白質 | 使用取代矩陣尋找較遠的關系:可以進行SEG過濾。 |
Blastn | 核苷酸 | 核苷酸 | 尋找較高分值的匹配,對較遠關系不太適用。 |
Blastx | 核苷酸(翻譯) | 蛋白質 | 對于新的DNA序列和ESTs的分析極為有用。 |
Tblastn | 蛋白質 | 核苷酸(翻譯) | 對于尋找數據庫中沒有標注的編碼區極為有用。 |
tblastx | 核苷酸(翻譯) | 核苷酸(翻譯) | 對于分析EST極為有用。 |
幾種不同的BLAST可以通過查詢序列和數據庫序列的類型來加以區分:blastp比較的是查詢蛋白同蛋白質數據庫;相應于核酸序列的程序是blastn;如果序列類型不同,DNA序列可以被翻譯成蛋白序列(所有六種閱讀框架)后同蛋白序列進行比較,blastx比較一個DNA的查詢序列同一個蛋白質序列庫,其結果對分析新序列和ESTs很有用;對于一個基于核酸序列庫的蛋白質查詢,tblastn程序對于尋找數據庫中序列的新的編碼區很有用;*后一個只在特殊情況下使用(在這里介紹只是出于完整的考慮),tblastx將DNA查詢序列和核酸序列庫中的序列全部翻譯成蛋白質序列,然后進行蛋白質序列比較,這個程序主要應用于ESTs比較,尤其是當人們懷疑到其中有可能的編碼區,即使并沒有確切地發現這一區域。
所有這些程序使用服務器上的序列數據庫,從而不需要本地的數據庫,表7.2和7.3陳列了一些BLAST使用的蛋白質和核酸的序列數據庫。對于常規的搜索,nr數據庫擁有大量的氨基酸和核酸序列,同時合并相同的序列以減少冗余度。為了檢測在過去30天里提出或更新的序列,提供了一個稱為“month”的數據庫。不管是nr還是month,都是日日更新。表7.2和7.3中列出的其它一些數據庫在一些特別的環境里十分有用,比如在比較模型物種(酵母和大腸桿菌)的全序列時,搜索特別類型的序列(dbest或dbsts),或檢測是否存在污染或問題序列(vector,alu或mito)。
表7.2、使用BLAST的蛋白序列數據庫:
數據庫 | 描述 |
Nr | 融合了Swiss-Prot,PIR,PRF以及從GenBank序列編碼區中得到的蛋白質和PDB中擁有原子坐標的蛋白質,絕非多余。 |
Month | Nr的字集,每月(30天)更新,搜集了過去30天中的*新序列。 |
Swissprot | Swiss-Prot數據庫。 |
Pdb | 擁有三維空間結構的原子坐標的氨基酸序列庫。 |
Yeast | 由酵母基因組中基因編碼的全套蛋白質。 |
ecoli | 有大腸桿菌基因組中基因編碼的全套蛋白質。 |
表7.3、使用BLAST的核苷酸序列數據庫:
數據庫 | 描述 |
Nr | 極有價值的GenBank,排除了EST,STS和GSS部分。 |
Month | Nr的字集,每月(30天)更新,搜集了過去30天中的*新序列。 |
Est | Genbank中的EST部分(expressed sequence tags, 表達序列標簽)。 |
Sts | Genbank中的STS部分 (sequence tagged sites, 序列標簽位點)。 |
Htgs | Genbank中的HTG部分 (high throughput genomic sequences, 高容量基因組序列)。 |
Gss | GenbankGSS(genome survey sequences,基因組測定序列)。 |
Yeast | 酵母的全基因組序列。 |
Ecoli | 大腸桿菌的全基因組序列。 |
Mito | 脊椎動物線粒體的全基因組序列。 |
Alu | 搜集了靈長類動物的Alu重復序列。 |
vector | 搜集了流行的帶菌體的克隆。 |
一個BLAST搜索的例子會介紹搜索輸出的不同元素。如圖7.11所示的例子,一種Alzheimer疾病感受性蛋白質的氨基酸序列(由GenBank中L43964翻譯)作為查詢序列同dbest數據庫用tblastn進行搜索。進行這么一次搜索的目的是要鑒定模型生物中可能的同源物的cDNA克隆,從而為在人類中無法進行的實驗打開方便之門(相應于EST序列的克隆是已經實現的)。數據庫中的每一個EST序列在同alzheimer蛋白質序列比較以前,都已經按照所有的閱讀框架得到翻譯。圖7.11a顯示了此次搜索得到部分命中的列表,前兩列給出了每一個顯著性匹配的序列的標識和描述。盡管瀏覽時定義被縮短了,我們仍然可以看到老鼠和果蠅的序列都被包含進來了。下一列給出了得到*佳HSP(即使其它閱讀框架翻譯結果也會達到命中)的閱讀框架。后面三列給出了*佳HSP的分值、p值總和及p值計算時使用到的HSP數目。
包含一種果蠅EST(由箭頭標出)的比對在圖7.11b中得以顯示。其中包含了兩個HSP,并且顯示了每一個的分值,EST的概念性翻譯同查詢序列并排顯示。相同的氨基酸殘基在兩個序列之間回顯,+表示兩個不同殘基匹配的分值是正數(比如保守取代)。從不同閱讀框架得到的兩個HSP是顯著的并且彼此相鄰,這一點從序列坐標就可以看出來。這種形式表示EST序列的一種閱讀框架是錯誤的,并且對于用相對容錯性的工具進行序列單向通行數據分析時極為有效。
a
sum
Reading High Probability Y
sequence producing High-scoring Segment Pairs: Frame Score P(N) N
gb|AA056325|AA056325 zf53a03.sl Soarea retina N2b4HR H... +3 724 3.4e-102 2
gb|T03796|T03796 IBIB913 Infant brain,Bento Soares...+3 567 2.6e-78 2
gb|AA260597|AA260597 mx76g09.r1 Soares mouse NML Mus m...+2 239 4.9e-53 4
gb|H86456|H86456 yt01b06.s1 Homo sapiens cDNA clon...+2 323 4.3e-52 4
gb|N24576|N24576 yx72a04.s1 Homo sapiens cDNA clon...+1 365 5.5e-47 2
gb|AA265273|AA265273 mx91c12.r1 Soares mouse NML Mus m...+2 239 6.4e-41 2
gb|AA237206|AA237206 mx18e01.r1 Soares mouse NML Mus m...+3 159 1.5e-40 3
gb|R146001|R146001 yf34b10.r1 Homo sapiens cDNA clon...+1 278 1.5e-40 2
gb|AA200706|AA200706 mu03f12.r1 Soares mouse 3NbMs Mus...+1 343 1.9e-40 1
gb|AA045064|AA045064 zk77f12.s1 Soares pregnant ulerus...-3 269 2.3e-37 2
gb|AA087434|AA087434 mm28a04.r1 Stratagene mouse skin....+3 322 3.6e-37 1
gb|R05907|R05907 ye93h02.r1 Homo sapiens cDNA clon...+3 252 7.7e-37 2
gb|AA268820|AA268820 vb01c10.r1 Soares mouse NML Mus m...+2 234 7.7e-35 2
gb|AA162310|AA162310 mn44a07.r1 Beddington mouse embry...+1 134 8.3e-34 3
gb|N27820|N27820 yx54h10.r1 Homo sapiens cDNA clon...+3 154 7.8e-29 2
gb|AA234907|AA234907 zs38f03.r1 Soares NhHMPu S1 Homo... +2 155 1.8e-28 2
gb|AA231081|AA231081 mw11d11.r1 Soares mouse 3NME12 5... +3 134 8.8e-23 2
gb|H91652|H91652 ys80c04.s1 Homo sapiens cDNA clon... -3 215 3.7e-22 1
gb|H50532|H50532 yo30h08.s1 Homo sapiens cDNA clon... -2 211 1.2e-21 1
gb|AA150236|AA150236 zl03c01.r1 Soares pregnant uterus...+1 159 5.0e-21 2
gb|AA144382|AA144382 mr15d12.r1 Soares mouse 3NbMS Mus...+3 159 7.6e-21 2
à gb|AA390557|AA390557 LD09473.5prime LD Drosophila Embr...+3 130 1.6e-20 2
gb|AA210480|AA210480 mo86b03.r1 Beddington mouse embry...+2 128 2.0e-20 3
gb|H19021|H19021 ym44b02.r1 Homo sapeins cDNA clon...+2 134 5.9e-20 2
gb|AA283084|AA283084 zt14g09.s1 Soares NbHTGBC Homo sa...-3 175 2.3e-19 2
gb|H25759|H25795 y149d01.s1 Homo sapiens cDNA clon...-2 185 5.0e-18 1
gb|H33787|H33787 EST110123 Rattus sp.cDNA 5’ end..... +1 137 6.7e-17 2
gb|AA201988|AA201988 LD05058.5prime LD Drosophila Embr...+3 175 5.5e-15 1
gb|AA263526|AA263526 LD06652.5prime LD Drosophila Embr...+1 167 7.0e-14 1
gb|R46340|R46340 yj52c04.sl Homo sapiens cDNA clon...-1 151 5.6e-13 1
gb|AA246675|AA246675 LD05588.5prime LD Drosophila Embr...+2 117 2.8e-10 2
gb|AA282899|AA282899 zt14g09.r1 Soares NbHTGBC Homo sa...+3 118 6.1e-07 1
gb|AA247705|AA247705 csh0941.seq.F Human fetal heart,....+3 56 0.0039 2
b
gb|AA390557|AA390557 LD09473.5prime LD Drosophila Embryo Drosophila
melanogaster cDNA clone LD09473 5’
Length – 659
Score – 130 (60.4 bits), Expect – 1.6e-20, Sum P(2) – 1.6e-20
Identities – 25/60 (41%), Positives – 40/60 (66%), Frame - +3
Query: 105 TIKSVRFYTEKNGQLIYTTFTEDTPSVGQRLLNSVLNTLIMISVIVVMTIFLVVLYKYRC 164
+I S+ FY + L+YT F E +P + +++ ++LI++SV+VVMT L+VLYK RC
sbjct: 480 SINSISFYNSTDVYLLYTPFHEQSPEPSVKFWSALGSSLILMSVVVVMTFLLIVLYKKRC 659
Score – 117 (54.3 bits), Expect – 1.6e-20, Sum P(2) – 1.6e-20
Identities –23/30 (76%), Positives – 27/30 (90%), Frame - +1
Query: 75 LEEELTLKYGAKHVIMLFVPVTLCMIVVVA 104
+EEE LKYGA+HVI LFVPV+LCM+VVVA
sbjct: 391 MEEEQGLKYGAQHVIKLFVPVSLCMLVVVA 480
圖7.11、一次TBLASTN搜索的輸出:在這次TBLASTN搜索中,以dbest數據庫為基礎,以阿爾茨海默氏病(即進行性老年性癡呆)基因(Genbank 檢索號碼L43964)的蛋白質產物為查詢序列,目的是為了從其它那些可能同人類基因有同源性的物種中鑒定出一些cDNA克隆。(a).命中列表的一部分顯示了其中的25個命中。每個檢索出來的序列都由它們的GenBank檢索號碼以及一部分定義行組成。其中包括了它們的閱讀框架和*佳HSP分值,同時顯示的還有一個偶然命中的可能性的加和。*后一列中的數據給出了在計算加和的可能性時所涉及到的HSP的數量。在這個命中列表中可以見到至少10條從老鼠中得到的序列和一條從果蠅中得到的序列; (b).同果蠅的EST序列(GenBank AA390557)理論上的翻譯序列匹配的結果。找到了兩個HSPs,每一個使用不同的閱讀框架。相同的殘基在兩行序列中間的相應位置回顯,而“+”符號標記著那些不相同但是其取代分值是正分的殘基。
BLAST的*新改進
*近發布的BLAST程序的修訂版提高了搜索速度、敏感度和實用性。這個完全重新寫過的軟件包指定為2.0版本(避免同WU-BLUST混淆,這個軟件是由華盛頓大學設計的,有時稱為BLAST2)。應該注意到,在發布的2.0版本中,命令行的參數有很大改變,其中一些常用的參數列在表7.4中。
一個改進來自于引發一個字串命中的延伸的標準。現在,在一個需要考慮的殘基的窗口里必須找到兩個字串命中。使用這種策略提高了搜索速度,因為大量隨機的字串命中將會被忽略,并且很有可能得到一個顯著性良好的比對。第二個改進是能夠明確地而不是含蓄地處理空位。除了幫助使用者更加容易地理解產生的比對,新版本還提高了較遠關系的敏感性,其中可能會包含許多插入和缺失。比較從尋找無空位的HSP這一標準策略開始,然后,這一比對中獲得分區域的中心一列被鑒定出來,接著,從這一點向前和向后延伸,通過賦值的路徑進行無空位局部比對的搜索。如同*初的HSP搜索,一個分值下降的閾值X將會促使放棄那些遭遇大量負的取代分值的路徑。對剩余的HSP進行反復的這種操作,將會揭示另外的含空位的比對,并保證它們同已經報告的部分不會相交。這個系統不同于FASTA所采取的策略,FASTA只會產生一個*佳的比對。
表7.4、一些對于BLAST很有用的參數值:
參數名稱 | BLAST 1.4 | BLAST 2.0 |
數據庫 (database) | 參數 | -d database |
查詢序列文件 (query sequence file) | 第二參數 | -I filename |
期望閾值E (expectation cutoff) | E = number | -e number |
HSP分值閾值S (HSP score cutoff) | S = number | -s number |
字串分值閾值T (word score cutoff) | T = number | -f number |
多命中窗口A (multihit window) | n/a | -A number |
打分矩陣 (score matrix) | -matrix matrix | -M matrix |
低復雜度過濾 (low-complexity filtering) | -filter seg | -F |
空位開放罰分 (gap opening penalty) | n/a | -G number |
空位拓展罰分 (gap extension penalty) | n/a | -E number |
PSI-BLAST反復 (PSI-BLAST iterations) | n/a | -j number |
對于那些弱勢的但是顯著性較強的比對,進行較高敏感性的數據庫搜索的一個方法就是使用諸如profile(表頭輪廓)的數據結構(Gonzalez et al., 1994)。這個策略可能曾經被認為是個進行數據庫搜索的比較的課題,但是BLAST的一個新特性簡化了基于profile的搜索工作。一個profile可能會被理解為一個列表,其中列出了在一個保守的蛋白質結構域中每一個位點發現每一種氨基酸殘基的頻率。建立一個profile可能是很乏味的,其信息是從那些擁有我們感興趣的蛋白質結構域的多序列比對中得到的,這些比對必須預先準備好,而且,在這里有許多技術上的問題還沒有解決。
位點特性反復BLAST(PSI-BLAST)是指BLAST2.0的一個特性,其中一個profile被不斷組織并且不斷精練。這個過程開始于使用一個簡單查詢序列的一個標準的數據庫搜索。在這個初始的搜索結果中,一個profile從高度顯著的比對中獲得,然后這個profile在第二輪的數據庫搜索中使用。如果需要的話,這個過程會反復進行,并且在操作中為了精練profile,會在每一輪中加入新的序列。
為了演示PSI-BLAST方法的高敏感性,旦氨酸三聯體蛋白(HIT)序列被用來作為數據庫搜索中的查詢序列。HIT和1-磷酸乳糖尿苷酸轉移酶(GalT)基于位點重疊的三位結構相似性*近得到描述(Holm and Sander, 1997)。經過一次標準的(一輪)BLASTP搜索,沒有發現一個對GalT序列有顯著的命中。但是經過多次搜索,在每一次反復中都發現新的關系,正如圖7.12所示。在第二次搜索中了發現老鼠的GalT蛋白質,并且在這一信息被加入profile之后,另外一些其它物種的同源物也被檢測出來。
Sequences producing significant alignments: Hign E
Score Value
Pass1:
sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE TRIAD PROTEIN 290 7e-79
sp|P49776|APH1_SCHPO BIS(5’ – NUCLEOSYL) – TETRAPHOSPHATASE (ASYMME... 117 8e-27
sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 KD HIT – LIKE PROTEIN 88.0 6e-18
sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 KD HIT – LIKE PROTEIN 52.7 3e-07
sp|Q04344|HIT_YEAST HIT1 PROTEIN (ORF U) 45.3 4e-05
Pass2:
sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 KD HIT – LIKE PROTEIN 70.5 1e-12
sp|P32083|YHIT_MYCHR HYPOTHETICAL 13.1 KD HIT – LIKE PROTEIN IN P... 59.0 3e-09
sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 KD HIT – LIKE PROTEIN IN H... 57.6 9e-09
sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 KD HIT – LIKE PROTEIN IN P... 55.7 3e-08
sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT – LIKE PROTEIN F21C3.3 54.3 9e-08
sp|P42856|ZB14_MAIZE 14 KD ZINC – BINDING PROTEIN (PROTEIN KINASE... 52.8 2e-07
sp|P42855|ZB14_BRAJU 14 KD ZINC – BINDING PROTEIN (PROTEIN KINASE... 50.2 1e-06
sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 KD PROTEIN HIT – LIKE PROT... 49.5 2e-06
sp|P49773|IPK1_HUMAN PROTEIN KINASE C INHIBITOR 1 (PKCI – 1) 49.1 3e-06
sp|P16436|IPK1_BOVIN PROTEIN KINASE C INHIBITOR 1 (PKCI – 1) (17 ... 48.7 4e-06
sp|P44956|YCFF_HAEIN HYPOTHETICAL HIT – LIKE PROTEIN HI0961 47.3 1e-05
sp|P43424|GAL7_RAT GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 41.0 8e-04
Pass3:
sp|Q03249|GAL7_MOUSE GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 87.2 1e-17
sp|P07902|GAL7_HUMAN GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 79.8 2e-15
sp|P31764|GAL7_HAEIN GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 64.7 6e-11
sp|P09148|GAL7_ECOLI GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 62.5 3e-10
sp|P22714|GAL7_SALTY GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 58.1 6e-09
sp|P09580|GAL7_KLULA GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 48.5 4e-06
sp|P08431|GAL7_YEAST GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 40.8 0.001
Pass4:
sp|P40908|GAL7_CRYNE GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 71.0 8e-13
sp|P13212|GAL7_STRLI GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 57.0 1e-08
圖7.12、使用PSI-BLAST后,敏感性提高很大:在這次BLASTP搜索中,查詢序列是人類組氨酸三聯體(HIT)蛋白(Swiss-Prot P49789),搜索時開啟了PSI-BLAST功能。在每一次重復搜索中,新檢索出來的具有統計學顯著性的匹配都會顯示它們的定義行,打分值以及E 數值。
低復雜度區域
不管是蛋白還是核酸都包含一些偏頗的區域,在進行序列數據庫搜索時這些區域可能會導致一些令人迷惑的結果。這些低復雜度區域(LCRs)在從明顯的同性聚合順串和短周期重復到更精細的情況(如其中某些或一些殘基過多表現)的范圍內變化。一個稱為SEG的程序發展起來,目的是要把一個蛋白質序列分解為低復雜度和高復雜度組成的各個片段(Wootton and Federhen, 1993, 1996)。這個程序的結果表明數據庫中的蛋白質有一半以上擁有至少一個LCR(Wootton and Federhen, 1993; Wootton, 1994)。LCRs的進化、功能和結構性質并沒有被很好地了解。在DNA中,有許多種簡單的重復,其中一些已經知道是高度多樣性的,并且在作基因圖譜時經常使用的。它們源起的機制可能是聚合酶滑動、偏頗核苷酸取代或者不等交換。LCRs更偏好于在結構上以非球形區域的形式存在,那些在物理化學上已經被定義為非球形的區域通常可以在使用SEG程序時獲得較好的結果(Wootton, 1994)。
對于包含LCR的序列進行比對是成問題的,因為這些序列不符合殘基-殘基序列守恒的模型。有些時候,與功能相關的屬性可能僅僅是周期性或組成結構,而不是任何特異的序列。而且,對比對作統計學顯著性分析的方法是建立在一定的隨機概念基礎上的,LCR顯然不符合這一條件,因此,對于一個包含LCR的查詢序列,在進行數據庫搜索的輸出里會發現很多不正確的條目,因為這些匹配的顯著性被過高評價了(Altschul et al., 1994)。這個問題大體上可以通過過濾(或者叫屏蔽)解決,操作是這樣的,把有問題的子序列轉化為不明確的字符(蛋白質用X,核酸序列用N),這樣它們就不會對比對貢獻正分了。
果蠅鱗甲基因產物的人類同源物就是包含LCR蛋白質的一個好例子,在用SEG分析的時候,兩個低組成復雜度的序列區域被鑒定出來。圖7.13a顯示了缺省的樹輸出,其中低復雜度序列用小寫字母表示在左邊,高復雜度序列在右邊用大寫字母表示。個區域片段有61個殘基,包含大量丙氨酸(alanine)和谷氨酸鹽(glutamine)的多聚物;第二個區域片段有14個殘基,偏向于精氨酸(arginine)。如果不進行過濾的話,許多包含這種偏向性序列的數據庫序列都會被報告出來。使用命令行選項,SEG程序就會產生一個過濾后的查詢序列版本。另外,過濾可以有BLAST程序自動完成,如果使用合適的參數。請注意在使用BLAST時,缺省情況下就可以實行過濾(比如在WWW版本)。這就解釋了為什么查詢序列中的不明確的字符串(在原序列中沒有出現)會在比對中被偶然發現。
a
>gi|1703441|sp|P50553|ASH1_HUMAN ACHAETE – SCUTE HOMOLOG 1
1-11 MESSAKMESGG
agqqpqpqpqqpflppaacffataaaaaaa 12-72
aaaaaaqsaqqqqqqqqqqqqqqapqlrpa
a
RRLNFSGFGYSLPQQQP
aavarrnerernrv 120-133
SAVEYIRALQQLLDEHDAVSAAFQAGVLSP
TISPNYSNDLNSMAGSPVSSYSSDEGSYDP
LSPEEQELLDFTBWF
b
>gi|1703441|sp|P50553|ASH1_HUMAN ACHAETE – SCUTE HOMOLOG 1
MESSAKMESGGXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXDGQPSGGGHKSAPKQVKRQRSSSPELMRCKRRLNFSGFGYSLPQQQPX
XXXXXXXXXXXXXKLVNLGFATLREHVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHD
AVSAAFQAGVLSPTISPNYSNDLNSMAGSPVSSYSSDEGSYDPLSPEEQELLDFTBWF
c
>gi|540240 (U14590) achaete – scute homolog b [ Danio rerio ]
Length – 195
Score – 193 bits (512), Expect – 7e-49
Identities – 107/155 (69%), Positives – 118/155 (76%)
Gaps – 8/155 (5%)
QUERY 86 KQVKRQRSSSPELMRCKRRLNFSGFGYSLPQQQPXXXXXXXXXXXXXXKLVNLGFATLRE 145
K +KRQRSSSPEL+RCKRRL F+G GY++PQQQP K VN+GF TLR+
540240 32 KVLKRQRSSSPELLRCKRRLTFNGLGYTIPQQQPMAVARRNERERNRVKQVNMGFQTLRQ 91
QUERY 146 HVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHDAVSAAFQAGVLSPTISPNYSNDLNS 205
HVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHDAVSA Q GV SP++S YS
540240 92 HVPNGAANKKMSKVETLRSAVEYIRALQQLLDEHDAVSAVLQCGVPSPSVSNAYS----- 146
QUERY 206 MAG—SPVSSYSSDEGSYDPLSPEEQELLDFTNWF 238
AG SP S+YSSDEGSY+ LS EEQELLDFT WF
540240 147 -AGPESPHSAYSSDEGSYEHLSSEEQELLDFTTWF 180
圖7.13、使用SEG程序檢索低復雜度區域:使用SEG程序對人類achaete-scute蛋白(Swiss-Prot P50553)進行分析,發現了兩段低復雜度區域。(a).以缺省的“tree”格式執行程序得到的輸出結果,左邊用小寫字母顯示了低復雜度區域,右邊用大寫字母顯示了高復雜度區域。 (b) .開啟-x命令行開關,SEG程序將會產生把低復雜度區域屏蔽掉的序列結果。 (c).為了方便使用,操作者可以使用BLAST程序來進行低復雜度區域的屏蔽。當一個低復雜度區域被屏蔽掉的序列作為查詢序列被提交給數據庫進行檢索時,在BLASTP輸出結果的比對中可能也會包括一些被屏蔽的分段序列。
重復元件
如果查詢中包括一個重復元件的序列-比如說一個Alu重復-可能會出現許多錯誤的和令人費解的結果。雖然在蛋白質-蛋白質搜索中,這一般不會成為什么大問題,但是在包含DNA序列任何比較中,都必須對此引起必要的重視。基因組序列可能會包含大量分散的重復序列,特別是一些多基因族(例如Alus, LINEs和人的序列中的MERs),甚至mRNA序列中也可能含有重復序列,幾乎都是信息的非翻譯區。因此,重復元件在數據庫序列中非常普遍,如果查詢序列中也有這些重復,就會在比對中出現大量不正確的正分。雖然重復元件顯示了大量不同成分,仍然有足夠的相似性使比對具有一定的高顯著性。雖然比對會跨越這些重復而不是側面的單一序列,但是直接從數據庫搜索的輸出結果觀察,這并不是顯而易見的。
GenBank和Swiss-Prot數據庫中都包含一些“暖序列(warming sequence)”,這些數據向使用者指出查詢中包含重復序列(Claverie and Makalowski, 1993)。在GenBank中,這些條目表示了人類Alu重復的不同亞科的一致序列;在Swiss-Prot中的類似條目是Alu序列的六種翻譯框架(一個接著一個,中間由若干X分隔)。在兩種情況下,單詞“WARNING”在定義行中非常顯著。暖序列不必出現在命中列表的上方,而且,可以有許多包含Alu重復的數據庫序列同查詢序列非常相似,甚至比查詢序列同暖序列還相似。這在圖7.14a中有所體現,它顯示了對人類轉錄因子CBFB(在3’UTR包含一個Alu)基于nr數據庫進行一次blastn搜索的一部分命中。暖序列(用箭頭標出)位于命中列表的第31位。雖然列表頂部的一些匹配顯示了真正的關系(個是一個自命中),絕大多數只是因為具有Alu重復才會出現錯誤的正分。
在查詢中更直接地檢測Alu重復是否存在的方法就是在查詢前先對alu數據庫做一次搜索。如圖7.14b所示,做完這個以后,包含alu的暖序列作為分匹配被報告出來。如果查詢序列被發現包含重復元件,接下來的行動就是要對這個序列進行編輯改動,把它剔除或者屏蔽掉。在這里一個有用的工具就是CENSOR,它能夠自動檢測并且消除重復元件。
a
Smallest
Sum
High Probability Y
Sequences producing High – scoring Segment Pairs: Score P(N) N
gb|L20298|HUMCBFB Homo sapiens transcription factor... 8691 0.0 2
dbj|D14571|MUSPEBP2B2 Mouse mRNA for PEBP2B2 protein, co.. 2574 0.0 25
gb|L032791|MUSP215CBF Mus musculus core – binding factor m 2574 0.0 25
dbj|D14572|MUSPEBP281 Mouse mRNA for PEBP2B1 protein, co.. 2130 0.0 26
dbj|d14570|muspebp283 Mouse mRNA for PEBP2B4 protein, co.. 1701 0.0 26
gb|L03305|MUSCBFAA Mus musculus core – binding factor m 942 0.0 27
gb|L03306|MUSCBFAB Mus musculus core – binding factor m 2130 1.6e-282 10
gb|U22177|DMU22177 Drosophila melanogaster Big brothe... 382 1.5e-37 2
emb|Y10196|HSPEX H.sapins PEX gene 400 4.4e-22 1
gb|L77570|HMUDGCRCEN Homo sapiens DiGeorge syndrome cri... 409 6.7e-22 2
gb|AD00067|1010603 Homo sapiens DNA from chromosome 1... 392 2.0e-21 1
emb|Z83822|HS306D1 Human DNA sequence from PAC 306D1 ... 392 2.0e-21 1
emb|Z82097|HSF77D12 Human DNA sequence from fosmid F77... 391 2.5e-21 1
dbj|D42052|HUMKIAA000 Human cosmid Q7A10 (D21S246) inser... 391 2.5e-21 1
gb|U83511|HSUB3511 Human Xp22 cosmids U177G4,U152H5, ... 386 6.5e-21 1
gb|U52112|HSU52112 Human Xq28 genomic DNA in the regi... 386 6.5e-21 1
gb|S83170|S83170 tissue – type plasminogen activator.. 382 1.1e-20 1
emb|X9642|HSCAMF3X1 H.sapiens Y chromosome cosmid CAMF... 383 1.1e-20 1
gb|U95739|HSU95739 Human chromosome 16p11.2 – p12 BAC c. 383 1.1e-20 1
gb|95743|HSU95743 Human chromosome 16p13.1 BAC clone... 383 1.1e-20 1
gb|U91322|HSU91322 Human chromosome 16p3 BAC clone C.... 383 1.1e-20 1
gb|U82609|HSU82609 Human centromere – specific histone.. 382 1.3e-20 1
gb|AC001061|HSAC001061 Homo sapiens (subclone 2_g6 fromP.... 382 1.3e-20 1
emb|Z46940|HSPRMTNP2 H.sapiens PRM1 gene, PRM2 gene and... 382 1.4e-20 1
gb|K03021|HUMTPA Human tissue plasminogen activator... 382 1.4e-20 1
gb|U15422|HSU15422 Human protamine 1 (PRM1), protamin... 382 1.4e-20 1
gb|U91323|HSU91323 Human chromosome 16p13 BAC clone C... 382 1.4e-20 1
emb|Z54147|HSLI29H7A Human DNA sequence from cosmid L12... 381 1.7e-20 1
emb|Z82194|HSJ272J12 Human DNA sequence fom clone J272J12 374 1.7e-20 2
dbj|D0035|HIV2CAM2 Human immunodeficiency virus type-... 380 2.0e-20 1
à gb|U14567|HSU14567 ***ALU WARNING: Human Alu_J subfam... 373 2.4e-20 1
gb|L81578|HSL81578 Homo sapiens (subclone 2_b2 from P... 386 3.0e-20 2
gb|L81854|HSL81854 Homo sapiens (subclone 2_b8 from P... 377 3.4e-20 1
b
Smallest
Sum
High Probability Y
Sequences producing High – scoring Segment Pairs: Score P(N) N
à lcl|HSU14567 ***ALU WARNING: Human Alu – J subfamil... 373 4.1e-24 1
lcl|unknown gb|M94643_HSAL001949 349 1.4e-22 1
lcl|HSU14574 ***ALU WARNING: Human Alu – Sx subfami... 347 7.0e-22 1
lcl|HSU14573 ***ALU WARNING: Human Alu – Sq subfami... 347 7.0e-22 1
lcl|unknown gb|Z15026_HSAL001005 (Alu – J) 324 1.4e-21 1
lcl|unknown gb|M15657_HSAL001254 (Alu – J) 337 6.3e-21 1
lcl|unknown gb|M61839_HSAL002304 (Alu – J) 314 6.6e-21 1
lcl|unknown gb|X17354_HSAL000525 (Alu – J) 329 6.6e-21 1
lcl|HSU14572 ***ALU WARNING: Human Alu – Sp subfami... 329 2.4e-20 1
lcl|unknown gb|J03619_HSAL001939 (Alu – Sx) 329 2.8e-20 1
lcl|unknown gb|L11910_HSAL002838 (Alu – J) 307 2.8e-20 1
lcl|unknown gb|M11228_HSAL002744 (Alu – Sp) 329 2.9e-20 1
lcl|unknown gb|L18035_HSAL004322 (Alu – J) 318 9.3e-20 1
lcl|unknown gb|L05367_HSAL002551 (Alu – J) 318 1.0e-19 1
lcl|unknown gb|M58600_HSAL002004 (Alu – J) 322 1.2e-19 1
lcl|unknown gb|Z23796_HSAL005276 (Alu – J) 306 1.7e-19 1
lcl|unknown gb|M90058_HSAL002955 (Alu – J) 294 2.5e-19 1
lcl|unknown gb|D14642_HSAL003786 (Alu – J) 315 4.0e-19 1
lcl|unknown gb|M29038_HSAL002942 (Alu – J) 314 5.5e-19 1
lcl|unknown gb|M92357_HSAL001387 (Alu – J) 310 9.8e-19 1
圖7.14、反復元件可能會導致令人迷惑的結果:本次blastn查詢使用的查詢序列是人類轉錄因子CBFB(GenBank L20298)的cDNA序列。(a).如果使用nr數據庫,*先的一些匹配同查詢序列具有真正的關聯,但是也會報告許多不正確的命中結果,這些命中分布于各個人類染色體的基因組區域。在這個命中列表中,打箭頭處(位于第31行)的一致的Alu-J序列被列為警告序列。 (b).如果使用alu數據庫,Alu-J警告序列就成了*佳匹配序列。
為了鑒定這些潛在的搜索成果,學會怎樣評估搜索結果非常重要。上述的一些策略只應用于Alu反復,它是人類以及其它一些物種中出現頻率的,但是其它一些反復仍然存在,雖然含量較低,而且,其它物種會顯示出完全不同類型的反復元件。現在有一個數據庫搜索輸出的附加性質,它可以指示出反復元件。例如,注意比對中與DNA序列編碼區域相關的位點是非常有益的。如果非編碼區域匹配而編碼區域不匹配,那么反復序列就很令人懷疑;如果查詢序列同大量序列匹配,但是這些序列相互之間沒有什么關系,但是比對的分值都很相近,這樣的結果就極為可疑。例如圖7.14a中,許多匹配的相似性分值都幾乎一樣,而且包括了從若干不同的人類染色體上來的質粒。雖然對這個發現有很多解釋,但是一個明智的看法就是至少承認這個現象可能是出于外界因素(如反復元件的存在)的影響。
小結
在世界各地科學家們每天都要執行序列比對和數據庫搜索成千上萬此,并且所有的分子生物學都應該熟悉這些要緊的工具。這些方法注定要不斷發展,并且接受不斷增長的數據庫容量的挑戰。特別是當可利用的信息增長時,使用者更加難以解釋其結果。數據庫搜索工作臺致力于事后處理搜索結果并且圖形顯示,從而解決這一問題。這些策略的例子包括PowerBLAST(Zhang and Madden, 1997),BLIXEM(Sonnhammer and Durban, 1994)和BEAUTY(Worley et al., 1995)。
這一章描述了數據比較的一些基本概念,但是使用大量不同的程序以獲得更詳盡的信息非常有用。研究人員應該了解程序工作的基本操作,并且選擇相應的參數。此外,他們應該了解潛在的外部影響并且知道如何避免。*重要的是,應該結合實驗方法的發現和評估事物的強大威力。
第七章中涉及到的可以在互聯網上使用(獲得)的軟件:
CULSTAL.W | ftp://ftp.ebi.ac.uk/pub/software/ |
DOTTER | ftp://ftp.sanger.ac.uk/pub/dotter/ |
LALIGN.FASTA | ftp://ftp.virginia.edu/pub/fasta/ |
BLAST | ftp://ncbi.nlm.nih.gov/blast/ |
SEG | ftp://ncbi.nlm.nih.gov/pub/seg/ |
Altschul.S.I : (1991).Amino acid substitution matrices from an information theoretic perspective. J.Mol.Bio. 219. 555-565.
Altschul.S.E. and Erickson.B.W. (1985). Significance of nucleotide sequence alignments: A method for random sequence permutation that preserves dinucleotide and codon usage. Mol.Biol.Evol. 2. 526-538.
Altschul.S.E. and Erickson.B.W. (1986). Locally optimal subalignments using nonlinear similarity functions. Bull.Math.Biol. 48. 633-660.
Altschul.S.E and Gish.W. (1996). Local alignment statistics. Methods Enzymol. 266. 460-480.
Altschul.s.E., Gish.W., Miller.W., Myers.E.W., and Lipman.D.J. (1990). Basic local alignment search tool. J.Mol.Biol. 215. 403-410.
Altschul.S.E., Boguski.M.S., Gish.W., and Wootton.J.C. (1994). Issues in searching molecular sequence databases. Nature Genet. 6. 119-129.
Altschul.S.e., Madden.T.L., Schaffer. A.A., Zhang.J., Zhang.Z., Miller.W., and Lipman.D.J. (1997). Gapped BLAST and PSI-BLAST: A new generation of protein database search programs. Nucl.Acids.Res. 25. 3389-3402.
Baron.M., Norman.D.G., and Campbell.I.D. (1991). Protein modules. Trends Biochem.Sci. 16. 13-17.
Chandrasekharappa.S.C., Guru.S.C., Manickam.P., Olufemi.S.E., Collins.E.S., Emmert-Buck.M.R., Debelenko.I..V., Zhuang.Z.., Lubensky.I.A., Liotta.L.A., Crabtree.J.S., Wang.Y., Roe.B.A., Weisemann.J., Boguski.M.S., Agarwal.S.K., Kester.M.B., Kim.Y.S., Heppner.C., Dong.Q., Spiegel.A.M., Burns.A.L., and Marx.S.J. (1997). Positional cloning of the gene for multiple endocrine neoplasia- Type 1.Science 276. 404-407.
Clavrie.J.M., and Makalowski.W. (1993). Alu alert.Nature. 371. 752.
Dayhoff.M.O., Schwartz.R.M., and Orcutt.B.C. (1978). A model of evolutionary change in proteins . In Atlas of Protein Sequence and Structure. M. O. dabhoff. ed. (Washington.DC: National Biomedical Research lFoundation). pp. 345-352.
Doolittle.R.J., and Bork.P. (1993). Evolutionarity mobile modules in proteins. Sci Am. 269. 50-56.
Doolittle.R.F., Hunkapiller.M.W., Hood.L.E., Devare.S.G., Robbins.K.C., Aaronson.S.A., and Antoniades.H.N. (1983). Simian sarcoma virus onc gene, v-sis, is derived from the gene (or genes) encoding a platelet-derived growth factor. Science 221. 275-277.
Fitch.W.M. (1969). ocating gaps in amino acids sequences to otimize the homology between two proteins. Biochm.Genet.3. 99-108.
Fitch.W.M. (1983). Random sequences.J.Mol.Biol. 163. 171-176.
Gibbs.A.J., and Melntyre.G.A. (1970). The diagram: A method for comparing sequences. Its use with amino acid and nucleotide sequences. Eur.J.Biochem. 16. 1-11.
Gonzalez.P., Hemandez-Calzadilla.C., Rao.P.V., Rodriguez.I.R., Zigler.J.S., Jr., and Borras. T. (1994). Comparative analysis of the zeta-crystallin/quione reductase gene in guinea pig and mouse. Mol.Biol.Evol. 11. 305-315.
Henikoff.S., and Henikoff.J.G. (1991). Automated asscembly of protein blocks for database searching. Nucl.Acids.Res. 19. 6565-6572.
Henikoff.S., and Henikoff.J.G. (1992). Amino acid substitution matrix from protein blocks. Proc.Natl.Acad.Sci. U.S.A. 89. 10915-10919.
Higgins.D.G., Thompson.J.D., and Gibson.T.J. (1996). Using CLUSTAL for multiple sequence alignments. Methods Enzymol. 266. 383-402.
Holm.L.., and Sander.C. (1997). Enzyme HIT. Trends Biochem.Sci. 22. 16-117.
Huang.X., Hardison.R.C., and Miller.W. (1990). A space-efficient algorithm for local similarities. Comput.Appli.Biosci. 6. 373-381.
Jurka.J., Klonowski.P., Dagman.V., and Pelton.P. (1996). CENSOR: A program for identification and wlmination of repetitive elements from DNA sequences. Comput.Chem. 20. 119-122.
Karlin.S., and Altschul.S.F., (1990). Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc.Natl.Acad.Sci. U.S.A. 87. 2264-2268.
Karlin.S., and Altschul.S.E. (1993). Applications and statistics for multiple high-scoring segments in molecular sequences. Proc.Natl.Acad.Sci. U.S.A. 90. 5873-5877.
Lipman.D.J., and Pearson.W.R. (1985). Rapid and sensitive protein similarity searches. Science . 227. 1435-1441.
Needleman.S.B., and Wunsch.C (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins. J.Mol.Biol. 48. 443-453.
Patthy.L., (1991). Modular exchange principles in proteins. Curr.Opin.Struct.Biol. 1., 351-361.
Pearson.W.R. (1996). Effective protein sequence comparison. Methods Enzymol. 266. 227-258.
Pearson.W.R., and Lipman.D.J. (1988). Improved tools for biological sequence comparison. Proc.Natl.Acad.Sci. U.S.A. 85. 2444-2448.
Smith.T.F., and Waterman.M.S. (1981). Identification of common molecular subsequences. J.Mol.Biol. 147. 195-197.
Smith.T.F. Waterman.M.S., and Burks.C. (1985). The statistical distribution of nucleic acid similarities. Nucl.Acids.Res. 13. 645-656.
Sonnhammer.E.L..L., and Durban.R. (1994). A workbench for large scale sequence homology analysis. Comput.Appl.Biosci. 10. 301-307.
Sonnhammer.E.L..L.., and Durban.R. (1996). A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis. Gene 167. GCI-10.
Waterfield.M.D.., Scrace.G.T.., Whittle.N.., Stroobant.P.., Johnsson.A.., Wasteson.A.., Westermark.B.., Heldin.C.H.., Huang.J.S.., and Deuel.T.F. (1983). Platelet-derived growth factor is structurally related to the putative transfoming protein p28sis of simian sarcoma virus. Nature. 304. 35-39.
Waterman.M.S.., and Eggert.M. (1987). A new algorithm for best subsequence alignments with applications to tRNA-rRNA comparisons. J.Mol.Biol. 197. 723-728.
Waterman.M.S.., and Vingron.M. (1994). Rapid and accurate estimates of statistical significance for sequence database searches. Proc.Natl.Acad.Sci. U.S.A. 91. 4625-4628.
Wilbur.W.J.., and Lipman.D.J. (1983). Rapid similarity researches of nucleic acid and protein data banks. Proc.Natl.Acad.Sci. U.S.A. 80. 726-730.
Wootton.J.C. (1994). Non-globular domains in protein sequences: Automated segmentation using complexity measures. Comput.Chem. 18. 269-285.
Wootton.jJ.C.., and Federhen.S. (1993). Statistics of local complexity in amino acid sequences and sequence databaseas. Comput.Chem. 17. 149-163.
Wootton.J.C.., and Federhen.S. (1996). Analysis of compositionally biased regions in sequence databases. Methods Enzymol. 266. 554-571.
Worley.K.C.., Wiese.B.A.., and Smith.R.F. (1995). BEARTY: an enhanced BLAST-based search tool that integrates multiple biological information resources into sequence similarity search results. Genome Res. 5. 173-184.
Zhang.J.., and Madden.T.L.. (1997). PowerBLAST: A new network BLAST application for interactive or automated sequence analysis and annotation. Genome.Res. 7. 649-656.
參考文獻: