中國科技大學課件系列：《生物信息學》.ppt

上傳人：xt****7 文檔編號：14875013 上傳時間：2020-07-31 格式：PPT 頁數(shù)：72 大?。?.05MB

收藏版權申訴舉報下載

第1頁 / 共72頁

第2頁 / 共72頁

第3頁 / 共72頁

下載文檔到電腦，查找使用更方便

14.9 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《中國科技大學課件系列：《生物信息學》.ppt》由會員分享，可在線閱讀，更多相關《中國科技大學課件系列：《生物信息學》.ppt（72頁珍藏版）》請在裝配圖網(wǎng)上搜索。

1、生物信息學,第三章序列比對 ,本章內(nèi)容提要,第一節(jié)：數(shù)學基礎：概率及概率模型第二節(jié)：雙序列比對算法的介紹 Dot matrix 動態(tài)規(guī)劃算法 (Needleman-Wunsch, Smith-Waterman算法) FASTA和BLAST算法第三節(jié)：打分矩陣及其含義第四節(jié)：多序列比對,第三節(jié) 打分矩陣及其含義,1，計分方法 2，Dayhoff: PAM系列矩陣 3，Henikoff: BLOSUM系列矩陣,1，計分方法,匹配計分： UM矩陣(Unitary matrix) 相同的氨基酸記1分，否則記0分。 BLAST中核酸比對結(jié)構(gòu)域性質(zhì)計分： SGM矩陣(Structure-Gen

2、etic Matrix) 主要根據(jù)氨基酸的結(jié)構(gòu)和化學性質(zhì)的相似程度來記分(如D和E，S和T，V和I有很高的相似性)，同時還考慮密碼子之間相互轉(zhuǎn)換的難易程度。可觀測變換計分： PAM矩陣 (Point Accepted Mutation) BLOSUM矩陣 (BLOcks SUbstitution Matrix),2， PAM系列矩陣,Margaret Dayhoff, 1978; 通過對物種進化的研究，根據(jù)一種氨基酸被另一種氨基酸替代的頻度而提出的，最常用的是PAM250; Accepted point mutation (PAM): 可接受的點突變，氨基酸的改變不顯著影響蛋白質(zhì)的功能；,

3、PAM矩陣,71個蛋白質(zhì)家族的1572種變化；序列相似性 85%；,功能同源的蛋白質(zhì) 通過中性進化，引入可接受的點突變；進化模型： A. 基本假設：中性進化，Kimura,1968; B. 進化的對稱性: A-B = B-A; C. 擴展性：通過對較短時間內(nèi)氨基酸替代關系的計算來計算較長時間的氨基酸替代關系；,PAM1矩陣,兩個蛋白質(zhì)序列的1%氨基酸發(fā)生變化；定義進化時間以氨基酸的變異比例為準，而不是時間；因為各個蛋白質(zhì)家族進化的速度并不相等； PAM2 = PAM1*PAM1 PAM3 = (PAM1)3 PAM250= (PAM1)250,PAMn矩陣的構(gòu)建,選取多個家族的相似性85

4、%的保守序列；根據(jù)匹配計分進行多重比對(不含空位)；以比對結(jié)果構(gòu)建進化樹，反映氨基酸替換關系；計算每種氨基酸轉(zhuǎn)換成其它氨基酸的次數(shù)；計算每種氨基酸突變率；計算每對氨基酸突變率，得到突變概率矩陣，將此矩陣自乘n次；將突變概率矩陣轉(zhuǎn)化為PAMn矩陣。,例6：PAM矩陣的構(gòu)建,已知3個蛋白質(zhì)家族若干保守序列片段：家族一：FKILK，F(xiàn)KIKK，F(xiàn)FILL，F(xiàn)FIKL 家族二：IIFFF， IIFIF ， IKFFL ， IKFIL 家族三： KIFKK，KIFLK，KLFKL，KLFLL 按Doyhoff方法構(gòu)建PAM1與PAM2矩陣,Step1：多重比對,位置對齊，多重比對（不考慮空

5、位）：統(tǒng)計每種氨基酸出現(xiàn)的頻率； fi = 氨基酸i的數(shù)目/總氨基酸數(shù)目 fL = 12/60 = 0.2 ..,Step2：構(gòu)建進化樹,最大簡約法家族一: L和K間相互轉(zhuǎn)換次數(shù)：N(LK) = 3 家族二，家族三 ,Step3：計算氨基酸間的轉(zhuǎn)換次數(shù),計算每種氨基酸轉(zhuǎn)換成其它氨基酸的次數(shù)。假設兩種氨基酸間相互轉(zhuǎn)換一樣。 e.g. N(LK)= 3 + 0 + 3 = 6,Step4：計算各氨基酸相對突變率,每種氨基酸相對突變率mi i：第i種氨基酸； fi ：每種氨基酸出現(xiàn)的頻率； mK = 8/(122 fK 100) = 0.0125 ,Step5：計算氨基酸i替換為j的突變

6、率,氨基酸i替換為j的突變率mij e.g. mKK = 1- mK = 0.9875 mKF = mF 1/4 = 0.001389 ,Step5：氨基酸一步轉(zhuǎn)移概率矩陣,氨基酸突變概率一步轉(zhuǎn)移概率矩陣M1ij,Step6: 計算PAM1計分矩陣,由突變率mij計算計分矩陣中的分值rij：將rij = rji取平均值，再取整數(shù)；（按先前假設， rij = rji） rKK = 10lg(mkk/ fk) = 5.6857 6 (rKF + rFK )/2 = -22.833 -23 ,Step6: PAM1計分矩陣結(jié)果,三個家族序列片段得到的PAM1計分矩陣：,Step7: 計算PAM

7、2計分矩陣,將氨基酸突變概率矩陣自乘一次，得到兩步轉(zhuǎn)移概率矩陣M2ij M2ij = M1ij M1ij 三個家族序列片段得到的PAM2計分矩陣：,PAM250矩陣,PAM250: 250%期望的突變；蛋白質(zhì)序列仍然有15-30%左右的相似性；,PAM250打分矩陣,打分矩陣的使用,PAM250: 15-30%的序列相似性； PAM120: 40%的序列相似性； PAM80: 50% PAM60: 60% 如何選擇最合適的矩陣？多種嘗試,PAM矩陣的問題及改進,1. PAM系列矩陣存在的問題： A. 氨基酸的打分矩陣，不關心核酸； B. 進化模型的構(gòu)建需要系統(tǒng)發(fā)育樹的分析，因此，成為一個

8、循環(huán)論證的問題：序列比對矩陣構(gòu)建打分進行新的序列比對； C. 數(shù)據(jù)集很?。?2. 打分矩陣的改進 A. 選用大量的序列數(shù)據(jù)，構(gòu)建PAM矩陣； B. BLOSUM系列矩陣; C. 核酸的打分矩陣;,3， BLOSUM矩陣,最被廣泛使用的氨基酸打分矩陣; 根據(jù)蛋白質(zhì)模塊數(shù)據(jù)庫BLOCKS中蛋白質(zhì)序列的高度保守部分的比對而得到的，最常用的是BLOSUM62; BLOCK: 蛋白質(zhì)家族保守的一段氨基酸，無gap，一般幾個至上百個氨基酸； Prosite家族：至少有一個BLOCK存在于該家族的所有蛋白質(zhì)序列中； BLOSUM62: 序列的平均相似性為62%的BLOCK構(gòu)建的打分矩陣；,BLOSUM62矩

9、陣構(gòu)建步驟：,提取Prosite數(shù)據(jù)庫中504個家族的2萬多蛋白質(zhì)序列，合并其中相似性62%的序列；統(tǒng)計各BLOCK的氨基酸對數(shù)量f；計算氨基酸對的出現(xiàn)頻率q；計算每種氨基酸的期望頻率p；計算氨基酸對出現(xiàn)的期望頻率e；計算BLOSUM62矩陣分量rij,BLOSUM62打分矩陣,,BLOSUM 2. 基于多序列比對的結(jié)果構(gòu)建進化樹； 3. 重新計算序列之間的距離，再用“漸進”算法進行多序列比對； 4. 重復上述步驟，直到結(jié)果不再發(fā)生改變?yōu)橹埂?(2) DIALIGN,1. 對所有序列進行兩兩之間的局部最優(yōu)化的比對； 2. 找到所有能夠匹配的部分M1；將重疊的、前后連續(xù)(consist

10、ency)的匹配部分連接起來(diagonals)，為M2； 3. 將剩下的未比對的序列重新比對，再發(fā)現(xiàn)能夠匹配的部分，構(gòu)成新M1，將consistency部分構(gòu)成M2； 4. 重復上述步驟，直到結(jié)果收斂。,DIALIGN: 算法流程,3. 部分有向圖算法,激酶的多序列比對,4. 隱馬爾科夫模型: ProbCons,主要改進： 1. 所有序列的兩兩比對，通過profile HMM的方法進行雙序列比對； 2. 將漸進算法與迭代算法整合； 3. 目前，性能最優(yōu)。,5. 整合算法MUSCLE,算法分為三個部分，每個部分相對獨立； 1. Draft progressive: (1) 對兩條序列，計算距

11、離采用k-mer的思想； (2) 用UPGMA算法構(gòu)建引導樹； (3) 使用漸進算法進行多序列比對；優(yōu)點：兩條序列之間的距離不采用動態(tài)規(guī)劃算法進行比對，節(jié)省時間。,MUSCLE,2. Improved progressive: (1)基于k-mer得到的樹可能會產(chǎn)生次優(yōu)結(jié)果，因此，采用Kimura距離的方法對k-mer產(chǎn)生的樹重新計算距離矩陣； (2)重新用UPGMA構(gòu)建進化樹； (3)使用漸進算法進行多序列比對；,3. Refinement: (1)隨機從進化樹上挑出一條邊，刪除； (2)得到兩組樹，對每組樹，計算profile； (3)將兩組profile進行比對； (4)如果最終得分提

12、高，保留結(jié)果，否則丟棄。,MUSCLE,MUSCLE的算法流程,MUSCLE: 使用指南,,,MUSCLE的使用,,多序列比對：性能檢驗,1. BAliBASE：基于蛋白質(zhì)結(jié)構(gòu)，將同一家族的蛋白質(zhì)序列進行多序列比較。 2. 檢驗多序列比對工具的性能：是否能夠很好的重復BAliBASE中已明確的比對結(jié)果。,AMP結(jié)合酶的結(jié)構(gòu)/序列比較,性能比較,ProbCons：目前綜合性能最好； T-Coffee：序列相似性高時最準確； DIALIGN: 序列相似性低時最準確； POA：性能接近T-Coffee和DIALIGN，速度最快； ClustalW/X: 最經(jīng)典、被廣泛接受的工具； MUSCLE: 目前最流行的多序列比對工具；,運算時間比較,

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

關于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

中國科技大學課件系列：《生物信息學》.ppt

最新文檔

相關資源

相關搜索