《中國(guó)科技大學(xué)課件系列:《生物信息學(xué)》由會(huì)員分享,可在線閱讀,更多相關(guān)《中國(guó)科技大學(xué)課件系列:《生物信息學(xué)(62頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、第二章:序列的采集和存儲(chǔ) DNA:Deoxyribonucleic acid,脫氧核糖核酸;RNA:RiboNucleic Acid,核糖核酸; r1. DNA測(cè)序r2. 序列數(shù)據(jù)的存儲(chǔ)核酸序列數(shù)據(jù)庫(kù)蛋白質(zhì)序列數(shù)據(jù)庫(kù)基因組數(shù)據(jù)庫(kù)r3. 序列數(shù)據(jù)的文件格式 rDNA一次連續(xù)測(cè)序的長(zhǎng)度約為500bp;rEST (Expressed sequence tag) 測(cè)序:細(xì)胞中mRNA反轉(zhuǎn)錄成cDNA,方向不定測(cè)序;rGSS (Genome Survey Sequences,基因組勘測(cè)序列):類似于ESTs,來(lái)源基因組;rHTG (High-throughput genome sequences,高通量
2、基因組序列):高通量、尚未完工的DNA序列; CAT ddGTPddTTPddATP(D) r1. 基因圖譜法:DNA片段在染色體上的位置、方向已知。首先染色體被打斷成150200kbp左右的大片段,然后克隆到BACs (Bacterial Artificial Chromosome)中,再進(jìn)一步隨機(jī)打斷,克隆,測(cè)序,依靠計(jì)算機(jī)組裝成長(zhǎng)的序列(contig) 。r2. “鳥槍法”(shotgun):DNA片段在染色體上的位置和方向未知。全基因組隨機(jī)打斷成小片段,克隆,雙向測(cè)序,計(jì)算機(jī)組裝成長(zhǎng)的序列。 r 基因組圖譜:遺傳圖譜,物理圖譜r 遺傳圖譜(genetic map):連鎖圖譜,顯示所知的
3、基因和/或遺傳標(biāo)記的相對(duì)距離位置與次序。r物理圖譜(physical map):表示某些基因和/或遺傳標(biāo)記之間在基因組上的精確位置和距離(如間隔的bp數(shù)目)的圖譜。 r核酸序列數(shù)據(jù)庫(kù)國(guó)際三大核酸序列數(shù)據(jù)庫(kù):GenBank, EBML, DDBJRefSeq: The Reference Sequence DatabasedbEST: Expressed Sequences Tags數(shù)據(jù)庫(kù)UniGene等r蛋白質(zhì)序列數(shù)據(jù)庫(kù)UniProtSwiss-prot rhttp:/www.ebi.ac.uk/embl/ rNIG (National Institute of Genetics)rCIB (
4、Center for Information Biology)rhttp:/www.ddbj.nig.ac.jp/index-e.html r1998年,GenBank、EMBL和DDBJ共同成立了國(guó)際核酸序列數(shù)據(jù)庫(kù)協(xié)會(huì) (International Nucleotide Sequence Database Collaboration,INSDC)r三大核酸數(shù)據(jù)庫(kù)之間每天將新測(cè)定或更新的數(shù)據(jù)進(jìn)行交換共享,保證數(shù)據(jù)信息的完整與同步,每?jī)蓚€(gè)月更新一次版本。rhttp:/www.insdc.org/ r1. 提供非冗余的,高質(zhì)量的,經(jīng)檢驗(yàn)校正的序列信息;r2. 包括染色體、基因組(細(xì)胞器、病毒、質(zhì)粒
5、)、蛋白質(zhì)、RNA等;r 序列文件的標(biāo)識(shí)符:mRNA序列:NM_123456非編碼RNA:NR_123456蛋白質(zhì)序列: NP_123456r http:/www.ncbi.nlm.nih.gov/RefSeq r截然不同的Accession號(hào)區(qū)別于其它GenBank命名格式的序列,前綴是兩個(gè)字母加下劃線 _;r在Comment區(qū)域顯示來(lái)源;r使用正式命名;r包括dbxrefs的特征;r蛋白序列在DBSOURCE區(qū)域標(biāo)示 REFSEQ 最多的20個(gè)物種: 2007.08,總序列45,660,524條http:/www.ncbi.nlm.nih.gov/dbEST/ 為每一個(gè)基因創(chuàng)造一個(gè)唯一的條
6、目,收集這個(gè)基因所有的ESTs http:/www.ncbi.nlm.nih.gov/unigene r最早廣泛使用的蛋白數(shù)據(jù)庫(kù);歐洲最主要的蛋白序列數(shù)據(jù)庫(kù);http:/www.expasy.ch/sprot/rSIB(Swiss Institute of Bioinformatics)r可由ExPASy(Expert Protein Analysis System)系統(tǒng)訪問(wèn);r所有序列條目均經(jīng)過(guò)有經(jīng)驗(yàn)的分子生物學(xué)家和蛋白質(zhì)化學(xué)家審核,因此又稱為蛋白質(zhì)專家?guī)臁?rTrEMBL (Translation of EMBL):計(jì)算機(jī)注釋的Swiss-Prot分支數(shù)據(jù)庫(kù),從EMBL庫(kù)中的cDNA序列翻
7、譯得到的氨基酸序列數(shù)據(jù)庫(kù)。rGenPept:由GenBank翻譯得到的蛋白質(zhì)序列,與TrEMBL類似,這兩個(gè)數(shù)據(jù)庫(kù)中的序列錯(cuò)誤率較大,均有較大的冗余度。 r1984年,美國(guó)國(guó)家醫(yī)學(xué)研究基金會(huì)(NREF)正式啟動(dòng)蛋白質(zhì)信息資源(Protein Information Resource, PIR)計(jì)劃;r美國(guó)最主要的蛋白序列數(shù)據(jù)庫(kù);r非冗余、高質(zhì)量注釋、全面分類;rPIR數(shù)據(jù)庫(kù)按照數(shù)據(jù)的性質(zhì)和注釋層次分為PIR1、PIR2、PIR3和PIR4。PIR1中的序列已經(jīng)驗(yàn)證,注釋最為詳盡。rhttp:/pir.georgetown.edu/ rUniversal Protein Resource: Sw
8、iss-prot(TrEMBL), PIR兩大蛋白數(shù)據(jù)庫(kù)的整合體;r收錄蛋白質(zhì)序列目錄最廣泛、功能注釋最全面的數(shù)據(jù)庫(kù);r包含三個(gè)子庫(kù):UniProtKB(UniProt Knowledgebase)UniRef(UniProt Reference Clusters)UniParc(Uniprot Archive)rhttp:/www.uniprot.org rUniProt Knowledgebase: Release 15.4 , 16-Jun-2009 ,包括:Swiss-Prot Release 57.4 : 497293 entries TrEMBL Release 40.4 : 91
9、45906 entries r包含蛋白質(zhì)序列全面的信息,提供準(zhǔn)確、豐富的序列與功能注釋。r記錄以6位字母和數(shù)字組成,例:Q5K8D3 r為人類基因組計(jì)劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。rGDB的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書,除了構(gòu)建基因組圖譜之外,還開發(fā)了描述序列水平的基因組內(nèi)容的方法,包括序列變異和其它對(duì)功能和表型的描述。 r收集某些生物整個(gè)基因組序列的數(shù)據(jù)庫(kù);r基因組計(jì)劃Human Genome Projecthttp:/www.sanger.ac.uk/HGP/Sequencing Genomics Projectshttp:/www.sanger.ac.uk/Projects
10、/ r從GenBank中選擇同一物種的核酸信息組成的二級(jí)庫(kù); The Ensembl project produces genome databases for vertebrates and other eukaryotic species, and makes this information freely available online.EMBL-EBI和Sanger研究所共同開發(fā)。http:/www.ensembl.org/ rDNA/RNA/氨基酸代碼的標(biāo)識(shí)rGenBank數(shù)據(jù)格式rEMBL & UniProt數(shù)據(jù)格式rFASTA 數(shù)據(jù)格式 子庫(kù)Locus名字定義 (標(biāo)題)修改日期
11、序列類型mRNA (= cDNA)rRNAsnRNADNA序列長(zhǎng)度檢索號(hào)Genbank號(hào)序列形狀 1I60:A|PDBID|CHAIN|SEQUENCEMKLCFNEATTLENSNLKLDLELCEKHGYDYIEIRTMDKLPEYLKDHSLDDLAEYFQTHHIKPLALNALVFFNNRDEKGHNEIITEFKGMMETCKTLGVKYVVAVPLVTEQKIVKEEIKKSSVDVLTELSDIAEPYGVKIALEFVGHPQCTVNTFEQAYEIVNTVNRDNVGLVLDSFHFHAMGSNIESLKQADGKKIFIYHIDDTEDFPIGFLTDEDRVWPGQGAIDLDAHLSALKEIGFSDVVSVELFRPEYYKLTAEEAIQTAKKTTVDVVSKYFSM