Objectius: En aquesta pràctica treballarem com fer servir el mètode de models de Hidden Markov (HMM). Però també coneixerem les bases de dades dels models de Markov. Compararem aquest m&eagrave;tode amb el de psiblast de la pràctica anterior i finalment farem també una comparació entre les bases de dades de Swissprot i Pfam.Hidden Markov Model: A quests models s'han desenvolupat per solucionar certes limitacions del mètode BLAST. Els HMM són models estadístics de l'estructura primària consens d'una família de seqüències. Els perfils que utilitza Hidden Markov per fer les búsquedes et donen la informació de com de conservades estan certes regions a partir d'un conjunt de seqüències alineades; per això es fan servir una serie de puntuacions específiques segons la posició de cada aa. Aquesta matriu et servirà per fer una búsqueda d'homòlegs en una base de dades. El resultat d'aquesta cerca sempre serà millor que si l'haguéssis fet directament sense la matriu. I bàsicament l'avantatge de HMM és que usa mètodes probabilístics respecte altres que n'usen d'heurístics. Tot i això, si fem servir HMM estem assumint certes limitacions inevitables:
Els 4 problemes que més es fan servir, i que són els que treballarem en la pràctica, per a realitzar aquest tipus de models són: hmmbuild (construiex un model a partir d'un alineament múltiple de seqüències, semblant a psiblast), hmmpfam (busca seqüències contra una base de dades de HMM, com pot ser pfam), hmmsearch (utilitza HMM i busca sobre una base de dades de seqüències), hmmcalibrate (agafa un HMM i determina empíricament paràmetres que seran utilitzats per fer cerques més sensibles mitjançant els càlculs més acurats dels E-values) i hmmalign (alinea un conjunt de seqüències a partir d'un model de Markov).
- 1. S'assumeix que la identitat d'una posició particular és independent de la identitat d'altres posicions.
- 2. No tenen en compte les relacions en la seqüència entre els aa o nucleòtid conservats importants per la familia.
1. Entrem a una directori de disc9/ que conté els arxius necessaris per fer la pràctica, que es basa en seguir un tutorial per aprendre a manipular gairebé totes les ordres per HMM:
] cp -r /disc9/practica_3/HMMER
] cd HMMER/
2. El primer que es fa és contruir una matriu amb hmmbuild amb l'arxiu globins50.msf:
$ hmmbuild globin.hmm globins50.msf
El resultat és globin.hmm.
3. El següent pas seria la calibració (hmmcalibrate) però podem no fer-la. Si es fa augmenta molt la sensibilitat de la cerca. De totes maneres la ordre seria: hmmcalibrate globin.hmm
4. A continuació ve la búsqueda: hmmsearch
$ hmmsearch globin.hmm Artemia.fa
Aquesta ordre significa que fem una cerca a la base de dades de seqüències, utilitzant el model globin.hmm per buscar dominis globina en la base de seqüències Artemia.fa. Els resultats són llistats de seqüències ordenades per E-value:
Les columnes seq-f i seq-t són l'inici i el final dels punts de l'alineament respecte la seqüència problema, i les columnes hmm-f i hmm-t són el mateixos punts respecte el model. A continuació tenim l'alineament. Les lletres majúscules són els residus més conservats. A la linia del centre hi trobem lletres quan hi ha coincidència exacta amb el residu de més probabilitat del HMM, o el signe + quan el match té una puntuació positiva. I finalment, la tercera linia d'aquest alineament seria la seqüència pròpiament dita. Ja després de l'alineament, hi ha un histograma per puntuació.hmmsearch - search a sequence database with a profile HMM HMMER 2.2g (August 2001) Copyright (C) 1992-2001 HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - HMM file: globin.hmm [globins50] Sequence database: Artemia.fa per-sequence score cutoff: [none] per-domain score cutoff: [none] per-sequence Eval cutoff: <= 10 per-domain Eval cutoff: [none] - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Query HMM: globins50 Accession: [none] Description: [none] [No calibration for HMM; E-values are upper bounds] Scores for complete sequences (score includes all domains): Sequence Description Score E-value N -------- ----------- ----- ------- --- S13421 S13421 GLOBIN - BRINE SHRIMP 347.5 2.4e-105 8 Parsed for domains: Sequence Domain seq-f seq-t hmm-f hmm-t score E-value -------- ------- ----- ----- ----- ----- ----- ------- S13421 6/8 928 1075 .. 1 162 [] 66.8 7.9e-21 S13421 2/8 149 288 .. 1 162 [] 60.3 7.1e-19 S13421 3/8 303 450 .. 1 162 [] 59.4 1.3e-18 S13421 8/8 1238 1390 .. 1 162 [] 43.4 8.3e-14 S13421 5/8 771 918 .. 1 162 [] 34.8 3.4e-11 S13421 7/8 1085 1234 .. 1 162 [] 33.0 1.2e-10 S13421 4/8 454 607 .. 1 162 [] 27.1 6.9e-09 S13421 1/8 1 139 [. 1 162 [] 22.8 1.4e-07 Alignments of top-scoring domains: S13421: domain 6 of 8, from 928 to 1075: score 66.8, E = 7.9e-21 *->vilealvnssShLSaeekalVkslWYgKVegnaeeiGaeaLgRlFvv + LSa e a Vk++W V+ ++ ++G ++ lF + S13421 928 G-----------LSAREVAVVKQTW-NLVKPDLMGVGMRIFKSLFEA 962 YPwTqryFphFgdLssldavkgspkvKaHGkKVltalgdavkhLDdtgnl +P q+ Fp+F+d+ +ld +++ p v +H V t l++ ++ LD nl S13421 963 FPAYQAVFPKFSDV-PLDKLEDTPAVGKHSISVTTKLDELIQTLDEPANL 1011 kgalakLSelHadklrVDPeNFklLghvlvvvLaehfgkdftPevqAAwd + +L+e H lrV+ Fk +g+vlv L +g f+ + +w S13421 1012 ALLARQLGEDH-IVLRVNKPMFKSFGKVLVRLLENDLGQRFSSFASRSWH 1060 KflagvanaLahKYr<-* K++++++ +++ S13421 1061 KAYDVIVEYIEEGLQ 1075 .... Histogram of all scores: score obs exp (one = represents 1 sequences) ----- --- --- 343 1 -|= % No statistical fit available Total sequences searched: 1 Whole sequence top hits: tophits_s report: Total hits: 1 Satisfying E cutoff: 1 Total memory: 16K Domain top hits: tophits_s report: Total hits: 8 Satisfying E cutoff: 8 Total memory: 20K
5. L'altra part de la pràctica consta de crea la propia base de dades de perfils HMM, i això ho aconseguim amb aquest seguit de comandes:
$ hmmbuil -A myhmms rrm.slx
$ hmmbuil -A myhmms fn3.slx
$ hmmbuil -A myhmms pkinase.slx
$ hmmpfam myhmms 7LES_DROME
$ setenv HMMERDB /disc9/DB/pfam/Pfam/
$ hmmpfam pfam 7LES_DROMES > resultats2.txt
El mètode hmmpfam està basat en buscar sobre un conjunt de models (matrius) quina és la seqüència més semblant a la meva inicial. (això equival a la opció hmmbuild -A). La base de dades de Hidden Markov és pfam, on es pot fer de dues maneres: automàticament (pfamA) o manualment (pfamB, quan s'han escollit les seqüències amb les que fer els models).