Pràctica 3.2


Objectius: En aquesta pràctica treballarem com fer servir el mètode de models de Hidden Markov (HMM). Però també coneixerem les bases de dades dels models de Markov. Compararem aquest m&eagrave;tode amb el de psiblast de la pràctica anterior i finalment farem també una comparació entre les bases de dades de Swissprot i Pfam.

Hidden Markov Model: A quests models s'han desenvolupat per solucionar certes limitacions del mètode BLAST. Els HMM són models estadístics de l'estructura primària consens d'una família de seqüències. Els perfils que utilitza Hidden Markov per fer les búsquedes et donen la informació de com de conservades estan certes regions a partir d'un conjunt de seqüències alineades; per això es fan servir una serie de puntuacions específiques segons la posició de cada aa. Aquesta matriu et servirà per fer una búsqueda d'homòlegs en una base de dades. El resultat d'aquesta cerca sempre serà millor que si l'haguéssis fet directament sense la matriu. I bàsicament l'avantatge de HMM és que usa mètodes probabilístics respecte altres que n'usen d'heurístics. Tot i això, si fem servir HMM estem assumint certes limitacions inevitables:

  1. 1. S'assumeix que la identitat d'una posició particular és independent de la identitat d'altres posicions.
  2. 2. No tenen en compte les relacions en la seqüència entre els aa o nucleòtid conservats importants per la familia.
Els 4 problemes que més es fan servir, i que són els que treballarem en la pràctica, per a realitzar aquest tipus de models són: hmmbuild (construiex un model a partir d'un alineament múltiple de seqüències, semblant a psiblast), hmmpfam (busca seqüències contra una base de dades de HMM, com pot ser pfam), hmmsearch (utilitza HMM i busca sobre una base de dades de seqüències), hmmcalibrate (agafa un HMM i determina empíricament paràmetres que seran utilitzats per fer cerques més sensibles mitjançant els càlculs més acurats dels E-values) i hmmalign (alinea un conjunt de seqüències a partir d'un model de Markov).

Desenvolupament de la pràctica:

1. Entrem a una directori de disc9/ que conté els arxius necessaris per fer la pràctica, que es basa en seguir un tutorial per aprendre a manipular gairebé totes les ordres per HMM:
] cp -r /disc9/practica_3/HMMER
] cd HMMER/

2. El primer que es fa és contruir una matriu amb hmmbuild amb l'arxiu globins50.msf:
$ hmmbuild globin.hmm globins50.msf
El resultat és globin.hmm.

3. El següent pas seria la calibració (hmmcalibrate) però podem no fer-la. Si es fa augmenta molt la sensibilitat de la cerca. De totes maneres la ordre seria: hmmcalibrate globin.hmm

4. A continuació ve la búsqueda: hmmsearch
$ hmmsearch globin.hmm Artemia.fa
Aquesta ordre significa que fem una cerca a la base de dades de seqüències, utilitzant el model globin.hmm per buscar dominis globina en la base de seqüències Artemia.fa. Els resultats són llistats de seqüències ordenades per E-value:

hmmsearch - search a sequence database with a profile HMM
HMMER 2.2g (August 2001)
Copyright (C) 1992-2001 HHMI/Washington University School of Medicine
Freely distributed under the GNU General Public License (GPL)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
HMM file:                   globin.hmm [globins50]
Sequence database:          Artemia.fa
per-sequence score cutoff:  [none]
per-domain score cutoff:    [none]
per-sequence Eval cutoff:   <= 10        
per-domain Eval cutoff:     [none]
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Query HMM:   globins50
Accession:   [none]
Description: [none]
  [No calibration for HMM; E-values are upper bounds]

Scores for complete sequences (score includes all domains):
Sequence Description                                    Score    E-value  N 
-------- -----------                                    -----    ------- ---
S13421   S13421 GLOBIN - BRINE SHRIMP                   347.5   2.4e-105   8

Parsed for domains:
Sequence Domain  seq-f seq-t    hmm-f hmm-t      score  E-value
-------- ------- ----- -----    ----- -----      -----  -------
S13421     6/8     928  1075 ..     1   162 []    66.8  7.9e-21
S13421     2/8     149   288 ..     1   162 []    60.3  7.1e-19
S13421     3/8     303   450 ..     1   162 []    59.4  1.3e-18
S13421     8/8    1238  1390 ..     1   162 []    43.4  8.3e-14
S13421     5/8     771   918 ..     1   162 []    34.8  3.4e-11
S13421     7/8    1085  1234 ..     1   162 []    33.0  1.2e-10
S13421     4/8     454   607 ..     1   162 []    27.1  6.9e-09
S13421     1/8       1   139 [.     1   162 []    22.8  1.4e-07

Alignments of top-scoring domains:
S13421: domain 6 of 8, from 928 to 1075: score 66.8, E = 7.9e-21
                   *->vilealvnssShLSaeekalVkslWYgKVegnaeeiGaeaLgRlFvv
                      +           LSa e a Vk++W   V+ ++ ++G  ++  lF +
      S13421   928    G-----------LSAREVAVVKQTW-NLVKPDLMGVGMRIFKSLFEA 962  

                   YPwTqryFphFgdLssldavkgspkvKaHGkKVltalgdavkhLDdtgnl
                   +P  q+ Fp+F+d+ +ld +++ p v +H   V t l++ ++ LD   nl
      S13421   963 FPAYQAVFPKFSDV-PLDKLEDTPAVGKHSISVTTKLDELIQTLDEPANL 1011 

                   kgalakLSelHadklrVDPeNFklLghvlvvvLaehfgkdftPevqAAwd
                   +    +L+e H   lrV+   Fk +g+vlv  L   +g  f+  +  +w 
      S13421  1012 ALLARQLGEDH-IVLRVNKPMFKSFGKVLVRLLENDLGQRFSSFASRSWH 1060 

                   KflagvanaLahKYr<-*
                   K++++++  +++      
      S13421  1061 KAYDVIVEYIEEGLQ    1075 

....

Histogram of all scores:
score    obs    exp  (one = represents 1 sequences)
-----    ---    ---
  343      1      -|=                                                          


% No statistical fit available

Total sequences searched: 1

Whole sequence top hits:
tophits_s report:
     Total hits:           1
     Satisfying E cutoff:  1
     Total memory:         16K

Domain top hits:
tophits_s report:
     Total hits:           8
     Satisfying E cutoff:  8
     Total memory:         20K

Les columnes seq-f i seq-t són l'inici i el final dels punts de l'alineament respecte la seqüència problema, i les columnes hmm-f i hmm-t són el mateixos punts respecte el model. A continuació tenim l'alineament. Les lletres majúscules són els residus més conservats. A la linia del centre hi trobem lletres quan hi ha coincidència exacta amb el residu de més probabilitat del HMM, o el signe + quan el match té una puntuació positiva. I finalment, la tercera linia d'aquest alineament seria la seqüència pròpiament dita. Ja després de l'alineament, hi ha un histograma per puntuació.

5. L'altra part de la pràctica consta de crea la propia base de dades de perfils HMM, i això ho aconseguim amb aquest seguit de comandes:
$ hmmbuil -A myhmms rrm.slx
$ hmmbuil -A myhmms fn3.slx
$ hmmbuil -A myhmms pkinase.slx
$ hmmpfam myhmms 7LES_DROME
$ setenv HMMERDB /disc9/DB/pfam/Pfam/
$ hmmpfam pfam 7LES_DROMES > resultats2.txt
El mètode hmmpfam està basat en buscar sobre un conjunt de models (matrius) quina és la seqüència més semblant a la meva inicial. (això equival a la opció hmmbuild -A). La base de dades de Hidden Markov és pfam, on es pot fer de dues maneres: automàticament (pfamA) o manualment (pfamB, quan s'han escollit les seqüències amb les que fer els models).



ÍNDEX