Pràctica 3.2 Biologia Estructural -Francesc Castro Giner-

Pràctica 3.2

OBJECTIUS
Descriu cóm fer servir el mètode de Hidden Markov Models (HMM) per comparar i alinear seqüències:
Crea un model de Markov. Descriu les bases de dades de models de Markov.
Desenvolupa un mètode per tal de cercar a les bases de dades i trobar les proteïnes homologues a una seqüència problema. Compara el mètode de PSI-BLAST i de HMM: quines són les similituts i quines les diferències?. Compara les bases de dades de PFAM i SwissProt. Fes servir el teu mètode de búsqueda per comparar el resultat de buscar una seqüència problema a la base de dades de PFAM amb HMM o amb Psi-Blast a SwissProt.

HHMER
En aquesta practica treballarem amb Hidden Markov Models (HMM). Amb el HMM constriurem models que ens diran les posicions q tenen mes o menys probabilitats de ser substituides per un residu concret.
Els perfils de HMM són models estadístics de l'estructura primaria consens d'una família de seqüències. Es poden utilitzar per a buscar en bases de dades amb un alineament múltiple de seqüències en comptes d'una unica seqüència. Tots els perfils són descripcions estadístiques del consens de l'alineamnet multiple de seqüències. Aquests utilitzen scores específics de posició per a cada aminoàcid, i scores específics de posició per obrir i extendre una inserció o delecció. Aquesta propietat dels perfils fa que obtenim major informació del grau de conservació de varies posicions en l'alineament múltiple. Els mètodes tradicionals d'alineament (BLAST, FASTA,..) utilitzen parametres de puntuació independents de la posició.
L’ avantatge d'utilitzar HMM és que tenen una probabilística. Utilitzant el teorema de Bayes, podem obtenir coses que els mètodes heurístics no poden obtenir tan fàcilment. Per exemple, HMM poden ser entrenats a partir de seqüències sense alinear, si coneixem un alineament vàlid. Això ens permet fer biblioteques de centenars de perfils de HMM i utilitzar-los. Una d'aquestes bases de models de dominis proteics es Pfam.
Per tant, la gran diferència entre la base de dades de PFAM i Swissprot, serà el contingut. PFAM conté perfils de HMM y Swissprot conté seqüències de proteïnes.
El HMM tenen també limitacions. Una d'elles es que assumeixen que la identitat d'una posició particular és independent de la identitat de les altres posicions. Un altre és que els HMM no poden capturar correlacions d'alt ordre.

Dins del HHMER tindrem diversos programes:

hmmcalibrate
hmmpfam :busca una seqüència contra un conjunt de HMM
hmmsearch: Amb el model de Hidden Markov, busca seqüències en una base de dades.
hmmalign: genera un alineament multiple a partir del HMM.
hmmbuild :construeix un model de Markov ocult a partir d'un alineament de seqüències

-Pràctica:

Copiem en el nostre directori de treball, el directori amb les dades necessàries per executar la practica:
bash-2.05$ cp -r /disc9/practica_3/HMMER .
Dins d'aquest directori que hem copiat estan els fitxers necessaris per fer el tutorial del HMMER, indicat a la pàgina 7 del manual.
Entrem al shell tcsh i executem el fitxer amb les variables locals: source /disc9/cshrc/

1.- Búsqueda en una base de dades de seqüències amb un únic fitxer de HMM
En aquesta part de la pràctica utilitzarem HMMER per a cercar a les bases de dades, proteïnes homològues a una proteïna problema o a un conjunt de seqüències. En aquesta pràctica, utilitzarem un alineament multiple de seqüències de la mateixa família (globines)

Construcció del model amb hmmbuild
Tenim un alineament múltiple de 50 globines (globins50.msf). Abans de fer la cerca, hem de construir el model. Ho farem amb la comanda hmmbuild:
[e...]$ hmmbuild globin.hmm globin50.msf
El model creat estar dins del fitxer globin.hmm.

Calibració de HMM amb hmmcalibrate
És un pas opcional, que augmentarà la sensibilitat de la búsqueda a la base de dades.El programa llegeix un fitxer HMM, puntua un gran nombre de seqüències sintetitzades al atzar amb ell, ajusta un valor de distribució extrema (EDV) al histograma construït amb aquestes puntuacions, i guarda l'arxiu de HMM incloent els paràmetres EDV.
[e...]$ hmmcalibrate globin.hmm

Búsqueda a la base de dades amb hmmsearch
Utilitzarem el model creat al pas anterior, per a buscar dominis de globines en la seqüència Artemia.fa. Redireccionem l'output a l'arxiu search.xec .
[e...]$ hmmsearch globin.hmm Artemia.fa>search.xec

Búsqueda en grans bases de dades amb hmmsearch
Farem la búsqueda d'homòlegs a Swissprot. Direccionem l'output al fitxer searchsw.xec
[e...]$ hmmsearch globin.hmm /disc9/DB/blast/swissprot >searchsw.xec

2.-Búsqueda d'una seqüència en una base de dades de fitxers HMM
Fins ara, estàvem buscant amb un únic HMM contra una base de dades de seqüències. Ara buscarem una sola seqüència contra una base de dades de HMM.

Creació de la base de dades de HMM
Les bases de dades de HMM simplement son fitxer de HMm concatenats. Primer de tot, construirem a partir d'uns alineaments (rrm.slx, fn3.slx, pkinase.slx), els HMM amb el hmmbuilt. Després concatenarem els models construits amb la comanda cat.
  [e...]$ hmmbuild rrm.hmm rrm.slx
  [e...]$ hmmbuild fn3.hmm fn3.slx
  [e...]$ hmmbuild pkinase.hmm pkinase.slx
  [e...]$ cat rrm.hmm fn3.hmm pkinase.hmm > myhmms
Obtenim com a resultat final la base de dades de HMM myhmms.

Anàlisi de la estructura de dominis d'una seqüència amb hmmpfam
Utilitzarem la base de fitxer de HMM que acabem de construir, per analitzar la seqüència de Drosophila 7LES_DROMES. El que farà hmmpfam, es fer una cerca de la seqüència contra la base de dades que hem creat amb el conjunt de perfils de HMM.
[e...]$ hmmpfam myhmms 7LES_DROMES > mypfam.xec
L'output l'hem redireccionat al arxiu mypfam.xec

PFAM database
Existeix una base de dades de perfils de HMM, pfam ( q es troba al directori /disc9/DB/pfam). Es un arxiu que conté centenars de models de dominis proteics. Està constituïda a partir de :

pfam A : composta pels perfils mes acurats
pfam B : composta per perfils no tan segurs
swisspfam : basada en swisprot, però passat a pfam

Fem la búsqueda executant:
[e...]$ hmmpfam /disc9/DB/pfam/pfam 7LES_DROMES > pfam.xec
El resultat (output) estarà al arxiu pfam.xec

3.-Creació d'alineaments múltiples amb hmmalign
Podrem crear un alineament múltiple de moltes seqüències. En aquesta pràctica alinearem les 630 globines del arxiu globin630, a partir del model HMM que hem realitzat anteriorment a partir d'una representació més petita d'aquestes globines (50 globines, en el model globin.hmm)
Execució:
[e...]$ hmmp -o globins630.ali globin.hmm globins630.fa
Obtenim l'alineament múltiple de les globines en el fitxer globins630.ali.

Index