- DESCRIPCIÓ TEÒRICA DEL PROGRAMA
En la primera part de la pràctica emprarem el programa Clustalw, per tal de realitzar un aliniament múltiple de les diferents seqüències que anirem obtenint al llarg de la pràctica, després de realitzar diferents cerques en diferents bases de dades (pdb, swissprot).
- DESCRIPCIÓ PRÀCTICA DELS COMANDAMENTS DEL PROGRAMA
Les comandes que hem utilitzat durant la pràctica han estat les següents:
BLASTP:
$cp /disc9/practica_3/BLAST/globin/hbb_tarsy.sw .
$/disc9/BLAST/EXE/blastall -p blastp -i hbb_tarsy.sw -d /disc9/DB/blast/swissprot -o blast_search1.out &
$/disc9/BLAST/EXE/blastall -p blastp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -o blast_search2.out &
|
A continuació cerquem a la web: http://www.expasy.ch (pàgina de Swissprot i TrEMBL), les seqüències corresponents a les proteïnes: hba_leppa.sw, hbaz_caphi.sw, hbaz_human.sw.
Aquestes són algunes de les seqüències que haurien de sortir-nos als nostres outputs, un cop executades les comandes anteriors de cerca amb swissprot i pdb.
Les seqüències corresponents a aquestes proteïnes les juntem en un mateix arxiu que contingui a més, la seqüència problema (hbb_tarsy.sw). El resultat de lŽarxiu hauria de ser idèntic al que sŽadjunta (llistat.fa).
Un cop tenim lŽarxiu amb les seqüències en format fasta, podem fer correr el programa Clustalw:
[e14910.bio. [...] practica_3]$ /disc9/CLUSTALW/clustalw
**************************************************************
******** CLUSTAL W(1.60) Multiple Sequence Alignments ********
**************************************************************
1. Sequence Input From Disc
2. Multiple Alignments
3. Profile / Structure Alignments
4. Phylogenetic trees
S. Execute a system command
H. HELP
X. EXIT (leave program)
Your choice: 1
Sequences should all be in 1 file.
6 formats accepted:
NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF.
Enter the name of the sequence file: llistat.fa
Sequence format is Pearson
Sequences assumed to be PROTEIN
Sequence 1: gi|122699| 147 aa
Sequence 2: sp|P02020| 143 aa
Sequence 3: sp|P13786| 141 aa
Sequence 4: sp|P02008| 141 aa
**************************************************************
******** CLUSTAL W(1.60) Multiple Sequence Alignments ********
**************************************************************
1. Sequence Input From Disc
2. Multiple Alignments
3. Profile / Structure Alignments
4. Phylogenetic trees
S. Execute a system command
H. HELP
X. EXIT (leave program)
Your choice: 2
****** MULTIPLE ALIGNMENT MENU ******
1. Do complete multiple alignment now (Slow/Accurate)
2. Produce guide tree file only
3. Do alignment using old guide tree file
4. Toggle Slow/Fast pairwise alignments = SLOW
5. Pairwise alignment parameters
6. Multiple alignment parameters
7. Reset gaps between alignments? = ON
8. Toggle screen display = ON
9. Output format options
S. Execute a system command
H. HELP
or press [RETURN] to go back to main menu
Your choice: 1
Enter a name for the CLUSTAL output file [llistat.aln]:
Enter name for GUIDE TREE file [llistat.dnd]:
Start of Pairwise alignments
Aligning...
Sequences (1:2) Aligned. Score: 32
Sequences (1:3) Aligned. Score: 36
Sequences (1:4) Aligned. Score: 34
Sequences (2:3) Aligned. Score: 35
Sequences (2:4) Aligned. Score: 34
Sequences (3:4) Aligned. Score: 85
Guide tree file created: [llistat.dnd]
Start of Multiple Alignment
There are 3 groups
Aligning...
Group 1: Sequences: 2 Score:2147
Group 2: Delayed
Group 3: Delayed
Sequence:1 Score:995
Sequence:2 Score:1004
Alignment Score 2645
Consensus length = 150
CLUSTAL-Alignment file created [llistat.aln]
CLUSTAL W(1.60) multiple sequence alignment
gi|122699| MVHLTAEEKAAVTALWGKVD--VEDVGGEALGRLLVVYPWTQRFFDSFG-DLSTPAAVMS
sp|P02020| -MRFSQDDEVLIKEAWGLLH-QIPNAGGEALARMFSCYPGTKSYFPHFGHDFSAN-----
sp|P13786| --SLTRTERTIILSLWSKISTQADVIGTETLERLFSCYPQAKTYFPHF--DLHS-----G
sp|P02008| --SLTKTERTIIVSMWAKISTQADTIGTETLERLFLSHPQTKTYFPHF--DLHP-----G
. . . * . * *.* *. * .. .* * *
gi|122699| NAKVKAHGKKVLNAFSDGMAHLDNLKGTFAKLSELHCDKLHVDPENFRLLGNVLVCVLAH
sp|P02020| NEKVKHHGKKVVDAIGQGVQHLHDLSSCLHTLSEKHARELMVDPCNFQYLIEAIMTTIAA
sp|P13786| SAQLRAHGSKVVAAVGDAVKSIDNVTSALSKLSELHAYVLRVDPVNFKFLSHCLLVTLAS
sp|P02008| SAQLRAHGSKVVAAVGDAVKSIDDIGGALSKLSELHAYILRVDPVNFKLLSHCLLVTLAA
... ** **. * . . . . *** *. * *** **. * .. .*
gi|122699| HFGKEFTPQVQAAYQKVVAGVATALAHKYH
sp|P02020| HYGEKFTPEINCAAEKCLGQIVHVLISLYR
sp|P13786| HFPADFTADAHAAWDKFLSIVSGVLTEKYR
sp|P02008| RFPADFTAEAHAAWDKFLSVVSSVLTEKYR
.. ** .* * . . * *.
Press [RETURN] to continue:
****** MULTIPLE ALIGNMENT MENU ******
1. Do complete multiple alignment now (Slow/Accurate)
2. Produce guide tree file only
3. Do alignment using old guide tree file
4. Toggle Slow/Fast pairwise alignments = SLOW
5. Pairwise alignment parameters
6. Multiple alignment parameters
7. Reset gaps between alignments? = ON
8. Toggle screen display = ON
9. Output format options
S. Execute a system command
H. HELP
or press [RETURN] to go back to main menu
Your choice:
**************************************************************
******** CLUSTAL W(1.60) Multiple Sequence Alignments ********
**************************************************************
1. Sequence Input From Disc
2. Multiple Alignments
3. Profile / Structure Alignments
4. Phylogenetic trees
S. Execute a system command
H. HELP
X. EXIT (leave program)
Your choice: x
|
Output de sortida del programa : llistat.aln
Altres comandes també utilitzades durant la pràctica han estat les següents:
PSI_BLAST:
$/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -j 2 -C hbb_tarsy.bls1 -o hbb_tarsy.out &
$/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -j 2 -R hbb_tarsy.bls1 -C hbb_tarsy.bls2 -j 2 -o hbb_tarsy.out2 &
$/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -B llistat2.aln* -j 2 -d/disc9/DB/blast/pdb -o hbb_tarsy.out3 &
|
*Aquest arxiu correspon a lŽoutput del clustalw fet amb lŽarxiu llistat.fa, i modificat posteriorment (sŽhi han eliminat tots els caràcters rars: *, · , ...)
Un cop executades les comandes del PSI-BLAST, creem un arxiu que contingui algunes de les seqüències homòlogues obtingudes a partir dels resultats.
Així doncs, un cop creem lŽarxiu amb el conjunt de seqüències en format fasta, correm el programa dŽaliniament Clustalw (utilitzarem com a input, lŽarxiu en format fasta: llistatPSIblast.fa).
El resultat que nŽobtenim és el que es pot observar tot clicant lŽanexe (llistatPSIblast.aln).
- EXEMPLES DE COMANDAMENTS I CONDICIONS APLICADES EN LŽEXECUCIÓ
Diferents opcions pels diferents mètodes de cerca |
BLAST | PSI-BLAST |
-p: Nom del Programa (en el nostre cas: blastp, ja que treballa amb proteïnes) -i: Nom arxiu dŽentrada (Ex: hbb_tarsy.sw) -d: Base de dades (Ex: /disc9/DB/blast/pdb) -o: (Opcional) Arxiu de sortida (Ex: blast_search1.out)
clica aquí per a veure més opcions del programa |
-o: (Opcional) Arxiu de sortida (Ex: hbb_tarsy.out) -i: Arxiu dŽentrada (Ex: hbb_tarsy.sw) -j: Nombre màxim de pasos a utilitzar amb PSI-Blast (nombre dŽiteracions) -C: (Opcional) Arxiu de sortida pel control del funcionament de PSI-Blast (Ex: hbb_tarsy.bls1) -R: Arxiu dŽentrada per a iniciar PSI-Blast
clica aquí per a veure més opcions del programa |
- RESULTATS OBTINGUTS DE LŽAPLICACIÓ DEL PROGRAMA ALS EXEMPLES COMENTATS I PROBLEMES PROPOSATS A LA PRÀCTICA
- Desenvolupa un mètode de cerca per tal de trobar a les bases de dades de seqüències de proteïnes amb estructura coneguda les més homòlogues a un seqüència problema.
Per tal de posar en pràctica totes les comandes i demés opcions que hem anat estudiant anteriorment, agafarem tres seqüències problema donades i les analitzarem par per pas.
DŽentre totes les seqüències problema donades, nŽescullo tres:
seq3.fa
seq4.fa
seq7.fa
A continuació es detallen els passos realitzats amb cada una de les tres seqüències, així com els arxius de sortida resultants en cada cas:
- $ /disc9/BLAST/EXE/blastall -p blastp -i nomseq.fa -d /disc9/DB/blast/swissprot -o blast_nomseq.out
- $ /disc9/BLAST/EXE/blastall -p blastp -i nomseq.fa -d /disc9/DB/blast/pdb -o blast_nomseq.out2
Creo un arxiu que contingui diferents seqüències homòlogues trobades, en format fasta, a partir de les bases de dades (primer cerco a swissprot i després realitzo una cerca més acurada en pdb).
LŽarxiu el creo a partir dels resultats obtinguts de la base de dades pdb.
- $ /disc9/CLUSTALW/clustalw
SŽobtenen diferents aliniaments per a cada una de les seqüències: seqs_nomarxiu.aln
- $ /disc9/BLAST/EXE/blastpgp -i nomseq.fa -d /disc9/DB/blast/pdb -j 2 -C hbb_tarsy.bls1 -o nomseq.out &
- $ /disc9/BLAST/EXE/blastpgp -i nomseq.fa -d /disc9/DB/blast/pdb -j 2 -R hbb_tarsy.bls1 -C hbb_tarsy.bls2 -j 2 -o nomseq.out2 &
Creo un arxiu que contingui diferents seqüències homòlogues trobades, en format fasta, a partir de les bases de dades (pdb amb el programa PSI-Blast).
- $ /disc9/CLUSTALW/clustalw
SŽobtenen diferents aliniaments per a cada una de les seqüències: seqs_nomarxiuPSIblast.aln
CONCLUSIONS:
El fet que PSI-Blast presenti una sèrie dŽiteracions (definides per lŽusuari) permet la troballa dŽaquells homòlegs més remots, que dŽaltra manera no sŽhan pogut trobar amb una sola cerca en Blast.
PSI-Blast, presenta certs avantatges sobre Blast com poden ser...:
- Algorisme heurístic, ràpid i eficient
- Búsqueda a partir de PSSM (Position-specific Scoring Matrix)
- Software senzill
... així com certs incovenients:
- Cal revisar els resultats que se nŽobtenen, ja que poden ser inclossos alguns falsos homòlegs remots
- De vegades mostra seqüències tant semblants, que pot donar problemes de superposició
- LŽE-value que se nŽobté, mostra el grau de coincidència amb la matriu de pesos generada en un pas anterior i no pas amb la seqüència original
Cal destacar que els resultats obtinguts amb les tres seqüències problema són força similars tant si correm Blastp com PSI-Blast, excepte en el cas de la seqüència 4.
Les altres seqüències (la 3 i la 7), presenten uns resultats força semblants en ambdues versions; en canvi, amb la seqüència 4, els resultats que en resulten, desconcerten força.
La cerca dŽaquesta seqüència amb Blastp, mostra uns deu resultats de possibles proteïnes homòlogues però els E-values dŽaquestes, són molt alts (poc significatius). Per una altra banda, PSI-Blast, només dóna dos resultats i els E-values en aquest cas tampoc aporten cap dada relevant.
Així doncs, val a dir que el resultats obtinguts de correr el programa amb Blastp i amb PSI-Blast així com lŽaliniament obtingut a partir de Clustalw no són vàlids (dades errònies), ja que els programes no han donat cap proteïna que sigui homòloga a la donada (E-values < 10-05 poden considerar-se acceptables).
- DESCRIPCIÓ TEÒRICA DEL PROGRAMA
HMMER, és un paquet de software que conté en ell diversos programes, cadascun dŽells relacionat amb la construcció, cerca, tractament, etc. dels Models Ocults de Markov (Hidden Markov Models).
LŽhmmbuild, construeix un Model Ocult de Markov (HMM) a partir dŽun aliniament de seqüències.
LŽhmmcalibrate, és una comanda opcional del paquet, que parteix dŽun HMM i nŽelimina tota informació redundant (repeticions, duplicacions...) del model.
Aquesta comanda, elimina el biaix existent en el nostre sistema generat.
LŽhmmsearch, busca sobre bases de dades de seqüències aquella seqüència que encaixi amb un model donat a testar.
LŽhmmpfam, busca sobre bases de dades de HMM un model que encaixi amb una seqüència donada a testar.
LŽhmmalign, està indicat per a lŽaliniament de seqüències dŽun model donat.
- DESCRIPCIÓ PRÀCTICA DELS COMANDAMENTS DEL PROGRAMA
Durant la primera part de la pràctica, les comandes que hem utilitzat han estat les següents:
$ cp -r /disc9/practica_3/HMMER .
$ cd HMMER
$ tcsh
[e14910.bio.acexs.au.upf@au48239 practica_3]$ source /disc9/cshrc
[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild globin.hmm globins50.msf
Construeix un model (globin.hmm) a partir dŽun aliniament de seqüències donat (globins50.msf)
[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmsearch globin.hmm Artemia.fa > artemia
Cerca de nous dominis globin, a partir dŽun HMM creat (globin.hmm), sobre una base de dades de seqüències donada (Artemia.fa)
[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmsearch globin.hmm /disc9/DB/blast/swissprot > swisspract3_2
DŽigual forma que lŽanterior, busca sobre bases de dades de seqüències, aquella seqüènica que encaixi amb un model donat. En aquest cas, la base de dades de seqüències és més gran.
A la segona part de la pràctica, les comandes utilitzades han estat:
[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild -A myhmms rrm.slx
[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild -A myhmms fn3.slx
[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild -A myhms pkinase.slx
Afegir lŽopció -A a lŽhmmbuild, fa que es crei un model HMM (en aquest cas myhmms), que conté diversos HMM concatenats en ell. Es pot obtenir dŽigual forma un HMM que contingui diversos HMM en ell, tot ajuntant tres HMM construïts en un sol arxiu, amb la comanda cat.
[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmcalibrate myhmms
Aquest pas és opcional, però en fer-lo, sŽincrementa la sensibilitat de cerca sobre les diferents bases de dades.Aquest pas triga en correr cert temps, i al finalitzar, genera un arxiu dŽextensió .xxx
[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmpfam myhmms 7LES_DROME > 7les_drome
A partir de la base de dades de HMM creada en el pas anterior (myhmms), ara buscarem un model que encaixi amb la seqüència donada (7LES_DROME)
[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmalign -o globins630.ali globin.hmm globins630.fa
Crea un aliniament múltiple de seqüències partint dŽun aliniament inicial de seqüències, emprat per a crear el HMM i hi alinia a més, totes les seqüències trobades en les diferents bases de dades de models testades.
LŽarxiu de sortida resultant: globins630.ali
- EXEMPLES DE COMANDAMENTS I CONDICIONS APLICADES EN LŽEXECUCIÓ
Comparació entre els diferents programes |
PSI-Blast vs. HMM |
Similituds | Diferències |
Ambdós mètodes són algorismes específics de posició (no independents de posició com BLAST...) i per tant els hi confereix lŽadvantatge de ser més precissos en aquelles regions conservades, que no pas en les no conservades. Sempre es comparen contra famílies de proteïnes conegudes. Ambdós són mètodes iteratius de cerca: mentre en PSI-Blast es pot determinar el nombre dŽiteracions, a HMM, el nombre dŽiteracions, no cesa fins que ja no pot afegir cap més seqüència sobre lŽaliniament de partida. | PSI-Blast: Parteix dŽuna seqüència i cerca en bases de dades de seqüències. Cerca de proteïnes sobre BLAST i utilitza una PSSM (Position-specific Scoring Matrix) com a resultat, en comptes dŽuna seqüència individual. HMM: compara un model donat contra una base de dades de seqüències. |
Comparació entre les diferents bases de dades |
PFAM vs. Swissprot |
Similituds | Diferències |
Són bases de dades per a la cerca de proteïnes. Aporten informació addicional: estructura, dominis, links a dŽaltres bases de dades,... | PFAM: Base de dades de models HMM. Ideal per a la cerca de noves proteïnes dins una mateixa família. Swissprot:Base de dades de seqüències. La més gran pel que fa al nombre dŽentrades en ella. És la base de dades de referència per a lŽinici de la cerca sobre una proteïna. |
- RESULTATS OBTINGUTS DE LŽAPLICACIÓ DEL PROGRAMA ALS EXEMPLES COMENTATS I PROBLEMES PROPOSATS A LA PRÀCTICA
- Fes servir el teu mètode de búsqueda per comparar el resultat de buscar una seqüència problema a la base de dades de PFAM amb HMM o amb PSI-Blast a Swissprot: aplica-ho a tres seqüències del directori desempaquetat de "seq.tar".
Per tal dŽarribar a unes conclusions comparables amb els resultats de la pràctica 3.1, analitzarem dŽigual forma, les seqüències 3,4 i 7.
Els passos realitzats per tal dŽobtenir uns resultats a comparar partint dŽun model HMM i així com els arxius de sortida en cada cas, han estat:
- [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild nomseq.hmm seqs_nomseqPSIblast.aln*
*Aquest arxiu prové del resultat de lŽaliniament a partir del programa Clustalw, obtingut a partir de la cerca en PSI-Blast (veure apartat anterior).
- [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmcalibrate nomseq.hmm
(pas opcional)
- [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmsearch nomseq.hmm /disc9/DB/blast/swissprot > searchnomseq
- [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmpfam /disc9/DB/pfam/Pfam nomseq.fa > pfamnomseq
CONCLUSIONS:
Val a dir que comparant els mètodes de cerca PSI-Blast i hmmsearch o hmmpfam, tot i que aquests últims triguen força més a executar-se, són més precisos.
En el cas de la seqüència 4, mentre que del PSI-Blast no en resultava cap proteïna homòloga, ara emprant hmmsearch o hmmpfam, hi trobem una família de proteïnes, homòlogues a la seqüència problema, i que en aquest cas si que resulta ser força significativa (E-value de << 10-05 per ambdós casos).
No sŽha de confondre el fet que el resultat de hmmpfam només et doni un resultat significatiu amb que només existeix una proteïna homòloga: el fet que hmmpfam només et doni un resultat significatiu, vol dir que la família de proteïnes que et mostra, conté diverses proteïnes en ella que mantenen certa homologia amb la teva proteïna problema.
En canvi en hmmsearch, tŽordena segons lŽE-value les diferents proteïnes més homòlogues a la original.