PRÀCTIQUES DE BIOLOGIA ESTRUCTURAL - Ma. Carme Molina i Tomàs

PRÀCTICA 1

PRÀCTICA 2

PRÀCTICA 3:
PART 1:

Descripció teòrica del programa
Descripció pràctica dels comandaments del programa
Exemples de comandaments i condicions aplicades en l´execució
Resultats obtinguts de l´aplicació del programa als exemples comentats i problemes proposats a la pràctica

PART 2:

Descripció teòrica del programa
Descripció pràctica dels comandaments del programa
Exemples de comandaments i condicions aplicades en l´execució
Resultats obtinguts de l´aplicació del programa als exemples comentats i problemes proposats a la pràctica

PRÀCTICA 4

PRÀCTICA 5

PRÀCTICA 6

PRÀCTICA 7

PART 1: Aliniament amb Clustalw

DESCRIPCIÓ TEÒRICA DEL PROGRAMA
En la primera part de la pràctica emprarem el programa Clustalw, per tal de realitzar un aliniament múltiple de les diferents seqüències que anirem obtenint al llarg de la pràctica, després de realitzar diferents cerques en diferents bases de dades (pdb, swissprot).

DESCRIPCIÓ PRÀCTICA DELS COMANDAMENTS DEL PROGRAMA
Les comandes que hem utilitzat durant la pràctica han estat les següents:

BLASTP:
$cp /disc9/practica_3/BLAST/globin/hbb_tarsy.sw .

$/disc9/BLAST/EXE/blastall -p blastp -i hbb_tarsy.sw -d /disc9/DB/blast/swissprot -o blast_search1.out &

$/disc9/BLAST/EXE/blastall -p blastp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -o blast_search2.out &

A continuació cerquem a la web: http://www.expasy.ch (pàgina de Swissprot i TrEMBL), les seqüències corresponents a les proteïnes: hba_leppa.sw, hbaz_caphi.sw, hbaz_human.sw.
Aquestes són algunes de les seqüències que haurien de sortir-nos als nostres outputs, un cop executades les comandes anteriors de cerca amb swissprot i pdb.
Les seqüències corresponents a aquestes proteïnes les juntem en un mateix arxiu que contingui a més, la seqüència problema (hbb_tarsy.sw). El resultat de l´arxiu hauria de ser idèntic al que s´adjunta (llistat.fa).
Un cop tenim l´arxiu amb les seqüències en format fasta, podem fer correr el programa Clustalw:

[e14910.bio. [...] practica_3]$ /disc9/CLUSTALW/clustalw

************************************************************** ******** CLUSTAL W(1.60) Multiple Sequence Alignments ******** ************************************************************** 1. Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: 1 Sequences should all be in 1 file. 6 formats accepted: NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF. Enter the name of the sequence file: llistat.fa Sequence format is Pearson Sequences assumed to be PROTEIN Sequence 1: gi|122699| 147 aa Sequence 2: sp|P02020| 143 aa Sequence 3: sp|P13786| 141 aa Sequence 4: sp|P02008| 141 aa ************************************************************** ******** CLUSTAL W(1.60) Multiple Sequence Alignments ******** ************************************************************** 1. Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: 2 ****** MULTIPLE ALIGNMENT MENU ****** 1. Do complete multiple alignment now (Slow/Accurate) 2. Produce guide tree file only 3. Do alignment using old guide tree file 4. Toggle Slow/Fast pairwise alignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters 7. Reset gaps between alignments? = ON 8. Toggle screen display = ON 9. Output format options S. Execute a system command H. HELP or press [RETURN] to go back to main menu Your choice: 1 Enter a name for the CLUSTAL output file [llistat.aln]: Enter name for GUIDE TREE file [llistat.dnd]: Start of Pairwise alignments Aligning... Sequences (1:2) Aligned. Score: 32 Sequences (1:3) Aligned. Score: 36 Sequences (1:4) Aligned. Score: 34 Sequences (2:3) Aligned. Score: 35 Sequences (2:4) Aligned. Score: 34 Sequences (3:4) Aligned. Score: 85 Guide tree file created: [llistat.dnd] Start of Multiple Alignment There are 3 groups Aligning... Group 1: Sequences: 2 Score:2147 Group 2: Delayed Group 3: Delayed Sequence:1 Score:995 Sequence:2 Score:1004 Alignment Score 2645 Consensus length = 150 CLUSTAL-Alignment file created [llistat.aln] CLUSTAL W(1.60) multiple sequence alignment gi|122699| MVHLTAEEKAAVTALWGKVD--VEDVGGEALGRLLVVYPWTQRFFDSFG-DLSTPAAVMS sp|P02020| -MRFSQDDEVLIKEAWGLLH-QIPNAGGEALARMFSCYPGTKSYFPHFGHDFSAN----- sp|P13786| --SLTRTERTIILSLWSKISTQADVIGTETLERLFSCYPQAKTYFPHF--DLHS-----G sp|P02008| --SLTKTERTIIVSMWAKISTQADTIGTETLERLFLSHPQTKTYFPHF--DLHP-----G . . . * . * *.* *. * .. .* * * gi|122699| NAKVKAHGKKVLNAFSDGMAHLDNLKGTFAKLSELHCDKLHVDPENFRLLGNVLVCVLAH sp|P02020| NEKVKHHGKKVVDAIGQGVQHLHDLSSCLHTLSEKHARELMVDPCNFQYLIEAIMTTIAA sp|P13786| SAQLRAHGSKVVAAVGDAVKSIDNVTSALSKLSELHAYVLRVDPVNFKFLSHCLLVTLAS sp|P02008| SAQLRAHGSKVVAAVGDAVKSIDDIGGALSKLSELHAYILRVDPVNFKLLSHCLLVTLAA ... ** **. * . . . . *** *. * *** **. * .. .* gi|122699| HFGKEFTPQVQAAYQKVVAGVATALAHKYH sp|P02020| HYGEKFTPEINCAAEKCLGQIVHVLISLYR sp|P13786| HFPADFTADAHAAWDKFLSIVSGVLTEKYR sp|P02008| RFPADFTAEAHAAWDKFLSVVSSVLTEKYR .. ** .* * . . * *. Press [RETURN] to continue: ****** MULTIPLE ALIGNMENT MENU ****** 1. Do complete multiple alignment now (Slow/Accurate) 2. Produce guide tree file only 3. Do alignment using old guide tree file 4. Toggle Slow/Fast pairwise alignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters 7. Reset gaps between alignments? = ON 8. Toggle screen display = ON 9. Output format options S. Execute a system command H. HELP or press [RETURN] to go back to main menu Your choice: ************************************************************** ******** CLUSTAL W(1.60) Multiple Sequence Alignments ******** ************************************************************** 1. Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: x

Output de sortida del programa : llistat.aln

Altres comandes també utilitzades durant la pràctica han estat les següents:

PSI_BLAST:
$/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -j 2 -C hbb_tarsy.bls1 -o hbb_tarsy.out &

$/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -j 2 -R hbb_tarsy.bls1 -C hbb_tarsy.bls2 -j 2 -o hbb_tarsy.out2 &

$/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -B llistat2.aln^* -j 2 -d/disc9/DB/blast/pdb -o hbb_tarsy.out3 &

^*Aquest arxiu correspon a l´output del clustalw fet amb l´arxiu llistat.fa, i modificat posteriorment (s´hi han eliminat tots els caràcters rars: *, · , ...)

Un cop executades les comandes del PSI-BLAST, creem un arxiu que contingui algunes de les seqüències homòlogues obtingudes a partir dels resultats.
Així doncs, un cop creem l´arxiu amb el conjunt de seqüències en format fasta, correm el programa d´aliniament Clustalw (utilitzarem com a input, l´arxiu en format fasta: llistatPSIblast.fa).
El resultat que n´obtenim és el que es pot observar tot clicant l´anexe (llistatPSIblast.aln).

EXEMPLES DE COMANDAMENTS I CONDICIONS APLICADES EN L´EXECUCIÓ

Diferents opcions pels diferents mètodes de cerca

BLAST PSI-BLAST

-p: Nom del Programa
(en el nostre cas: blastp, ja que treballa amb proteïnes)
-i: Nom arxiu d´entrada
(Ex: hbb_tarsy.sw)
-d: Base de dades
(Ex: /disc9/DB/blast/pdb)
-o: (Opcional) Arxiu de sortida
(Ex: blast_search1.out)

clica aquí per a veure més opcions del programa
-o: (Opcional) Arxiu de sortida
(Ex: hbb_tarsy.out)
-i: Arxiu d´entrada
(Ex: hbb_tarsy.sw)
-j: Nombre màxim de pasos a utilitzar amb PSI-Blast (nombre d´iteracions)
-C: (Opcional) Arxiu de sortida pel control del funcionament de PSI-Blast
(Ex: hbb_tarsy.bls1)
-R: Arxiu d´entrada per a iniciar PSI-Blast

clica aquí per a veure més opcions del programa

RESULTATS OBTINGUTS DE L´APLICACIÓ DEL PROGRAMA ALS EXEMPLES COMENTATS I PROBLEMES PROPOSATS A LA PRÀCTICA

Desenvolupa un mètode de cerca per tal de trobar a les bases de dades de seqüències de proteïnes amb estructura coneguda les més homòlogues a un seqüència problema.

Per tal de posar en pràctica totes les comandes i demés opcions que hem anat estudiant anteriorment, agafarem tres seqüències problema donades i les analitzarem par per pas.
D´entre totes les seqüències problema donades, n´escullo tres:
seq3.fa

seq4.fa

seq7.fa

A continuació es detallen els passos realitzats amb cada una de les tres seqüències, així com els arxius de sortida resultants en cada cas:

$ /disc9/BLAST/EXE/blastall -p blastp -i nomseq.fa -d /disc9/DB/blast/swissprot -o blast_nomseq.out

blast_seq3.out blast_seq4.out blast_seq7.out

$ /disc9/BLAST/EXE/blastall -p blastp -i nomseq.fa -d /disc9/DB/blast/pdb -o blast_nomseq.out2

blast_seq3.out2 blast_seq4.out2 blast_seq7.out2

Creo un arxiu que contingui diferents seqüències homòlogues trobades, en format fasta, a partir de les bases de dades (primer cerco a swissprot i després realitzo una cerca més acurada en pdb).
L´arxiu el creo a partir dels resultats obtinguts de la base de dades pdb.

seqs_seq3.fa seqs_seq4.fa seqs_seq7.fa

$ /disc9/CLUSTALW/clustalw

S´obtenen diferents aliniaments per a cada una de les seqüències: seqs_nomarxiu.aln

seqs_seq3.aln seqs_seq4.aln seqs_seq7.aln

$ /disc9/BLAST/EXE/blastpgp -i nomseq.fa -d /disc9/DB/blast/pdb -j 2 -C hbb_tarsy.bls1 -o nomseq.out &

seq3.out seq4.out seq7.out

$ /disc9/BLAST/EXE/blastpgp -i nomseq.fa -d /disc9/DB/blast/pdb -j 2 -R hbb_tarsy.bls1 -C hbb_tarsy.bls2 -j 2 -o nomseq.out2 &

seq3.out2 seq4.out2 seq7.out2

Creo un arxiu que contingui diferents seqüències homòlogues trobades, en format fasta, a partir de les bases de dades (pdb amb el programa PSI-Blast).

seqs_seq3PSIblast.fa seqs_seq4PSIblast.fa seqs_seq7PSIblast.fa

$ /disc9/CLUSTALW/clustalw

S´obtenen diferents aliniaments per a cada una de les seqüències: seqs_nomarxiuPSIblast.aln

seqs_seq3PSIblast.aln seqs_seq4PSIblast.aln seqs_seq7PSIblast.aln

CONCLUSIONS:
El fet que PSI-Blast presenti una sèrie d´iteracions (definides per l´usuari) permet la troballa d´aquells homòlegs més remots, que d´altra manera no s´han pogut trobar amb una sola cerca en Blast.
PSI-Blast, presenta certs avantatges sobre Blast com poden ser...:

Algorisme heurístic, ràpid i eficient
Búsqueda a partir de PSSM (Position-specific Scoring Matrix)
Software senzill

... així com certs incovenients:

Cal revisar els resultats que se n´obtenen, ja que poden ser inclossos alguns falsos homòlegs remots
De vegades mostra seqüències tant semblants, que pot donar problemes de superposició
L´E-value que se n´obté, mostra el grau de coincidència amb la matriu de pesos generada en un pas anterior i no pas amb la seqüència original

Cal destacar que els resultats obtinguts amb les tres seqüències problema són força similars tant si correm Blastp com PSI-Blast, excepte en el cas de la seqüència 4.
Les altres seqüències (la 3 i la 7), presenten uns resultats força semblants en ambdues versions; en canvi, amb la seqüència 4, els resultats que en resulten, desconcerten força.
La cerca d´aquesta seqüència amb Blastp, mostra uns deu resultats de possibles proteïnes homòlogues però els E-values d´aquestes, són molt alts (poc significatius). Per una altra banda, PSI-Blast, només dóna dos resultats i els E-values en aquest cas tampoc aporten cap dada relevant.
Així doncs, val a dir que el resultats obtinguts de correr el programa amb Blastp i amb PSI-Blast així com l´aliniament obtingut a partir de Clustalw no són vàlids (dades errònies), ja que els programes no han donat cap proteïna que sigui homòloga a la donada (E-values < 10^-05 poden considerar-se acceptables).

PART 2: Aliniament amb hmmalign

DESCRIPCIÓ TEÒRICA DEL PROGRAMA
HMMER, és un paquet de software que conté en ell diversos programes, cadascun d´ells relacionat amb la construcció, cerca, tractament, etc. dels Models Ocults de Markov (Hidden Markov Models).
L´hmmbuild, construeix un Model Ocult de Markov (HMM) a partir d´un aliniament de seqüències.
L´hmmcalibrate, és una comanda opcional del paquet, que parteix d´un HMM i n´elimina tota informació redundant (repeticions, duplicacions...) del model.
Aquesta comanda, elimina el biaix existent en el nostre sistema generat.
L´hmmsearch, busca sobre bases de dades de seqüències aquella seqüència que encaixi amb un model donat a testar.
L´hmmpfam, busca sobre bases de dades de HMM un model que encaixi amb una seqüència donada a testar.
L´hmmalign, està indicat per a l´aliniament de seqüències d´un model donat.

DESCRIPCIÓ PRÀCTICA DELS COMANDAMENTS DEL PROGRAMA
Durant la primera part de la pràctica, les comandes que hem utilitzat han estat les següents:
$ cp -r /disc9/practica_3/HMMER .

$ cd HMMER

$ tcsh

[e14910.bio.acexs.au.upf@au48239 practica_3]$ source /disc9/cshrc

[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild globin.hmm globins50.msf

Construeix un model (globin.hmm) a partir d´un aliniament de seqüències donat (globins50.msf)

[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmsearch globin.hmm Artemia.fa > artemia

Cerca de nous dominis globin, a partir d´un HMM creat (globin.hmm), sobre una base de dades de seqüències donada (Artemia.fa)

[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmsearch globin.hmm /disc9/DB/blast/swissprot > swisspract3_2

D´igual forma que l´anterior, busca sobre bases de dades de seqüències, aquella seqüènica que encaixi amb un model donat. En aquest cas, la base de dades de seqüències és més gran.

A la segona part de la pràctica, les comandes utilitzades han estat:

[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild -A myhmms rrm.slx

[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild -A myhmms fn3.slx

[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild -A myhms pkinase.slx

Afegir l´opció -A a l´hmmbuild, fa que es crei un model HMM (en aquest cas myhmms), que conté diversos HMM concatenats en ell. Es pot obtenir d´igual forma un HMM que contingui diversos HMM en ell, tot ajuntant tres HMM construïts en un sol arxiu, amb la comanda cat.

[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmcalibrate myhmms

Aquest pas és opcional, però en fer-lo, s´incrementa la sensibilitat de cerca sobre les diferents bases de dades.Aquest pas triga en correr cert temps, i al finalitzar, genera un arxiu d´extensió .xxx

[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmpfam myhmms 7LES_DROME > 7les_drome

A partir de la base de dades de HMM creada en el pas anterior (myhmms), ara buscarem un model que encaixi amb la seqüència donada (7LES_DROME)

[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmalign -o globins630.ali globin.hmm globins630.fa

Crea un aliniament múltiple de seqüències partint d´un aliniament inicial de seqüències, emprat per a crear el HMM i hi alinia a més, totes les seqüències trobades en les diferents bases de dades de models testades.

L´arxiu de sortida resultant: globins630.ali

EXEMPLES DE COMANDAMENTS I CONDICIONS APLICADES EN L´EXECUCIÓ

Comparació entre els diferents programes

PSI-Blast vs. HMM

Similituds Diferències

Ambdós mètodes són algorismes específics de posició (no independents de posició com BLAST...) i per tant els hi confereix l´advantatge de ser més precissos en aquelles regions conservades, que no pas en les no conservades.
Sempre es comparen contra famílies de proteïnes conegudes.
Ambdós són mètodes iteratius de cerca: mentre en PSI-Blast es pot determinar el nombre d´iteracions, a HMM, el nombre d´iteracions, no cesa fins que ja no pot afegir cap més seqüència sobre l´aliniament de partida.
PSI-Blast: Parteix d´una seqüència i cerca en bases de dades de seqüències.
Cerca de proteïnes sobre BLAST i utilitza una PSSM (Position-specific Scoring Matrix) com a resultat, en comptes d´una seqüència individual.
HMM: compara un model donat contra una base de dades de seqüències.

Comparació entre les diferents bases de dades

PFAM vs. Swissprot

Similituds Diferències

Són bases de dades per a la cerca de proteïnes.
Aporten informació addicional: estructura, dominis, links a d´altres bases de dades,...
PFAM: Base de dades de models HMM.
Ideal per a la cerca de noves proteïnes dins una mateixa família.
Swissprot:Base de dades de seqüències.
La més gran pel que fa al nombre d´entrades en ella. És la base de dades de referència per a l´inici de la cerca sobre una proteïna.

RESULTATS OBTINGUTS DE L´APLICACIÓ DEL PROGRAMA ALS EXEMPLES COMENTATS I PROBLEMES PROPOSATS A LA PRÀCTICA

Fes servir el teu mètode de búsqueda per comparar el resultat de buscar una seqüència problema a la base de dades de PFAM amb HMM o amb PSI-Blast a Swissprot: aplica-ho a tres seqüències del directori desempaquetat de "seq.tar".

Per tal d´arribar a unes conclusions comparables amb els resultats de la pràctica 3.1, analitzarem d´igual forma, les seqüències 3,4 i 7.
Els passos realitzats per tal d´obtenir uns resultats a comparar partint d´un model HMM i així com els arxius de sortida en cada cas, han estat:

[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild nomseq.hmm seqs_nomseqPSIblast.aln^*

seq3.hmm seq4.hmm seq7.hmm

^*Aquest arxiu prové del resultat de l´aliniament a partir del programa Clustalw, obtingut a partir de la cerca en PSI-Blast (veure apartat anterior).

[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmcalibrate nomseq.hmm
(pas opcional)

[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmsearch nomseq.hmm /disc9/DB/blast/swissprot > searchnomseq

searchseq3 searchseq4 searchseq7

[e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmpfam /disc9/DB/pfam/Pfam nomseq.fa > pfamnomseq

pfamseq3 pfamseq4 pfamseq7

CONCLUSIONS:
Val a dir que comparant els mètodes de cerca PSI-Blast i hmmsearch o hmmpfam, tot i que aquests últims triguen força més a executar-se, són més precisos.
En el cas de la seqüència 4, mentre que del PSI-Blast no en resultava cap proteïna homòloga, ara emprant hmmsearch o hmmpfam, hi trobem una família de proteïnes, homòlogues a la seqüència problema, i que en aquest cas si que resulta ser força significativa (E-value de << 10^-05 per ambdós casos).
No s´ha de confondre el fet que el resultat de hmmpfam només et doni un resultat significatiu amb que només existeix una proteïna homòloga: el fet que hmmpfam només et doni un resultat significatiu, vol dir que la família de proteïnes que et mostra, conté diverses proteïnes en ella que mantenen certa homologia amb la teva proteïna problema.
En canvi en hmmsearch, t´ordena segons l´E-value les diferents proteïnes més homòlogues a la original.