Objectiu: partint d’una seqüència trobar-ne l’estructura buscant proteïnes amb estructura coneguda i homòlogues a ella . Utilitzarem el BLAST a partir de la base de dades PDB, i també PSIBLAST o BLASP. En aquest últim cas es fa una primera cerca des de la base de dades de Swissprot (més extensa que PDB) per buscar proteïnes homòlogues amb les quals generar un perfil (profile); seria com fer un BLAST sobre Swissprot amb el paràmetre -j 1. Aquests perfils et donen la informació sobre quines regions de la seqüència són les més conservades i els utilitzes per acabar fent una segona cerca sobre la base de dades PDB per acabar trobant les proteïnes homòlogues.
Així doncs, en la pràctica hem fet un BLAST i després un PSIBLAST per comparar els resultats finals, que ja podem anticipar que seran més acurats i precisos amb el mètode PSIBLAST.
CLUSTALW: Per realitzar aquesta pràctica utilitzarem el programa Clustal W, d'alineamnet de seqüències. Les seqüències que alinearem han d'estar en el mateix format: format FASTA (tot i que també n'hi ha d'altres el que hem utilitzat nosaltres és aquest). El programa sap identificar si es tracta de proteïnes o d'àcids nuclèics i per això és important que el document fasta conservi la primera linia iniciada amb el símbol >. Un cop s'han introduït els inputs i el programa acaba de córrer tenim una serie de outputs files o fitxers de sortida.
1. Utilitzem un conjunt de proteïnes que les baixem de
disc9:
$ mkdir pract2
$ cd pract2
$ cp /disc9/practica_3/BLAST/globin/hbb_tarsy.sw .
2. Utilitzem BLASTP com una subopció de blastall perquè el que nosaltres fem és comparar porteïnes amb proteïnes.
-p (Program name) [String]
-d (Database) [String], per defecte apareix nr (allà on es troba la base de dades)
-i (query file) [File In], per defecte apareix stdin (nom de la seqüència)
-e (expectation value) E [Real], per defecte serà 10.0
-m (alignment view options: de 0 a 8)
-o (output), per defecte es stdout
-F (filtre a la seqüència problema)
-S (nombre de cadenes a comparar amb la base de dades), per defecte són 3
-T (genera un output HTML)
3. Comencem amb el BLAST. Fem la cerca de proteïnes semblants a la nostra
(hbb_tarsy.sw) per BLASTP, és a dir, sobre una base de dades de proteïnes (swissprot); el fitxer de sortida l’anomanem blast_sw.out:
$ /disc9/BLAST/EXE/blastall -p blastp -i hbb_tarsy.sw -d /disc9/DB/blast/swissprot -o blast_sw.out &
4. Obtenim una llista de seqüències similars classificades per score i E-value. En el nostra cas, per contruir un perfil ens interessa agafar les més llunyanes, és a dir amb E-value més petit, però que segueixen sent homòlogues. Si escollíssim seqüències properes els perfils no aportarien cap informació rellevant perquè tot serien regions conservades. Per tant agafarem: HBA_LEPPA, HBAZ_HUMAN i H_CAPHY.
BLASTP 2.1.3 [Apr-11-2001] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= gi|122699|sp|P13557|HBB_TARSY HEMOGLOBIN BETA CHAIN (147 letters) Database: /disc9/DB/blast/swissprot 90,939 sequences; 32,775,839 total letters Searching..................................................done Score E Sequences producing significant alignments: (bits) Value sp|P13557|HBB_TARSY HEMOGLOBIN BETA CHAIN 300 8e-82 sp|P02051|HBB_TARBA HEMOGLOBIN BETA CHAIN 294 6e-80 sp|P13558|HBD_TARSY HEMOGLOBIN DELTA CHAIN 291 6e-79 sp|P02040|HBB_CEBAL HEMOGLOBIN BETA CHAIN 281 7e-76 sp|P02036|HBB_SAISC HEMOGLOBIN BETA CHAIN 280 1e-75 ... sp|P13787|HBAZ_HORSE HEMOGLOBIN ZETA CHAIN 98 1e-20 sp|P02013|HBA2_XENLA HEMOGLOBIN ALPHA-2 CHAIN (MINOR) 97 1e-20 sp|P18981|HBA2_VAREX HEMOGLOBIN ALPHA-II CHAIN 97 1e-20 sp|P06347|HBAZ_PANTR HEMOGLOBIN ZETA CHAIN 97 2e-20 sp|P80945|HBAA_ANGAN HEMOGLOBIN ANODIC, ALPHA CHAIN 97 2e-20 sp|P02008|HBAZ_HUMAN HEMOGLOBIN ZETA CHAIN 97 2e-20 sp|P13786|HBAZ_CAPHI HEMOGLOBIN ZETA CHAIN 96 3e-20 sp|P02020|HBA_LEPPA HEMOGLOBIN ALPHA CHAIN 96 4e-20
5. Per obtenir les seqüències d’aquestes proteïnes anem a la pàgina web d'expasy on podem fer una cerca de swissprot de les tres proteïnes i les copiem en format FASTA en un fitxer de text: leppa.fa, human.fa i caphy.fa
6. Unifiquem en un sol fitxer les tres seqüències trobades i la problema:
$ cat hbb_tarsy.sw >> llistat.fa
$ cat hba_leppa.sw >> llistat.fa
$ cat hbaz_caphi.sw >> llistat.fa
$ cat hbaz_human.sw >> llistat.fa
7. A continuació fem anar el CLUSTALW per
l’alineament:
$ /disc9/CLUSTALW/clustalw
8. Per tal de poder-lo executar correctament ens formula una serie de preguntes, de les quals les que requereixen resposta són les que hi ha a continuació:
Your choice: 1
Enter the name...: llistat.fa
Your choice: 2
Your choice: 1
(en aquest punt ja es pot veure per pantalla l’alineament: les parts conservades estan marcades amb un estarisc * i les marcades amb un punt · es refereixen a la conservació de la natura de l’aminoàcid)
Your choice: x (per sortir)
L'output és un fitxer d'extensió .aln on trobem l'alineament de les seqüències que es trobaven dins del fitxer llistat.fa
CLUSTAL W(1.60) multiple sequence alignment gi|122699| MVHLTAEEKAAVTALWGKVD--VEDVGGEALGRLLVVYPWTQRFFDSFG-DLSTPAAVMS sp|P02008| --SLTKTERTIIVSMWAKISTQADTIGTETLERLFLSHPQTKTYFPHF--DLHP-----G sp|P02020| -MRFSQDDEVLIKEAWGLLH-QIPNAGGEALARMFSCYPGTKSYFPHFGHDFSAN----- sp|P13786| --SLTRTERTIILSLWSKISTQADVIGTETLERLFSCYPQAKTYFPHF--DLHS-----G . . . * . * *.* *. * .. .* * *
9. Ara comencem la segona part de la pràctica que tracta de fer la cerca amb PSIBLAST, que escriurem com blastpgp, (Position-Specific Iterated BLAST). El psiblast fa una primera cerca on troba les millors seqüències per construir un perfil amb les millors puntuacions possibles per utilitzar en la segona búsqueda. El PSI-BLAST utilitza una matriu de substitució d'odre tamany de l'alfabet per llargada de la seqüència. La matriu que s'utilitza per la ronda "i+1" es construeix a partir d'un alineament múltiple de la seqüència problema i les homòlogues trobades a la ronda "i" amb e-value suficientment baix. El PSI-BLAST convergirà si totes les seqüències trobades a la ronda "i+1" per sota de l'e-value de referència estaven ja al perfil del principi de la ronda. Observem, tal com ho hem fet abans amb el blastp, les comandes del programa:
-d (base de dades)
-i (la seqüència)
-e (e-value de referència), per defecte és 0.01
-C (crear perfil)
-R (llegir perfil)
-B (fa el mateix que C i R però menys automàtic)
$ /disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -j 2 -c hbb_tarsy.bls1 -o hbb_tarsy.out
10. Ara hem creat un perfil (hbb_tarsy.bls1) que utilitzarem
per fer la cerca d’homòlegs:
$ /disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -R hbb_tarsy.bls1 -C hbb_tarsy.bls2 -j 2 -o hbb_tarsy.out2 -d /disc9/DB/blast/pdb D'aquí també tenim dos outputs: hbb_tarsy.bls2, que és una segona matriu, i hbb_tarsy.out2, que és el resultat que compararem amb el BLAST.
11. Per buscar un altre perfil hem d’arreglar mínimament el fitxer llistat.aln borrant la linia d’*
12. Comparació entre els resultats de blast i de psiblast:
El psiblast ens permet trobar més homòlegs remots perquè realitza dues iteracions. Això ho podem veure comparant els E-value dels resultats optinguts: en el BLAST E-value major és de 0,33, mentre que en el PSIBLAST és de 1e-28. Per tant, hi ha més remots homòlegs en BLAST que en PSIBLAST. Un altre aspecte a comparar és la identitat. En blast la m6eacute;s alta és del 90%, mentre que en psiblast és del 67%, així i tot ens dóna més informació la comparació dels E-values.
13. A part de les opcions que ja hem utilitzat (-R i -C), psiblast en té una altre -B, que acaba fent el mateix que les altres dues a la vegada, però de manera menys refinada. Aquesta nova opció fa que agafem un perfil, en compte de la matriu, a la primera ronda.