Aquesta pràctica versa sobre l'ús de Blast i PSI-Blast per trobar seqüències homòlogues a una seqüència problema en bases de dades de seqüències conegudes (PDB i Swissprot), i l'us de Clustalw per efectuar alineaments.

Primerament presentaré les bases de dades que empraré, Swissprot i PDB; i a continuació, realitzaré cerques amb Blast i Psi-Blast i alineaments amb Clustalw, exemplificats amb els exercicis realitzats a classe. Posteriorment, a partir dels resultats obtinguts, desenvoluparé un mètode de cerca per trobar seqüències homòlogues a la seqüència problema i finalment aplicaré aquest mètode a 3 seqüències problema (problemes 1 a 3).


Bases de dades

Cerques amb Blast

Alineaments amb Clustalw

Cerques amb PSI-Blast

Desenvolupament d'un mètode de cerca

Problemes


Bases de dades

Les bases de dades que usaré són PDB i Swissprot, que es troben guardades a disc9 en format apte per usar-hi Blast i PSI-Blast:

/disc9/DB/blast/pdb

/disc9/DB/blast/swissprot


PDB és una base de dades de proteïnes de les quals es coneix l'estructura en 3 dimensions. Actualment (març 2003) conté 21055 estructures. Swissprot, en canvi, és una base de dades de proteïnes general i conté 127477 entrades.



Cerques amb Blast

Primerament buscaré seqüències homòlogues a hbb_tarsy.sw a PDB.

/disc9/BLAST/EXE/blastall -p blastp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -o blast_search_pdb.out &

   -p    tipus de cerca. Realitzarem Blastp, que és l'aplicat a proteïnes.
   -i    fitxer d'entrada.
   -d    base de dades emprada.
   -o    fitxer de sortida.

Com a resultat (veure resultats)obtinc una sèrie de seqüències de PDB (500) amb e-values compresos entre 8e-75 i 0.33 (a menor e-value, major relació amb la seqüència problema). A continuació, es mostra l'alineament de les zones coincidents entre la proteïna problema i cada proteïna trobada, indicant en cada cas el nom de la proteïna, la longitud del fragment coïncident, un valor d'score, l'e-value i la identitat entre ambdues seqüències.

A continuació, repetiré la cerca sobre Swissprot.

/disc9/BLAST/EXE/blastall -p blastp -i hbb_tarsy.sw -d /disc9/DB/blast/swissprot -o blast_search_swiss.out &

Una vegada més obtinc 500 seqüències, ara de swissprot, amb e-values entre 8e-82 i 4e-20, i a continuació els alineaments entre les seqüències. (veure resultats).

Que la cerca amb Swissprot hagi donat e-values més baixos (millors) es deu a que Blast mostra en tots dos casos les 500 seqüències amb millor e-value. Com que a Swissprot hi ha emmagatzemades un nombre molt major de seqüències que a PDB, és d'esperar que contindrà més seqüències coïncidents amb la seqüència problema i que, per tant, entre els 500 millors matchs hi haurà proteïnes amb millors e-values, i ja no veurem les que tenen valors elevats.



Alineaments amb Clustalw

Per fer un alineament amb Clustalw primerament crearé un arxiu on hi haurà totes les seqüències que vull alinear en format fasta (veure arxiu).

A continuació, executaré el programa:

/disc9/CLUSTALW/clustalw

Clustalw mostra a continuació 5 opcions:

 **************************************************************
 ******** CLUSTAL W(1.60) Multiple Sequence Alignments  ********
 **************************************************************


     1. Sequence Input From Disc
     2. Multiple Alignments
     3. Profile / Structure Alignments
     4. Phylogenetic trees

     S. Execute a system command
     H. HELP
     X. EXIT (leave program)
	

Primerament escolliré l'opció 1, que em demana introduir el nom del fitxer que conté les seqüències a alinear:

	Your choice: 1


	Sequences should all be in 1 file.

	6 formats accepted:
	NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF.


	Enter the name of the sequence file: llistat.fa

	Sequence format is Pearson

	Sequences assumed to be PROTEIN

	Sequence 1: gi|122699|      147 aa
	Sequence 2: sp|P02020|      143 aa
	Sequence 3: sp|P13786|      141 aa
	Sequence 4: sp|P02008|      141 aa

	

A continuació, torna a aparèixer el menú principal, i aquesta vegada escolliré l'opció 2, realitzar l'alineament múliple:

 **************************************************************
 ******** CLUSTAL W(1.60) Multiple Sequence Alignments  ********
 **************************************************************


     1. Sequence Input From Disc
     2. Multiple Alignments
     3. Profile / Structure Alignments
     4. Phylogenetic trees

     S. Execute a system command
     H. HELP
     X. EXIT (leave program)


Your choice: 2
	

L'opció 2 mostra un segon menú. D'aquest, escolliré l'opció 1, que farà l'alineament múltiple:

****** MULTIPLE ALIGNMENT MENU ******


    1.  Do complete multiple alignment now (Slow/Accurate)
    2.  Produce guide tree file only
    3.  Do alignment using old guide tree file

    4.  Toggle Slow/Fast pairwise alignments = SLOW

    5.  Pairwise alignment parameters
    6.  Multiple alignment parameters

    7.  Reset gaps between alignments? = ON
    8.  Toggle screen display          = ON
    9.  Output format options

    S.  Execute a system command
    H.  HELP
    or press [RETURN] to go back to main menu


Your choice: 1
	

Finalment, Clustalw demana el nom dels fitxers de sortida i executa l'alineament múltiple:

Enter a name for the CLUSTAL output file  [llistat.aln]: llistat.aln

Enter name for GUIDE TREE          file   [llistat.dnd]:

Start of Pairwise alignments
Aligning...
Sequences (1:2) Aligned. Score:  32
Sequences (1:3) Aligned. Score:  36
Sequences (1:4) Aligned. Score:  34
Sequences (2:3) Aligned. Score:  35
Sequences (2:4) Aligned. Score:  34
Sequences (3:4) Aligned. Score:  85

Guide tree        file created:   [llistat.dnd]

Start of Multiple Alignment
There are 3 groups
Aligning...
Group 1: Sequences:   2      Score:2147
Group 2:                     Delayed
Group 3:                     Delayed
Sequence:1     Score:995
Sequence:2     Score:1004

Alignment Score 2645



Consensus length = 150

CLUSTAL-Alignment file created  [llistat.aln]


CLUSTAL W(1.60) multiple sequence alignment



gi|122699|      MVHLTAEEKAAVTALWGKVD--VEDVGGEALGRLLVVYPWTQRFFDSFG-DLSTPAAVMS
sp|P02020|      -MRFSQDDEVLIKEAWGLLH-QIPNAGGEALARMFSCYPGTKSYFPHFGHDFSAN-----
sp|P13786|      --SLTRTERTIILSLWSKISTQADVIGTETLERLFSCYPQAKTYFPHF--DLHS-----G
sp|P02008|      --SLTKTERTIIVSMWAKISTQADTIGTETLERLFLSHPQTKTYFPHF--DLHP-----G
                    .  .   .   *  .       * *.* *.    * .. .*  *  *

gi|122699|      NAKVKAHGKKVLNAFSDGMAHLDNLKGTFAKLSELHCDKLHVDPENFRLLGNVLVCVLAH
sp|P02020|      NEKVKHHGKKVVDAIGQGVQHLHDLSSCLHTLSEKHARELMVDPCNFQYLIEAIMTTIAA
sp|P13786|      SAQLRAHGSKVVAAVGDAVKSIDNVTSALSKLSELHAYVLRVDPVNFKFLSHCLLVTLAS
sp|P02008|      SAQLRAHGSKVVAAVGDAVKSIDDIGGALSKLSELHAYILRVDPVNFKLLSHCLLVTLAA
                  ... ** **. *    .  .  .  .   *** *.  * *** **. *   ..  .*

gi|122699|      HFGKEFTPQVQAAYQKVVAGVATALAHKYH
sp|P02020|      HYGEKFTPEINCAAEKCLGQIVHVLISLYR
sp|P13786|      HFPADFTADAHAAWDKFLSIVSGVLTEKYR
sp|P02008|      RFPADFTAEAHAAWDKFLSVVSSVLTEKYR
                ..   **    .*  * .  .   *   *.

Press [RETURN] to continue:

	

Una vegada realitzat, ja es pot sortir del programa

****** MULTIPLE ALIGNMENT MENU ******


    1.  Do complete multiple alignment now (Slow/Accurate)
    2.  Produce guide tree file only
    3.  Do alignment using old guide tree file

    4.  Toggle Slow/Fast pairwise alignments = SLOW

    5.  Pairwise alignment parameters
    6.  Multiple alignment parameters

    7.  Reset gaps between alignments? = ON
    8.  Toggle screen display          = ON
    9.  Output format options

    S.  Execute a system command
    H.  HELP
    or press [RETURN] to go back to main menu


Your choice: x



 **************************************************************
 ******** CLUSTAL W(1.60) Multiple Sequence Alignments  ********
 **************************************************************


     1. Sequence Input From Disc
     2. Multiple Alignments
     3. Profile / Structure Alignments
     4. Phylogenetic trees

     S. Execute a system command
     H. HELP
     X. EXIT (leave program)


Your choice: x
	

Com a resultat (veure resultats) Clustalw genera un fitxer que conté les seqüències una sota l'altre per files, és a dir que permet comparar-les entre elles. Sota cada línia de seqüències mostra un asterisc per aquelles posicions que es mantenen en totes les proteïnes i un punt per les posicions en les que, tot i haver-hi un canvi d'aminoàcid, els diferents aminoàcids tenen propietats semblants (per exemple, aminoàcids amb càrrega, o polars).

També es genera un arxiu .dnd (llistat.dnd) que conté la relació filogenètica entre les seqüències.



Cerques amb PSI-Blast

Ara executaré cerques amb PSI-Blast per poder comparar aquest mètode amb Blast. Per fer-ho, també buscaré seqüències homòlogues a hbb_tarsy.sw a PDB.

/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -j 2 -C hbb_tarsy. bls1 -o hbb_tarsy.out &

   -i    fitxer d'entrada.
   -j    número d'iteracions (vegades que s'executa la cerca, basant-se en la matriu que el programa crea de la cerca anterior).
   -C    fitxer que conté la matriu que crea el programa a partir de les seqüències trobades. Escrit en codi binari.
   -o    fitxer de sortida.

Com a resultat (veure resultats)obtinc, com amb blast, 500 seqüències amb els seus e-values (Results from round 1) i els alineaments a continuació. La diferència entre els dos mètodes, però, és que en aquest cas al finalitzar els alineaments tornem a trobar un llistat de seqüències (Results from round 2) que corresponen a la segona cerca (he executat 2 iteracions). Aquesta ha estat feta a partir de la matriu creada basant-se en els resultats del Round 1 i hi trobem les mateixes seqüències que en el Round 1, però amb l'e-value optimitzat, a més d'altres seqüències no trobades prèviament. Una cerca òptima ha d'arribar a convergència. En aquest exemple no hi arriba, seria necessari per tant repetir-la amb més iteracions.

A continuació tornaré a executar PSI-Blast per fer la cerca però basant aquesta en la matriu creada a la cerca anterior:

/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -j 2 -R hbb_tarsy. bls1 -C hbb_tarsy.bls2 -o hbb_tarsy.out2 &

   -R    fitxer que conté la matriu en la que PSI-Blast basarà la nova cerca. En codi binari.

Els resultats (veure resultats)mostren ara e-values millors que en la creca anterior, ja que es basen en els resultats trobats anteriorment.

Finalment, executaré PSI-Blast partint d'un alineament fet amb Clustalw. Per fer-ho, aprofitaré l'alineament realitzat a l'apartat anterior:

/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -j 2 -B llistat.aln -o hbb_tarsy.out2 &

   -B    fitxer que conté l'alineament de Clustalw  

Els resultats (veure resultats) presenten e-values majors que el les dues cerques anteriors.



Desenvolupament d'un mètode de cerca

A partir de les dades obtingudes al llarg de la pràctica, crec que un bon mètode de cerca per tal de trobar proteïnes homòlogues a una seqüència problema és, primerament, executar PSI-Blast sobre Swissprot, ja que aquesta base de dades conté un nombre molt més elevat de proteïnes que no pas PDB; i a continuació repetir la cerca usant la matriu creada. Depenent de l'ús que volguem fer dels resultats de la cerca, aquesta segona execució de PSI-Blast es farà sobre Swissprot o sobre PDB. Si, per exemple, a continuació volem crear un model de la proteïna problema haurem d'usar PDB, ja que és la base de dades d'estructures de proteïnes. PSI-Blast és preferible sobre Blast ja que a l'executar diferents iteracions i crear matrius aconsegueix optimitzar els resultats.

Així doncs, per buscar seqüències homòlogues a les seqüències problema dels tres exemples que s'estudien a continuació usaré aquest mètode, fent la segona cerca sobre PDB.



Problemes

Problema 1

Problema 2

Problema 3