Aquesta pràctica versa sobre l'ús de Blast i PSI-Blast per trobar seqüències homòlogues a una seqüència problema en bases de dades de seqüències conegudes (PDB i Swissprot), i l'us de Clustalw per efectuar alineaments.
Primerament presentaré les bases de dades que empraré, Swissprot i PDB; i a continuació, realitzaré cerques amb Blast i Psi-Blast i alineaments amb Clustalw, exemplificats amb els exercicis realitzats a classe. Posteriorment, a partir dels resultats obtinguts, desenvoluparé un mètode de cerca per trobar seqüències homòlogues a la seqüència problema i finalment aplicaré aquest mètode a 3 seqüències problema (problemes 1 a 3).
Bases de dades Alineaments amb Clustalw Cerques amb PSI-Blast Desenvolupament d'un mètode de cerca Problemes
Les bases de dades que usaré són PDB i Swissprot, que es troben guardades a disc9 en format apte per usar-hi Blast i PSI-Blast:
/disc9/DB/blast/pdb /disc9/DB/blast/swissprot
PDB és una base de dades de proteïnes de les quals es coneix l'estructura en 3 dimensions. Actualment (març 2003) conté 21055 estructures. Swissprot, en canvi, és una base de dades de proteïnes general i conté 127477 entrades.
Primerament buscaré seqüències homòlogues a hbb_tarsy.sw a PDB.
/disc9/BLAST/EXE/blastall -p blastp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -o blast_search_pdb.out &
  -p    tipus de cerca. Realitzarem Blastp, que és l'aplicat a proteïnes.    -i    fitxer d'entrada.    -d    base de dades emprada.    -o    fitxer de sortida. Com a resultat (veure resultats)obtinc una sèrie de seqüències de PDB (500) amb e-values compresos entre 8e-75 i 0.33 (a menor e-value, major relació amb la seqüència problema). A continuació, es mostra l'alineament de les zones coincidents entre la proteïna problema i cada proteïna trobada, indicant en cada cas el nom de la proteïna, la longitud del fragment coïncident, un valor d'score, l'e-value i la identitat entre ambdues seqüències.
A continuació, repetiré la cerca sobre Swissprot.
/disc9/BLAST/EXE/blastall -p blastp -i hbb_tarsy.sw -d /disc9/DB/blast/swissprot -o blast_search_swiss.out &Una vegada més obtinc 500 seqüències, ara de swissprot, amb e-values entre 8e-82 i 4e-20, i a continuació els alineaments entre les seqüències. (veure resultats).
Que la cerca amb Swissprot hagi donat e-values més baixos (millors) es deu a que Blast mostra en tots dos casos les 500 seqüències amb millor e-value. Com que a Swissprot hi ha emmagatzemades un nombre molt major de seqüències que a PDB, és d'esperar que contindrà més seqüències coïncidents amb la seqüència problema i que, per tant, entre els 500 millors matchs hi haurà proteïnes amb millors e-values, i ja no veurem les que tenen valors elevats.
Per fer un alineament amb Clustalw primerament crearé un arxiu on hi haurà totes les seqüències que vull alinear en format fasta (veure arxiu).
A continuació, executaré el programa:
/disc9/CLUSTALW/clustalw Clustalw mostra a continuació 5 opcions:
************************************************************** ******** CLUSTAL W(1.60) Multiple Sequence Alignments ******** ************************************************************** 1. Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program)Primerament escolliré l'opció 1, que em demana introduir el nom del fitxer que conté les seqüències a alinear:
Your choice: 1 Sequences should all be in 1 file. 6 formats accepted: NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF. Enter the name of the sequence file: llistat.fa Sequence format is Pearson Sequences assumed to be PROTEIN Sequence 1: gi|122699| 147 aa Sequence 2: sp|P02020| 143 aa Sequence 3: sp|P13786| 141 aa Sequence 4: sp|P02008| 141 aaA continuació, torna a aparèixer el menú principal, i aquesta vegada escolliré l'opció 2, realitzar l'alineament múliple:
************************************************************** ******** CLUSTAL W(1.60) Multiple Sequence Alignments ******** ************************************************************** 1. Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: 2L'opció 2 mostra un segon menú. D'aquest, escolliré l'opció 1, que farà l'alineament múltiple:
****** MULTIPLE ALIGNMENT MENU ****** 1. Do complete multiple alignment now (Slow/Accurate) 2. Produce guide tree file only 3. Do alignment using old guide tree file 4. Toggle Slow/Fast pairwise alignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters 7. Reset gaps between alignments? = ON 8. Toggle screen display = ON 9. Output format options S. Execute a system command H. HELP or press [RETURN] to go back to main menu Your choice: 1Finalment, Clustalw demana el nom dels fitxers de sortida i executa l'alineament múltiple:
Enter a name for the CLUSTAL output file [llistat.aln]: llistat.aln Enter name for GUIDE TREE file [llistat.dnd]: Start of Pairwise alignments Aligning... Sequences (1:2) Aligned. Score: 32 Sequences (1:3) Aligned. Score: 36 Sequences (1:4) Aligned. Score: 34 Sequences (2:3) Aligned. Score: 35 Sequences (2:4) Aligned. Score: 34 Sequences (3:4) Aligned. Score: 85 Guide tree file created: [llistat.dnd] Start of Multiple Alignment There are 3 groups Aligning... Group 1: Sequences: 2 Score:2147 Group 2: Delayed Group 3: Delayed Sequence:1 Score:995 Sequence:2 Score:1004 Alignment Score 2645 Consensus length = 150 CLUSTAL-Alignment file created [llistat.aln] CLUSTAL W(1.60) multiple sequence alignment gi|122699| MVHLTAEEKAAVTALWGKVD--VEDVGGEALGRLLVVYPWTQRFFDSFG-DLSTPAAVMS sp|P02020| -MRFSQDDEVLIKEAWGLLH-QIPNAGGEALARMFSCYPGTKSYFPHFGHDFSAN----- sp|P13786| --SLTRTERTIILSLWSKISTQADVIGTETLERLFSCYPQAKTYFPHF--DLHS-----G sp|P02008| --SLTKTERTIIVSMWAKISTQADTIGTETLERLFLSHPQTKTYFPHF--DLHP-----G . . . * . * *.* *. * .. .* * * gi|122699| NAKVKAHGKKVLNAFSDGMAHLDNLKGTFAKLSELHCDKLHVDPENFRLLGNVLVCVLAH sp|P02020| NEKVKHHGKKVVDAIGQGVQHLHDLSSCLHTLSEKHARELMVDPCNFQYLIEAIMTTIAA sp|P13786| SAQLRAHGSKVVAAVGDAVKSIDNVTSALSKLSELHAYVLRVDPVNFKFLSHCLLVTLAS sp|P02008| SAQLRAHGSKVVAAVGDAVKSIDDIGGALSKLSELHAYILRVDPVNFKLLSHCLLVTLAA ... ** **. * . . . . *** *. * *** **. * .. .* gi|122699| HFGKEFTPQVQAAYQKVVAGVATALAHKYH sp|P02020| HYGEKFTPEINCAAEKCLGQIVHVLISLYR sp|P13786| HFPADFTADAHAAWDKFLSIVSGVLTEKYR sp|P02008| RFPADFTAEAHAAWDKFLSVVSSVLTEKYR .. ** .* * . . * *. Press [RETURN] to continue:Una vegada realitzat, ja es pot sortir del programa
****** MULTIPLE ALIGNMENT MENU ****** 1. Do complete multiple alignment now (Slow/Accurate) 2. Produce guide tree file only 3. Do alignment using old guide tree file 4. Toggle Slow/Fast pairwise alignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters 7. Reset gaps between alignments? = ON 8. Toggle screen display = ON 9. Output format options S. Execute a system command H. HELP or press [RETURN] to go back to main menu Your choice: x ************************************************************** ******** CLUSTAL W(1.60) Multiple Sequence Alignments ******** ************************************************************** 1. Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: xCom a resultat (veure resultats) Clustalw genera un fitxer que conté les seqüències una sota l'altre per files, és a dir que permet comparar-les entre elles. Sota cada línia de seqüències mostra un asterisc per aquelles posicions que es mantenen en totes les proteïnes i un punt per les posicions en les que, tot i haver-hi un canvi d'aminoàcid, els diferents aminoàcids tenen propietats semblants (per exemple, aminoàcids amb càrrega, o polars).
També es genera un arxiu .dnd (llistat.dnd) que conté la relació filogenètica entre les seqüències.
Ara executaré cerques amb PSI-Blast per poder comparar aquest mètode amb Blast. Per fer-ho, també buscaré seqüències homòlogues a hbb_tarsy.sw a PDB.
/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -j 2 -C hbb_tarsy. bls1 -o hbb_tarsy.out &
   -i    fitxer d'entrada.    -j    número d'iteracions (vegades que s'executa la cerca, basant-se en la matriu que el programa crea de la cerca anterior).    -C    fitxer que conté la matriu que crea el programa a partir de les seqüències trobades. Escrit en codi binari.    -o    fitxer de sortida. Com a resultat (veure resultats)obtinc, com amb blast, 500 seqüències amb els seus e-values (Results from round 1) i els alineaments a continuació. La diferència entre els dos mètodes, però, és que en aquest cas al finalitzar els alineaments tornem a trobar un llistat de seqüències (Results from round 2) que corresponen a la segona cerca (he executat 2 iteracions). Aquesta ha estat feta a partir de la matriu creada basant-se en els resultats del Round 1 i hi trobem les mateixes seqüències que en el Round 1, però amb l'e-value optimitzat, a més d'altres seqüències no trobades prèviament. Una cerca òptima ha d'arribar a convergència. En aquest exemple no hi arriba, seria necessari per tant repetir-la amb més iteracions.
A continuació tornaré a executar PSI-Blast per fer la cerca però basant aquesta en la matriu creada a la cerca anterior:
/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -j 2 -R hbb_tarsy. bls1 -C hbb_tarsy.bls2 -o hbb_tarsy.out2 &
   -R    fitxer que conté la matriu en la que PSI-Blast basarà la nova cerca. En codi binari. Els resultats (veure resultats)mostren ara e-values millors que en la creca anterior, ja que es basen en els resultats trobats anteriorment.
Finalment, executaré PSI-Blast partint d'un alineament fet amb Clustalw. Per fer-ho, aprofitaré l'alineament realitzat a l'apartat anterior:
/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -j 2 -B llistat.aln -o hbb_tarsy.out2 &
   -B    fitxer que conté l'alineament de Clustalw Els resultats (veure resultats) presenten e-values majors que el les dues cerques anteriors.
Desenvolupament d'un mètode de cerca
A partir de les dades obtingudes al llarg de la pràctica, crec que un bon mètode de cerca per tal de trobar proteïnes homòlogues a una seqüència problema és, primerament, executar PSI-Blast sobre Swissprot, ja que aquesta base de dades conté un nombre molt més elevat de proteïnes que no pas PDB; i a continuació repetir la cerca usant la matriu creada. Depenent de l'ús que volguem fer dels resultats de la cerca, aquesta segona execució de PSI-Blast es farà sobre Swissprot o sobre PDB. Si, per exemple, a continuació volem crear un model de la proteïna problema haurem d'usar PDB, ja que és la base de dades d'estructures de proteïnes. PSI-Blast és preferible sobre Blast ja que a l'executar diferents iteracions i crear matrius aconsegueix optimitzar els resultats.
Així doncs, per buscar seqüències homòlogues a les seqüències problema dels tres exemples que s'estudien a continuació usaré aquest mètode, fent la segona cerca sobre PDB.
Problema 1