Pràctica 5.1


Objectiu: Partim d'una seqüència, el codi de la qual en el genbank és P11018, que no ha estat cristal·litzada però que en volem trobar l'estructura. El mètode que utilitzarem per acabar proposant un model estructural d'aquesta proteïna ocuparà les pròximes quatre pràctiques. Es tracta primer de tot de trobar proteïnes homòlogues a P11018 amb estructura coneguda. Per això farem una búsqueda a BLASTP i PSIBLAST sobre, evidenment, la base de dades de PDB i SWISSPROT la diferència entre aquestes dues bases de dades és que swissprot conté unes 100.000 proteïnes de les quals no totes tenen perquè tenir estructura coneguda, mentre que pdb només 15.000 proteïnes però totes han estat cristal·litzades) . I aquesta pràctica acabarà amb un alineament amb Clusralw de tots aquests homòlegs (que anomenarem templates) i de la proteïna problema (que anomenarem target).


Desenvolupament de la pràctica:

1. Primerament anem a genbank a buscar la seqüència de P11018 i l'emmagatzemem en format FASTA (el document es diu P11018.fa)

2. Comencem amb el blastp:
$ /disc9/BLAST/EXE/blastall -p blastp -i P11018.fa -d /disc9/DB/blast/ -o blast_P11018.out &
(per cridar blastp el cridem desde disc9 perquè estem treballant amb bash).
L'input és la seqüència P11018, la base de dades també la trobem a disc9 (la ruta és; /disc9/DB/blast/) i finalment, l'ouput és blast_P11018.out

3. Mirem el resultat obrint qualsevol dels editor que coneixem:
$ emacs blast_P11018.out &
(aquest fitxer és el resultat de tirar una seqüència a una base de dades; d'aquesta búsqueda s'han escollit els templates més homòlegs i són els que conté aquest fitxer d'output).
Les seqüències estan ordenades per E-values (de menys a més), ja que aquest paràmetre està directament relacionat amb el grau d'homologia (a E-values més petits, més semblant serà la proteïna trobada a la problema).

D'aquesta primera búsqueda escollirem tant sols una seqüència perquè, de fet, el que ens interessa és el resultat del PSIBLAST. Aquest mètode és més acurat ja que consta de dos passos i genera un perfil abans de fer la búsqueda d'homòlegs.
A l'hora d'escollir el template hem de tenir en compte el nostre objectiu. Estem buscant proteïnes semblants a P11018 per poder-ne deduir l'esrtuctura a partir d'un model. Els templates, han de ser, doncs, homòlegs a P11018, però si tenen un 99% d'identitat no ens aportaran la informació suficient. És a dir, volem aconseguir un alineament on, entre tots els templates, es cobreixi tota la seqüència de P11018. Això significa que teòricament no pot quedar cap gap, si volem fer una predicció d'estructura perfecte. Per tant, intentarem escollir templates d'identitats pròximes al 60% per així cobrir tota la proteïna problema. Aleshores, després de tota aquesta introducció, hem escollit una proteïna amb un 52% d'identitat i amb el següent codi de pdb: 1yjc

4. A continuació, farem una segona búsqueda amb PSIBLAST, com s'ha explicat al principi. Aquest mètode ja ha estat explicat a la pràctica 3.1. La idea bàsica és que es tira la seqüència a la base de dades swissprot per fer un perfil (o profile) basat en la nostra seqüència problema (nota: a la pràctica 3.1 vem utilitzar la base de dades PDB per fer el perfil) i un cop tenim el perfil, l'utilitzem per fer una búsqueda a PDB de homòlegs, assegurant-nos que les proteïnes resultants tenen estructura definida.
$ /disc9/BLAST/EXE/blastpgp -i P11018.fa -d /disc9/DB/blast/swissprot -j 2 -C P11018_perfil.bls1 -o P11018_perfil2.out
(la comanda -j 2 significa que faig dues iteracions, perquè el perfil resultant sigui millor)
En l'output (P11018_perfil2.out) hi trobem les seqüències que seran utilitzades per generar el perfil:

sp|P11018|ISP1_BACSU MAJOR INTRACELLULAR SERINE PROTEASE (ISP-1) 607 e-173 sp|P29139|ISP_PAEPO INTRACELLULAR SERINE PROTEASE 379 e-105 sp|P29140|ISP_BACCS INTRACELLULAR ALKALINE PROTEASE 300 3e-81 sp|P04189|SUBT_BACSU SUBTILISIN E PRECURSOR 210 4e-54 sp|P35835|SUBN_BACNA SUBTILISIN NAT PRECURSOR 209 6e-54 sp|P07518|SUBT_BACPU SUBTILISIN (ALKALINE MESENTERICOPEPTIDASE) 209 6e-54 sp|P00783|SUBT_BACSA SUBTILISIN AMYLOSACCHARITICUS PRECURSOR 205 8e-53 sp|P29142|SUBT_BACST SUBTILISIN J PRECURSOR 205 8e-53 sp|P00782|SUBT_BACAM SUBTILISIN BPN' PRECURSOR (SUBTILISIN NOVO)... 200 4e-51 sp|P00781|SUBT_BACSD SUBTILISIN 196 4e-50 sp|P00780|SUBT_BACLI SUBTILISIN CARLSBERG PRECURSOR 189 6e-48 ...

5. I ara ens falta tornar a cridar PSIBLAST perquè amb aquest perfil faci la búsqueda final (la clau està en la opció -R, remarcar que també utilitzem la opció -j 2 per fer dues iteracions)
$ /disc9/BLAST/EXE/blastpgp -i P11018.fa -R P11018_perfil.bls1 -C P11018_perfil.bls2 -j 2 -o P11018_perfil2_final.out -d /disc9/DB/blast/pdb

6. Obrim en un editor l'output i tenim el llistat de lñes seqüències trobades:
$ emacs P11018_perfil2_final.out

Score E Sequences producing significant alignments: (bits) Value /seq/databases/pdb/scratch/pdb1scj.ent Chain A 298 4e-81 /seq/databases/pdb/scratch/pdb1s01.ent Chain 285 2e-77 /seq/databases/pdb/scratch/pdb1sbi.ent Chain 285 2e-77 /seq/databases/pdb/scratch/pdb1sbh.ent Chain 285 3e-77 /seq/databases/pdb/scratch/pdb1yja.ent Chain 285 3e-77 /seq/databases/pdb/scratch/pdb1yjb.ent Chain 285 3e-77 /seq/databases/pdb/scratch/pdb1yjc.ent Chain 285 3e-77 /seq/databases/pdb/scratch/pdb1aqn.ent Chain 285 3e-77 /seq/databases/pdb/scratch/pdb1au9.ent Chain 285 3e-77 /seq/databases/pdb/scratch/pdb1bh6.ent Chain A 285 3e-77 /seq/databases/pdb/scratch/pdb1ak9.ent Chain 284 4e-77 /seq/databases/pdb/scratch/pdb1c9m.ent Chain A 282 2e-76 /seq/databases/pdb/scratch/pdb2sni.ent Chain E 282 2e-76 /seq/databases/pdb/scratch/pdb1ah2.ent Chain 280 5e-76 /seq/databases/pdb/scratch/pdb1sib.ent Chain E 280 6e-76 /seq/databases/pdb/scratch/pdb2sic.ent Chain E 280 6e-76 ... /seq/databases/pdb/scratch/pdb1vsb.ent Chain 251 4e-67 /seq/databases/pdb/scratch/pdb3vsb.ent Chain 251 4e-67 /seq/databases/pdb/scratch/pdb1tec.ent Chain E 248 4e-66 /seq/databases/pdb/scratch/pdb2tec.ent Chain E 248 4e-66 /seq/databases/pdb/scratch/pdb1thm.ent Chain 248 4e-66 ...

Escollim 3 seqüències d'aquí: 1scj, 1tec i 1ak9. Ens apareix més informació de cada una a continuació:
pdb1scj: Ens interesserà la cadena A; identitat del 43%.

>/seq/databases/pdb/scratch/pdb1scj.ent Chain A Length = 275 Score = 298 bits (764), Expect = 4e-81 Identities = 125/285 (43%), Positives = 170/285 (58%), Gaps = 13/285 (4%)


pdb1tec.ent: Ens interesserà la cadena E; identitat del 40%:

>/seq/databases/pdb/scratch/pdb1tec.ent Chain E
          Length = 279

 Score =  248 bits (634), Expect = 4e-66
 Identities = 104/260 (40%), Positives = 144/260 (55%), Gaps = 14/260 (5%)


pdb1ak9.ent: Ens interesserà tota la seq&umml;ència, no hi ha cadenes; identitat del 46%.

>/seq/databases/pdb/scratch/pdb1ak9.ent Chain  
          Length = 277

 Score =  284 bits (729), Expect = 4e-77
 Identities = 133/286 (46%), Positives = 179/286 (62%), Gaps = 13/286 (4%)


I anem a buscar els pdb de cada una d'elles. Accedim a la pàgina de pdb, on introduïnt el codi obtenim informació detallada de resolució en que va ser cristal·litzat, estructura i altres característiques de la proteïna i el document .pdb corresponent.

7. Ja que moltes d'elles poden ser proteïnes de més d'una cadena, ens interessa fer el següent:

$ perl /disc9/PERL/PDBtoSplitChain.pl -i pdb 1scj.ent -o 1scj
$ perl /disc9/PERL/PDBtoSplitChain.pl -i pdb 1yjc.ent -o 1yjc
$ perl /disc9/PERL/PDBtoSplitChain.pl -i pdb 1ak9.ent -o 1ak9
$ perl /disc9/PERL/PDBtoSplitChain.pl -i pdb 1tec.ent -o 1tec
Aquest programa agafa el pdb i genera tants pdb com cadenes tingui la proteïna, a més de crear un fitxer .fa que conté la seqüència en format fasta. A partir d'aquí, per seguir treballant, escollirem una sola cadena de cada proteïna.

8. Només falta fer-ne el clustalw:

$ cat 1scjA.fa >> llistat.fa
$ cat 1tecE.fa >> llistat.fa
$ cat 1yjc.fa >> llistat.fa
$ cat 1ak9.fa >> llistat.fa
$ cat P11018.fa >> llistat.fa

$ /disc9/CLUSTALW/clustalw (com s'executa està explicat detalladament a la pràctica 3.1).

El resultat és un fitxer d'extensió .aln que conté l'alineament:
$ emacs llistat.aln

CLUSTAL W(1.60) multiple sequence alignment P11018 MNGEIRLIPYVTNEQIMDVNELPEGIKVIKAPEMWAKGVKGKNIKVAVLDTGCDTSHPDL 1ak9 ------------------AQSVPYGVSQIKAPALHSQGYCGSNVKVAVIDSGIDSSHPDL 1scjA ------------------AQSVPYGISQIKAPALHSQGYTGSNVKVAVIDSGIDSSHPDL 1tecE ---------YTPND--PYFSSRQYGPQKIQAPQAWDIAE-GSGAKIAIVDTGVQSNHPDL 1yjc ------------------AQSVPYGVSQIKAPALHSQGYTGSNVKVAVIDSGIDSSHPDL * *.** * . *.*..*.* . **** P11018 KNQIIGGKNFTDDDGGKEDAISDYNGHGTHVAGTIAAN-DSNGGIAGVAPEASLLIVKVL 1ak9 K--VAGGASFVP---SETNPFQDNNSHGTHVAGTVAAL-NNSIGVLGVAPCASLYAVKVL 1scjA N--VRGGASFVP---SETNPYQDGSSHGTHVAGTIAAL-NNSIGVLGVSPSASLYAVKVL 1tecE AGKVVGGWDFVD----NDSTPQNGNGHGTHCAGIAAAVTNNSTGIAGTAPKASILAVRVL 1yjc K--VAGGASFVP---SETNPFQDNNSHGTHVAGTVAAL-DNSIGVLGVAPSASLYAVKVL . ** * **** ** ** *. * .* **. *.** P11018 GGENGSGQYEWIINGINYAVEQKVDIISMSLGGPSDVPELKEAVKNAVKNGVLVVCAAGN 1ak9 GAD-GSGQYSWIINGIEWAIANNMDVINMSLGGPSGSAALKAAVDKAVASGVVVVAAAGN 1scjA DST-GSGQYSWIINGIEWAISNNMDVINMSLGGPTGSTALKTVVDKAVSSGIVVAAAAGN 1tecE DNS-GSGTWTAVANGITYAADQGAKVISLSLGGTVGNSGLQQAVNYAWNKGSVVVAAAGN 1yjc GAD-GSGQYSWIINGIEWAIANNMDVINMSLGGPSGSAALKAAVDKAVASGVVVVAAAGN *** . *** * . .* .**** *. * * * .* .**** P11018 EGDGDERTEELSYPAAYNEVIAVGSVSVARELSEFSNANKEIDLVAPGENILSTLPNKKY 1ak9 EGTSGS-SSTVGYPAKYPSVIAVGAVDSSNQRASFSSVGPELDVMAPGVSIQSTLPGNKY 1scjA EGSSGS-TSTVGYPAKYPSTIAVGAVNSSNQRASFSSAGSELDVMAPGVSIQSTLPGGTY 1tecE AGNTAP-----NYPAYYSNAIAVASTDQNDNKSSFSTYGSVVDVAAPGSWIYSTYPTSTY 1yjc EGTSGS-SSTVGYPAKYPSVIAVGAVDSSNQRASFSSVGPELDVMAPGVSICSTLPGNKY * *** * *** . . ** . .*. *** * ** * * P11018 GKLTGTSMAAPHVSGALALIKSYEEESFQRKLSESEVFAQLIRRTLPLD-IAKTLAGNGF 1ak9 GAKSGTSMASPHVAGAAALILSKHPN-----WTNTQVRSSLENTTTKLGLGDSFYYGKGL 1scjA GAYNGTCMATPHVAGAAALILSKHPT-----WTNAQVRDRLESTATYLG--NSFYYGKGL 1tecE ASLSGTSMATPHVAGVAGLLASQGRS-------ASNIRAAIENTADKIS-GTGTYWAKGR 1yjc GAYSGTSMASPHVAGAAALILSKHPN-----WTNTQVRSSLENTTTYLG--DSFYYGKGL **.**.***.* *. * . . . . . * P11018 LYLTAPDELAEKAEQSHLLTL 1ak9 INVQAAAQ------------- 1scjA INVQAAAQ------------- 1tecE VNAYKAVQY------------ 1yjc INVQAAAQ------------- . .

Conclusions:Teòricament, no és un mal alineament però hauríem de procurar que no hi quedés cap gap entre els templates i la seqüència problema. De fet, els extrems són inevitables de cobrir en aquest cas, i, com veurem més endavant, els haurem d'acabar tallant. De totes maneres, depenent de quins templates haguem utilitzat, els gaps centrals seran més o menys grans. Hem de procurar minimitzar-los. En l'alineament, els esteríscs representen la conservació de l'aminoàcid en totes les seqüències alineades i els punts la conservació del caràcter d'aquests (hidrofòbics, apolars, etc). S'ha de procurar també que tots els templates siguin funcionals, és a dir que d'una oaltre manera, tots cobreixin una zona de la seqüència problema que no cobreix un altre template. Tots han de aportar un informació única, si no és així és innecessari que tinguem dos templates iguals i n'eliminem un. En aquest alineament, considero que, encara que els templates són molt semblants entre ells, tots són necessaris per fer un model més acurat.



ÍNDEX