Pràctica 6.2


Objectius: El següent pas a realitzar per poder escollir el model estructural per la nostra seqüència és comparar la predicció de l'estructura secundària de la proteïna P11018 amb la del model. Això ens ho farà el programa psipred. La predicció de l'estructura secundària a partir d'una seqüència la fa basant-se amb un sistema de finestres. Es defineix una finestra d'uns 15 residus i es fa un càlcul aproximatiu de l'estructura secundària d'aqueslla 15 residus. Així s'aconseguiex per a cada residu l'assignació d'una estructura concreta (H, E) o un loop (L).


Desenvolupament de la pràctica:

1. Cridem el programa:
] psipred P11018.fa

2. Abans de donar els fitxers de sortida el programa fa dos passos (Pass1... i Pass2...), un tercer de Cleaning up i finalment el Final output i Finished. Ens ha creat una sèrie d'outputs com ara: P11018.blast, P11018.horiz (resultat en horitzontal), P11018.ss i P11018.ss2 (resultat en vertical)

 PSIPRED HFORMAT (PSIPRED V2.3 by David Jones)

Conf: 987124425676677412257888621032223564068987648999857888872577
Pred: CCCCEEECCCCCHHHHHCCCCCCCCCCCCCCHHHHHCCCCCCCEEEEEEECCCCCCCHHH
  AA: MNGEIRLIPYVTNEQIMDVNELPEGIKVIKAPEMWAKGVKGKNIKVAVLDTGCDTSHPDL
              10        20        30        40        50        60


Conf: 325554220467888887888888887671664422237898268742797489999761
Pred: HCCCCCCCCCCCCCCCCCCCCCCCCCCCCEEEEECCCCCCCCCEEEECCCCEEEEEEEEC
  AA: KNQIIGGKNFTDDDGGKEDAISDYNGHGTHVAGTIAANDSNGGIAGVAPEASLLIVKVLG
              70        80        90       100       110       120


Conf: 799874037887544655317852899706889880789999999964792899996378
Pred: CCCCCCCHHHHHHHHHHHHCCCCEEEEECCCCCCCCHHHHHHHHHHHHCCCEEEEEECCC
  AA: GENGSGQYEWIINGINYAVEQKVDIISMSLGGPSDVPELKEAVKNAVKNGVLVVCAAGNE
             130       140       150       160       170       180


Conf: 887888776678877652168887548996000035788404750898158975288053
Pred: CCCCCCCCCCCCCCCCCCEEEEEEECCCCCCEECCCCCCCEEEEECCCEEEEEECCCEEE
  AA: GDGDERTEELSYPAAYNEVIAVGSVSVARELSEFSNANKEIDLVAPGENILSTLPNKKYG
             190       200       210       220       230       240


Conf: 315445678999999999997364554675389999999863023568773124005675
Pred: EECCHHHHHHHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHHCCCCCCCCCCHHCEEEEE
  AA: KLTGTSMAAPHVSGALALIKSYEEESFQRKLSESEVFAQLIRRTLPLDIAKTLAGNGFLY
             250       260       270       280       290       300


Conf: 2016887665421025469
Pred: EEHHHHHHHHHHHCCCCCC
  AA: LTAPDELAEKAEQSHLLTL
             310       


Com veiem en P11018.horiz, s'ha predit l'estructura secundària de la proteïna P11018. És important fixar-se en el grau de confiança de la predicció en cada residu (valors de 9 són gairebé segurs, mentre que valors de 0 o 1 indiquen una assignació de l'estructura secundària per aquell residu gairebé a l'atzar).

3. A continuació convertim el model en el mateix format d'estructura que l'output P11018.ss2:
] dssp P11018.B99990002_C P11018.dssp

4. El programa aliss.pl ens permtet modificar lleugerament el fitxer per visualitzar-lo amb un format d'alineament, i redericcionem el resultat a un nou fitxer (P11018.2D):
] aliss.pl P11018.dssp >> P11018.2D

5. Fem el mateix amb el resultat del psipred sobre P11018.ss2:
] psipred.pl P11018.ss2 >> P11018.2D
El redireccionament amb el símbol >> implica que no s'elimina el que hi havia anteriorment en el fitxer que rep (en aquest cas: P11018.2D)

6. Finalment només ens cal convertir-ho en un alineament horitzontal:
] aconvertMod2.pl -in p -out c < P11018.2D > P11018.2D.aln

CLUSTAL W(1.60) multiple sequence alignment

sequ_prot.dsspSeq     YVTNEQIMDVNELPEGIKVIKAPEMWAKGVKGKNIKVAVLDTGCDTSHPDLKNQIIGGKN
model_01_.dsspSS      ----SHHHHTTTS-HHHHHTTHHHHHHHT---TT-EEEEEES---TT-TTSTTTEEEEEE
estr_sec_real.ss2SS   CCCCHHHHHHHCCCCCHHHCCHHHHHHHCCCCCCEEEEEEECCCCCCCHHHHHCCCCCCC
model_02_.dsspSS      ---S--STTTSS--HHHHHTTHHHHHHHT---TT-EEEEEES---TT-TTS-TTEEEEEE

sequ_prot.dsspSeq     FTDDDGGKEDAISDYNGHGTHVAGTIAANDSNGGIAGVAPEASLLIVKVLGGENGSGQYE
model_01_.dsspSS      -S-SSSS---TT--SSSHHHHHHHHHH---SSSS---SSTT-EEEEEE-S-SS-SS--HH
estr_sec_real.ss2SS   CCCCCCCCCCCCCCCCCCCCEEEEECCCCCCCCCEEEECCCCEEEEEEEECCCCCCCCHH
model_02_.dsspSS      --TTTT----TT--SSSHHHHHHHHHH---SSSS---SSTT-EEEEEE-S-TTTS---HH

sequ_prot.dsspSeq     WIINGINYAVEQKVDIISMSLGGPSDVPELKEAVKNAVKNGVLVVCAAGNEGDGDERTEE
model_01_.dsspSS      HHHHHHHHHHHHT-SEEEE---BS---HHHHHHHHHHHHTT-EEEEE--S-----TT---
estr_sec_real.ss2SS   HHHHHHHHHHCCCCEEEEECCCCCCCCHHHHHHHHHHHHCCCEEEEEECCCCCCCCCCCC
model_02_.dsspSS      HHHHHHHHHHHHT-SEEEE---BS---HHHHHHHHHHHHTT-EEEEE--S----SSS---

sequ_prot.dsspSeq     LSYPAAYNEVIAVGSVSVARELSEFSNANKEIDLVAPGENILSTLPNKKYGKLTGTSMAA
model_01_.dsspSS      --BTTTSTTSEEEEEE-TTS-B-TTS--STT--EEEE-SSEEEEETTTEEEEE-SHHHHH
estr_sec_real.ss2SS   CCCCCCCCCEEEEEEECCCCCCEECCCCCCCEEEEECCCEEEEEECCCEEEEECCHHHHH
model_02_.dsspSS      --BTTTSTTSEEEEEE-TT--B-TTS--STT--EEEE-SSEEEEETTTEEEEE-SHHHHH

sequ_prot.dsspSeq     PHVSGALALIKSYEEESFQRKLSESEVFAQLIRRTLPLDIAKTLAGNGFLYLTAPDELAE
model_01_.dsspSS      HHHHHHHHHHHHHS--STTTT--HHHHHHHHHHT-B--SS-HHHHTT-B--SHHHHS-S-
estr_sec_real.ss2SS   HHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHHCCCCCCCCCCHHCEEEEEEEHHHHHHH
model_02_.dsspSS      HHHHHHHHHHHHHS-SSSSS---HHHHHHHHHHT-B---S-HHHHTT-B--SHHHHT-S-

sequ_prot.dsspSeq     KAEQ
model_01_.dsspSS      ----
estr_sec_real.ss2SS   HHCC
model_02_.dsspSS      SS--


Anàlisis dels resultats: la primera fila és la seqüència d'aminoàcids de la proteïna problema, la següent és l'estructura secundària predita amb el model P11018.B99990001, la tercera és l'estructura secundària real i la última seria la predita pel model P11018.B99990002. Excepte en alguna zona, la predicció dels dos models és gairebé igual entre ells. El que sol passa si ho comparem amb la predicció feta a partir de la seqüència és que es descriuen gairebé totes les hèlix alfa i làmines beta que hi ha, però no acaba de coincidir degut a que les longituds d'aquestes no són exactament iguals. Acostumen a ser més curtes les predites pels models en relació amb les de la seqüència.
Aquí ja tenim prouta informació com per escollir el model més convenient: el model_02_clustalw és el guanyador.

Un cop ja s'ha escollit falta fer una última comprovació, que poden servir per verificar la nostra elecció o simplement per tenir més dades a analitzar:
1. Tornem a fer el procheck, aquest cop amb el model amb els extrems tallats i el comparem amb el que ja havíem fet a la pràctica 5.4.
2. Fer un Stamp amb el model i els templates, perquè sabent que la proteïna P11018 és una subtilisina (serin proteasa), es comprovaria si el residus Ser, His i Asp d'aquesta estan conservats en els templates. Si és així el nostre model tindria més opcions a ser correcte.

Resultats del PROCHECK:

 +----------<<<  P  R  O  C  H  E  C  K     S  U  M  M  A  R  Y  >>>----------+
 |                                                                            |
 | P11018.B99990002_tallat   2.2                                 304 residues |
 |                                                                            |
*| Ramachandran plot:   82.2% core   15.5% allow    0.8% gener    1.6% disall |
 |                                                                            |
*| All Ramachandrans:   16 labelled residues (out of 302)                     |
+| Chi1-chi2 plots:      1 labelled residues (out of 169)                     |
 | Main-chain params:    6 better     0 inside      0 worse                   |
 | Side-chain params:    5 better     0 inside      0 worse                   |
 |                                                                            |
*| Residue properties: Max.deviation:     7.1              Bad contacts:   11 |
*|                     Bond len/angle:   10.5    Morris et al class:  1  1  2 |
+|     1 cis-peptides                                                         |
 | G-factors           Dihedrals:  -0.11  Covalent:  -0.37    Overall:  -0.20 |
 |                                                                            |
 | M/c bond lengths: 98.4% within limits   1.6% highlighted                   |
*| M/c bond angles:  91.3% within limits   8.7% highlighted       3 off graph |
 | Planar groups:   100.0% within limits   0.0% highlighted                   |
 |                                                                            |
 +----------------------------------------------------------------------------+
   + May be worth investigating further.  * Worth investigating further.


Els resultats del procheck del model clustalw P11018.B99990002 sense tallar els extrems són els següents:


 +----------<<<  P  R  O  C  H  E  C  K     S  U  M  M  A  R  Y  >>>----------+
 |                                                                            |
 | P11018.B99990002   2.2                                        319 residues |
 |                                                                            |
*| Ramachandran plot:   81.9% core   15.9% allow    0.7% gener    1.5% disall |
 |                                                                            |
*| All Ramachandrans:   16 labelled residues (out of 317)                     |
+| Chi1-chi2 plots:      1 labelled residues (out of 180)                     |
 | Main-chain params:    6 better     0 inside      0 worse                   |
 | Side-chain params:    5 better     0 inside      0 worse                   |
 |                                                                            |
*| Residue properties: Max.deviation:     7.1              Bad contacts:   11 |
*|                     Bond len/angle:   10.5    Morris et al class:  1  1  2 |
+|     1 cis-peptides                                                         |
 | G-factors           Dihedrals:  -0.11  Covalent:  -0.37    Overall:  -0.20 |
 |                                                                            |
 | M/c bond lengths: 98.3% within limits   1.7% highlighted                   |
*| M/c bond angles:  91.4% within limits   8.6% highlighted       3 off graph |
 | Planar groups:   100.0% within limits   0.0% highlighted                   |
 |                                                                            |
 +----------------------------------------------------------------------------+
   + May be worth investigating further.  * Worth investigating further.

Conclusions: El resultat és gairebé igual! No ha variat molt, encara que podrím pensar que al tallar els extrems, així hagués estat. De totes maneres, el procheck no és molt indicatiu. Deiexm les dades com anecdòtiques i ens basarem en prosa, psipred i grumos.

Resultats de l'STAMP:

Conclusions: En vermell estan marcades les serines, en blau les histidines , i el verd els aspàrtics. A part de comprovar que es superposa molt bé el model amb els templates, s'intueix que alguns d'aquests residus també estan especialment conservats. No es comprova a tot arreu (alguna regió de loop té aquest residu només en una de les seqüències, que podria ser template o model), però és un resultat prou encoratgedor. Les zones que presentem millor superposició són les h6egrave;lix alfa, les més conservades.



ÍNDEX