Objectius: volem comprovar que l'alineament sigui correcte i verificar que l'estructura tingui sentit químic i estereoquímicament semblant. El programa que ens ho permet fer és el procheck
PROCHECK: Aquest programa verifica la qualitat estereoquímica de l'estructura de la proteïna, produint un gran nombre de PostScripts (.ps) i un fitxer sumari (.sum), que contenen l'anàlisis geomètric en conjunt i residu a residu. L'explicació detallada de cada fitxer de sortida està explicada en el desenvolupament de la pràctica. Per fer córrer el programa necessitem una sèrie de requisits:
filename = el fitxer de coordenades del model
[chain] = opcional (no l'usem nosaltres, aquesta
opció)
resolution = nombre real, és la resolució
més alta de totes les proteïna templates que
utilitzem
1. Farem córrer aquest programa pels quatre models que
tenim: P11018.B99990001 i P11018.B99990002 per clustalw i per
HM
$ procheck-single P11018.B99990001 2.2
2. Els resultats del fitxer sumary (P11018.sum) dels
quatre són els següents:
Primer el dos de Clustalw:
P11018.B99990001. Tenim 18 bad contacts que serien àtoms amb impediments estèrics i que per tant generen "contactes irregulars" o desfavorables pel conjunt energètic de la molècula. Els altres valors que hem d'interpretar són els de Ramachandran plot. El primer percentatge és el número de residus que es troben en zones molt bones o permeses. El segon correspon a zones no tant favorables com les altres per&oagrave; encara permeses (allow). El tercer (gener) és el percentatge de residus que es troben en una zona poc favorable però permesa "generosament". I finalment els classificats com disall són aquells que definitivament estan en una zona no permeta del mapa de Ramachandran. Tenen angles completament forçats i desfavorables. Per tant, uns bons resultats series: els dos primers valors molt alts, en contraposició a valors baixos de gener i disall; i la minimització del nombre de bad contacts.
+----------<<< P R O C H E C K S U M M A R Y >>>----------+ | | | P11018.B99990001 2.2 319 residues | | | *| Ramachandran plot: 86.3% core 11.4% allow 1.1% gener 1.1% disall | | | *| All Ramachandrans: 11 labelled residues (out of 317) | +| Chi1-chi2 plots: 3 labelled residues (out of 180) | | Main-chain params: 6 better 0 inside 0 worse | | Side-chain params: 5 better 0 inside 0 worse | | | *| Residue properties: Max.deviation: 16.9 Bad contacts: 18 | *| Bond len/angle: 7.4 Morris et al class: 1 1 2 | +| 1 cis-peptides | | G-factors Dihedrals: -0.12 Covalent: -0.27 Overall: -0.17 | | | | M/c bond lengths: 99.2% within limits 0.8% highlighted | *| M/c bond angles: 91.7% within limits 8.3% highlighted 1 off graph | | Planar groups: 100.0% within limits 0.0% highlighted | | | +----------------------------------------------------------------------------+ + May be worth investigating further. * Worth investigating further.P11018.B99990002: En aquest, tenim menys bad contacts, la qual cosa 6eacute,s millor. Però el percentatge d'àtoms en zones prohibides del mapa de Ramachandran 6eacute;s pitjor i també ha disminuit aquells que es troben en zones m6eacute,s permeses. Per tant, en conclusió, aquest model seria lleugerament pitjor que l'anterior.
+----------<<< P R O C H E C K S U M M A R Y >>>----------+ | | | P11018.B99990002 2.2 319 residues | | | *| Ramachandran plot: 81.9% core 15.9% allow 0.7% gener 1.5% disall | | | *| All Ramachandrans: 16 labelled residues (out of 317) | +| Chi1-chi2 plots: 1 labelled residues (out of 180) | | Main-chain params: 6 better 0 inside 0 worse | | Side-chain params: 5 better 0 inside 0 worse | | | *| Residue properties: Max.deviation: 7.1 Bad contacts: 11 | *| Bond len/angle: 10.5 Morris et al class: 1 1 2 | +| 1 cis-peptides | | G-factors Dihedrals: -0.11 Covalent: -0.37 Overall: -0.20 | | | | M/c bond lengths: 98.3% within limits 1.7% highlighted | *| M/c bond angles: 91.4% within limits 8.6% highlighted 3 off graph | | Planar groups: 100.0% within limits 0.0% highlighted | | | +----------------------------------------------------------------------------+ + May be worth investigating further. * Worth investigating further.
I ara els de HMM:
P11018.B99990001: No són uns resultats molt bons perquè el percentatge de gener &ecaute;s massa alt, tot i que es compensa amb el baix que trobem com a disall.+----------<<< P R O C H E C K S U M M A R Y >>>----------+ | | | P11018.B99990001 2.2 319 residues | | | *| Ramachandran plot: 83.0% core 14.0% allow 2.2% gener 0.7% disall | | | *| All Ramachandrans: 16 labelled residues (out of 317) | *| Chi1-chi2 plots: 7 labelled residues (out of 180) | | Main-chain params: 6 better 0 inside 0 worse | | Side-chain params: 5 better 0 inside 0 worse | | | *| Residue properties: Max.deviation: 7.5 Bad contacts: 17 | *| Bond len/angle: 11.1 Morris et al class: 1 1 2 | +| 1 cis-peptides | +| G-factors Dihedrals: -0.16 Covalent: -0.52 Overall: -0.28 | | | | M/c bond lengths: 97.1% within limits 2.9% highlighted | *| M/c bond angles: 89.0% within limits 11.0% highlighted 7 off graph | | Planar groups: 100.0% within limits 0.0% highlighted | | | +----------------------------------------------------------------------------+ + May be worth investigating further. * Worth investigating further.P11018.B99990002: Potser, aquest seria el pitjor del 4 perquè és el que té més bad contacts i presenta uns percentatges altíssims de disall i gener. De fet, aquesta evaluació global dels 4 models és bastant relativa perquè estem analitzant molts termes diferents i mentres un model pot ser bo per alguns d'ells no ho és pels altres. Per això també ens interessa mirar els altres outputs del procheck que són gràfics postscript que ens aportaran més informació.+----------<<< P R O C H E C K S U M M A R Y >>>----------+ | | | P11018.B99990002 2.2 319 residues | | | *| Ramachandran plot: 81.5% core 14.4% allow 2.6% gener 1.5% disall | | | *| All Ramachandrans: 20 labelled residues (out of 317) | +| Chi1-chi2 plots: 4 labelled residues (out of 180) | | Main-chain params: 6 better 0 inside 0 worse | | Side-chain params: 5 better 0 inside 0 worse | | | *| Residue properties: Max.deviation: 9.5 Bad contacts: 19 | *| Bond len/angle: 17.4 Morris et al class: 1 1 2 | +| 1 cis-peptides | +| G-factors Dihedrals: -0.21 Covalent: -0.82 Overall: -0.42 | | | *| M/c bond lengths: 96.2% within limits 3.8% highlighted 3 off graph | *| M/c bond angles: 89.0% within limits 11.0% highlighted 14 off graph | | Planar groups: 100.0% within limits 0.0% highlighted | | | +----------------------------------------------------------------------------+ + May be worth investigating further. * Worth investigating further.
3. I a continuació analitzem un per un els
postscripts perquè cada un ens aporta una
informació diferent, tot i que el més important és el mapa de Ramachandrann:
$ ghostview P11018_01.ps
Mapa de Ramachandran: ens ensenya la torsió dels
angles phi-psi per tots els residus en l'estructura. Els residus
de glicina estan identificats per separat per triangles. Els
colors i les sombres en el mapa representen diferents regions,
descrites per Morris et al. (1992): l'àrea més fosc
(color vermell) correspon a les regions del core que
represeneten la combinació més favorable de valors
de phi-psi. Idealment, hom voldria tenir més del 90% de
residus en aquestes regions del core. El percentatge de
residus en la refgió del core és un dels
millors indicatius de la qualitat de l'estereoquímica.
$ ghostview P11018_02.ps
Mapa de Ramachandran per tots els tipus de residu: ens mostra mapes de Ramacandran separats, un per cada un dels 20 tipus d'aminoàcids diferents. Com més fosca sigui l'àrea sombrejada de cada mapa, més favorable serà la regió. El criteri amb el qual s'han establert aques sombres ve de l'anàlisi de 163 cadenes proteiques no homòlogues i d'alta resolució, escollides de estructures cristal·litzades i analitzades per raigs X a una resolució de 2.0 A (o millor, amb un R-factor no més gan del 20%). Els números entre parèntesis, al costat del nom de cada residu, indiquen el nombre total de punts que conté el mapa. El número vermell per sota d'aquest és el número de residus d'aquell aa que hi ha en la proteïna.
$ ghostview P11018_03.ps
Chi1-chi2 plots: És la combinació de l'angle
de torsió chi1-chi2 de la cadena lateral de tots els tipus
de residus que la tinguin suficienment llarga com per tenir
ambdós angles chi. El sombrejat en cada mapa indica com
n'és de favorable cada regió; la part més
fosca és la més favorable. El criteri que determina
aquestes zones es va generar tal i com està indicat en
l'explicació dels mapes de Ramachandran per tots els
tipus de residus
$ ghostview P11018_04.ps
Paràmetres de la cadena principal: Els sis
gràfics que conté aquest postscript ens mostren com
és l'estructura (representada per un quadradet negre) en
comparació amb estructures ben refinades a la mateixa
resolució. La banda lila de cada gràfic és
el resultat de les estructures ben refinades; la linia central
que la separa en dos és la mitjana, mentre que la resta de
banda lila correspon a la variació de la desviació
estàndar respecte la mitja. Com més tinguem el
nostre model (quadradet negre) dins la franja, millor, i si
està sobre la franja central, perfecte. Entendre amb
exactitud cada un dels gràfics és complicat
però breument resumeixo que hi podem trobar en cada un
d'ells:
$ ghostview P11018_05.ps
Paràmetres de les cadenes laterals: correspon al
que hem explicat en el postscript anterior però per les
cadenes laterals dels residus.
$ ghostview P11018_06.ps
Propietats dels residus: Els gràfics i diagrames
ens ensenyen com varien les propietats geomètriques dels
residus al llarg de la seqüpencia. Això ens
dóna un idea visual de quines regions semblen ser
consistenment més pobres o amb geometria poc usual (potser
perquè estan poc definides) i quines tenen una geometria
més normal.
$ ghostview P11018_07.ps
Distribució de la llargada dels enllaços en la
cadena principal:L'histograma mostra la distribució de
cada una de les diferents llargades dels enllaços de la
cadena principal en l'estructura. La linia central continua
correspon al valor de la mitjana per petites molècules,
mentre les linies discontinues a ambdós cantons
corresponen a la desviació estàndar per
molècules petites també.
$ ghostview P11018_08.ps
Distribució dels angles d'enllaços en la cadena
principal: l'explicació de cada línia dels
histogrames és la mateixa que hi ha en l'apartat
anterior.
$ ghostview P11018_09.ps
Distàncies RMS de planaritat: Aquests histogrames
mosrten l'RMSD pels diferents grups planars en l'estructura. Les
línies discontinues indiquen diferents valors ideals per
anells aromàtics (Phe, Tyr, Trp i His) i per grups
terminals planars (Arg, Asn, Asp, Gln i Glu). Els valors per
defecte són 0.03A i 0.02A, respectivament.
$ ghostview P11018_10.ps
Mapes geomètrics distorsionats: Correspon a una
sèrie de gràfics que mostren la distorsió
d'altres mapes que ja hem explicat en altres postscripts (angles
enllaçants de la cadena principal, grups planars,...entre
d'alrtes).
4. Un cop hem analitzat mínimament el resultat del
procheck, fem un càlcul predictiu de l'estructura
secundària del model:
$ dssp P11018.B99990001 model_01_C.dssp
(com que això s'ha de fer també pels 4 models, en
nom de l'output ha de ser indicatiu de a quin model es refereix;
en aquest cas seria model acabat en 01 del ClustalW, per Hiden
Markov el símbol que faré servir és H)
$ emacs model_01_C.dssp
Per pantalla ens apareix un fitxer ple de números i valors indesxifrables.
5. Ho passem a format .pir:
$ aliss.pl model_01_C.dssp > model_01_C.pir
$ emacs model.pir
I aquí ja tinc seqüència i l'estructura secundària predita (on H: hèlix alfa, S: girs en un loop, i E: fulla beta)>P1;model_01_C.dsspSeq model_01_C.dsspSeq MNGEIRLIPYVTNEQIMDVNELPEGIKVIKAPEMWAKGVKGKNIKVAVLDTGCDTSHPDLKNQIIGGKNFTDDDGGKEDA ISDYNGHGTHVAGTIAANDSNGGIAGVAPEASLLIVKVLGGENGSGQYEWIINGINYAVEQKVDIISMSLGGPSDVPELK EAVKNAVKNGVLVVCAAGNEGDGDERTEELSYPAAYNEVIAVGSVSVARELSEFSNANKEIDLVAPGENILSTLPNKKYG KLTGTSMAAPHVSGALALIKSYEEESFQRKLSESEVFAQLIRRTLPLDIAKTLAGNGFLYLTAPDELAEKAEQSHLLTL* >P1;model_01_C.dsspSS model_01_C.dsspSS -------------SHHHHTTTS-HHHHHTTHHHHHHHT---TT-EEEEEES---TT-TTSTTTEEEEEE-S-SSSS---T T--SSSHHHHHHHHHH---SSSS---SSTT-EEEEEE-S-SS-SS--HHHHHHHHHHHHHHT-SEEEE---BS---HHHH HHHHHHHHTT-EEEEE--S-----TT-----BTTTSTTSEEEEEE-TTS-B-TTS--STT--EEEE-SSEEEEETTTEEE EE-SHHHHHHHHHHHHHHHHHHS--STTTT--HHHHHHHHHHT-B--SS-HHHHTT-B--SHHHHS-S---S-------*
6. Ho convertime en format clustalW:
$ aconvertMod2.pl -in p -out c < model_01_C.pir >
model_01_C.clw
$ emacs model_01_C.clw
CLUSTAL W(1.60) multiple sequence alignment model.dsspSeq MNGEIRLIPYVTNEQIMDVNELPEGIKVIKAPEMWAKGVKGKNIKVAVLDTGCDTSHPDL model.dsspSS -------------SHHHHTTTS-HHHHHTTHHHHHHHT---TT-EEEEEES---TT-TTS model.dsspSeq KNQIIGGKNFTDDDGGKEDAISDYNGHGTHVAGTIAANDSNGGIAGVAPEASLLIVKVLG model.dsspSS TTTEEEEEE-S-SSSS---TT--SSSHHHHHHHHHH---SSSS---SSTT-EEEEEE-S- model.dsspSeq GENGSGQYEWIINGINYAVEQKVDIISMSLGGPSDVPELKEAVKNAVKNGVLVVCAAGNE model.dsspSS SS-SS--HHHHHHHHHHHHHHT-SEEEE---BS---HHHHHHHHHHHHTT-EEEEE--S- model.dsspSeq GDGDERTEELSYPAAYNEVIAVGSVSVARELSEFSNANKEIDLVAPGENILSTLPNKKYG model.dsspSS ----TT-----BTTTSTTSEEEEEE-TTS-B-TTS--STT--EEEE-SSEEEEETTTEEE model.dsspSeq KLTGTSMAAPHVSGALALIKSYEEESFQRKLSESEVFAQLIRRTLPLDIAKTLAGNGFLY model.dsspSS EE-SHHHHHHHHHHHHHHHHHHS--STTTT--HHHHHHHHHHT-B--SS-HHHHTT-B-- model.dsspSeq LTAPDELAEKAEQSHLLTL model.dsspSS SHHHHS-S---S-------
Nota: Només adjunto el resultat de fer-ho amb el model de clustal 01 perquè més endavant (a la pràctica 6.2 quan haguem triat dos dels models ho tornarem a fer per comparar-los entre ells, i crec que aquell resultat és molt més interessant.