Pràctica 5: CONSTRUCCIÓ DE MODELS

Pràctica 5.1- Modelat de seqüències I: Mitjançant cerca d'homòlegs i alineament de seqüències
Pràctiques de Biologia Estructural- Carlos Masdeu Ávila- Nia=16965
<<                                                    >>

1-Introducció

        Nosaltres partim d'una seqüència problema, P11018.seq, de la qual només en coneixem la seqüència, però no l'estructura. No obstant, a partir de determinades eines i de la informació que ens produeixen proteïnes homòlogues, podem construir un model d'allò que podria ser l'estructura d'aquesta proteïna. Per fer-ho, doncs, hem de començar trobant proteïnes homòlogues. Seguirem la següent estratègia:

-En primer lloc, realitzarem una cerca de tipus PSIBLAST (veure pràctica 3.1) dins de la base de dades swissprot (/disc9/DB/blast/swissprot), amb unes 4 iteracions, a fi de trobar un perfil que més o menys caracteritzi l'estructura que hauria de tenir la nostra seqüència problema.

-Amb el patró de cerca a Psiblast obtingut cercant a la base de dades de Swissprot, cercarem dins de la base de dades pdb (/disc9/DB/blast/pdb ,d'on podrem extreure les estructures de les proteínes resultants, tal com es farà a les següents pràctiques)

-D'entre els resultats obtinguts a la cerca PSIBLAST sobre pdb, triarem algunes proteïnes, i agafarem la seva estructura (les podem trobar totes comprimides a /disc9/DB/pdb/).

-Amb l'estructura, obtindrem la seqüència (amb l'script PDBtoSplitChain.pl, per exemple), i realitzem un alineament d'aquestes amb la seqüència problema mitjançant el programa clustalw.

1-Cerca PSIBLAST contra swissprot per generar una matriu
       Un cop tenim copiada al directori de treball la seqüència problema, cridem la següent comanda:

/disc9/BLAST/EXE/blastpgp -i P11018.seq -j 4 -o P11018.pdbblast -d /disc9/DB/blast/swissprot -C P11018blast.bsl4
A la qual:
-i P11018.seq (definim P11018.seq com a input)
-j 4 (marquem com a 4 el nombre d'iteracions)
-d /disc9/DB/blast/swissprot (definim swissprot com la base de dades a utilitzar)
-C P11018blast.bsl4 (definim P11018blast.bsl4 com a arxiu on es guardarà la matriu de substitució un cop passades les 4 iteracions)

D'aquesta comanda en resultarà un output:
-P11018blast.bsl4 (matriu de substitució)

2-Cerca PSIBLAST contra pdb per trobar homòlegs

        Utilitzant la mateixa seqüència problema i la matriu de substitució obtinguda al pas anterior, fem ara la cerca PSIBLAST sobre el pdb...

/disc9/BLAST/EXE/blastpgp -i P11018.seq -j 4 -o P11018.pdbblast -d /disc9/DB/blast/pdb -R P11018blast.bsl4

          A la qual només hem canviat una cosa respecte a l'anterior, -R P11018blast.bsl4 (utilitzem ara com a punt de partida la matriu resultant de la darrera iteració a Swissprot) .D'aquí en resultarà l'output final de la cerca: P11018.pdbblast

3-Triar, obtenir i aliniar les seqüències homòlogues

        Observant el output de la cerca (anem a la darrera iteració, en aquest cas, 'round 2'), hem de triar algunes seqüències. No hi ha cap criteri concret sobre com deu fer-se això, però la intenció és que siguin seqüències que puguin donar-nos prou informació com per a poder construir un model futurament amb elles. Així, no deuen ser excessivament homòlogues entre elles, sinò que si tenen alguna petita diferència, molt millor -p.ex, un determinat grup de proteïnes poden ser molt semblants en un punt a la seq. problema, però molt diferents en un altre, de manera que aquesta darrera zona no tindria base sobre la que construir el model-. Intentarem agafar poques seqüències 3 o 4 ja que no necessàriament per posar-ne més el model serà més complet. Si veiem que la cosa no funciona, o que apareixen gaps a l'alineament amb P11018, anirem afegint seqüències.

Així, triarem les següents proteïnes:
pdb1scj.ent Chain A (és la que té un valor més alt, així que ens cobrirà la major part de la proteïna)

(si mirem al output del PSIBLAST l'alineament entre 1scj i la prot problema, veurem que gairebé s'alinea perfectament amb tota la seqüència, exceptuant un petit buit de 5 gaps que queda cap el final (QRKLSE). Intentarem omplir-lo buscant homòlegs a aquesta zona. Per fer-ho, seleccionem aquests 5 residus i els cerquem com a text (p.ex, amb kwrite) al output de PSIBLAST, intentant trobar alguna proteína que pugui complementar aquesta part...
No obstant, no hi ha hagut sort... tots els alineaments tenen aquest petit gap, o bé a aquesta posició, o bé desplaçada un parell d'aa cap un costat o l'altre...sembla que no podrem fer res per omplir-lo...
)

Els altres dos que hem triat són:

pdb1ak9.ent
pdb1c9m.ent Chain A

          Descarreguem les estructures de /disc9/DB/pdb i apliquem PDBtoSplitChain.pl per separar-les en cadenes i també obtenir la seqüència en FASTA.
            Juntem les tres seqüències i la seqüència problema en un sol fitxer ("listap"), i l'utilitzem com a input per a Clustalw.
L'alineament resultant és listap.aln. Tal com es veu, la seqüència 1c9m empitjora l'alineament, de manera que tornarem a fer-lo, treient-la de la llista de input.
El resultat té un aspecte diferent a l'anterior. Ara els gaps s'han concentrat en la regió dels 5 aa amb els que no trobavem cap seqüència que s'aliniés).
Farem una darrera intentona d'omplir el gap, trobant una seqüència que sigui capaç d'omplir-lo.

Provem algunes seqüències:

1s02
1s02 sembla que té uns bons alineaments a la zona, tal com mostren els resultats del psiblast... Provem d'afegir-la a l'alineament...(Però continua deixant el forat...)

1ubn
1ubn deixa només el buit de 5 aa, però en crea dos de nous (un de 2 i un de 3) més enrera en la seqüència. No obstant, l'alineament global (listapD.aln) és molt més bo

De manera que les seqüències amb les que ens quedarem són:

1ak9
1sjA
1ubnA
1sca
(aquesta darrera ha estat afegida perquè posteriorment s'ha vist que només amb les tres seqüències anteriors no hi hauria diferències entre l'alineament per clustal i per STAMP. Com un dels objectius de la pràctica és comparar el model ofert per cadascun dels dos sistemes, he optat per afegir una seqüència distant per augmentar diferències...)

Tal com es veu, tots dos alineaments eren gairebé iguals:
<listapD.aln> <hmmalign.aln>

Així, l'alineament final, un cop afegida 1sca, és: listapF.aln


<<                                                    >>