Pràctica 3.1

OBJECTIUS

Descriu com fer servir el BLAST i el PSI-BLAST amb diferents opcions: Desenvolupa un mètode de cerca per tal de trobar a les bases de dades de seqüències de proteïnes amb esructura coneguda les més homólogues a una seqüència problema.

1.-BLAST
BLAST es un programa de cerca de similaritat en bases de dades. Alinea una seqüència contra les seqüències d'una base de dades, i obté paràmetres que ens indiquen la significancia de cadascú d'aquests alineaments. BLAST necessita d'un pretractament de les bases de dades, en el que talla les proteïnes en paraules. També talla en paraules la nostra proteïna problema.
Al fer la cerca, el programa calcula per a cada possible paraula de la seqüència problema, totes les possibles paraules que tenen certa similaritat amb la paraula donada. Per a cada paraula trobada amb certa homologia, fa un alineament òptim al voltant de la paraula. Els alineaments que superen un E value determinat, es mostren al fitxer d'output. L'output del programa es un arxiu de text en el que les seqüències s'organitzen de menor a major E value (o de major a menor score).
-E value: ens indica la puntuació de la proteïna trobada. El BLAST considera només aquelles proteïnes amb un E value inferior al que s'especifica.
-Score: puntuació de la proteïna trobada respecte a la problema.

-Execució BLAST :
  bash-2.05$ /disc9/BLAST/EXE/blastall -

Opcions que podem fer servir:


Exemple:
  bash-2.05$ /disc9/BLAST/EXE/blastall -i hbb_tarsy.sw -d /disc/DB/blast/pdb -p blastp -o hbb_tarsy.out

-Pràctica:

  1. Copiem l'arxiu que conté la seqüència FASTA al nostre directori de treball:
      bash-2.05$ cp /disc9/practica_3/BLASt/globin/hbb_tarsy.sw
  2. Buscarem proteïnes homòlogues a la nostra seqüència (hbb_tarsy) en la base de dades PDB, mitjançant BLASTP (ja que volem comparar una seqüència d'aminoàcids contra una base de dades de seqüències de proteïnes)
       bash-2.05$ /disc9/BLAST/EXE/blastall -i hbb_tarsy.sw -d /disc/DB/blast/pdb -p blastp -o hbb_tarsy.out
  3. Com a output del BLASTP obtenim l'arxiu hbb_tarsy.out. Conté una llista amb les proteïnes de la base de dades amb amb major puntuació per a l'alineament, ordenades segons el seu E value i score. A menor E value i major Score, major serà la homologia amb la seqüència problema. A la part final de l'output, trobem tots els alineaments entre la proteïna i les proteïnes trobades.
  4. Ara tornarem a realitzar el pas 3, però ara fent el BLASTP contra la base de dades Swissprot. Obtindrem l'arxiu hbb_tarsy2.out, amb una estructura similar a l'ouput que obtenim al executar Blast amb pdb.
       bash-2.05$ /disc9/BLAST/EXE/blastall -i hbb_tarsy.sw -d /disc/DB/blast/swissprot -p blastp -o hbb_tarsy.out
  5. Ara volem obtenir les tres proteïnes amb un alineament menys significatiu, de la llista obtinguda al realitzar la búsqueda d'homòlegs contra Swissprot (hbb_tarsy2.out). Per a fer-ho podrem utilitzar dos mètodes:
    * Dirigir-nos a la web d'un dels servidors que contenen la base de dades swissprot (per exemple: http://www.expasy.ch ). Un cop alla farem la búsqueda pel nom de la proteïna, i podrem obtenir la seqüència de les proteïnes desitjades.
    * Fer la búsqueda a la base de dades de swissprot local. Executarem la següent comanda:
      bash-2.05$ kwrite disc9/DB/blast/swissprot
    D'aquesta manera s'obrirà un fitxer de text amb totes les proteïnes (y les seves seqüències en format FASTA) de la base de dades. Buscarem i copiarem les seqüències desitjades.
    Les tres proteïnes escollides són :
    sp|P02008|HBAZ_HUMAN HEMOGLOBIN ZETA CHAIN   97 2e-20
    sp|P13786|HBAZ_CAPHI HEMOGLOBIN ZETA CHAIN     96 3e-20
    sp|P02020|HBA_LEPPA HEMOGLOBIN ALPHA CHAIN   96 4e-20
  6. Cadascuna de les seqüències buscades les hem copiat en un arxiu de text. Ara ens interessarà ficar totes aquestes seqüències en un mateix arxiu de text. Per tal de no haver-ho de fer manualment, utilitzarem la comanda cat: concatena fitxers introduint-los en un fitxer nou.
         bash-2.05 cat hbb_tarsy.sw >> llistat.fa

2.-CLUSTALW
ClustalW és un programa d'alineament múltiple de seqüències. L'utilitzarem per a, un cop hem obtingut les seqüències, alinear-les.

-Execució Clustalw:
    bash-2.05 /disc9/CLUSTALW/clustalw
Clustalw realitza l'alineament múltiple en 3 pasos:

  1. Compara totes les seqüències entre elles (pairwise alignments).
  2. Construeix un dendograma (similar a un arbre filogenètic) que agrupa les seqüències per similaritat.
  3. Es construeix l'alineament múltiple final utilitzant el dendograma com a guía.

Després de l'execució de clustal obtenim dos fitxer d'output:
* llistat.aln: conté l'alineament múltiple de les seqüències
* llistat.dnd: dendograma que descriu la similaritat de les seqüències entre elles.

3.-PSI-BLAST
PSI-BLAST (position-specific-iterated BLAST) és un programa de búsqueda de seqüències homòlogues de forma iterativa. És una modificació del programa d'alineaments locals BLAST que incorpora l' utilització de matrius de pesos. D'aquesta manera s'augmenta la sensibilitat de les cerques, encara que també augmentarà la possibilitat d'obtenir falsos positius.
L'output de Psi-Blast és igual al de Blast.

-Funcionament:

  1. Compara la seqüència de la proteïna problema amb la base de dades proteica mitjançant BLAST (alineament local)
  2. El programa construeix un alineament múltiple, i després un perfil (matriu de substitució), a partir d'alguns alineaments locals significatius. La seqüència original serà utilitzada com a plantilla per realitzar l'alineament múltiple i el perfil.
  3. Es realitza una cerca a la base de dades mitjançant el perfil obtingut. Obté noves seqüències similars.
  4. PSI-BLAST calcula la significancia estadística dels alineaments locals.
  5. Finalment itera, retornant al pas 2, tantes vegades com li hem especificat al executar el programa.

-Execució:
    bash-2.05 /disc9/BLAST/EXE/blastpgp

-Opcions:

-Pràctica

  1. Executem PSI-BLAST utilitzant com a input el fitxer hbb_tarsy.sw (en el que esta la seqüència en format FASTA de hbb_tarsy). La búsqueda la farem contra el PDB, fent 2 iteracions. Obtindrem un arxiu (hbb_tarsy_pdb.out1) amb la llista d'homòlegs, i un altre arxiu amb la matriu hbb_tarsy.bls1.
        bash-2.05 /disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -C hbb_tarsy.bls1 -o hbb_tarsy_pdb.out1 -j 2
  2. Ara podríem realitzar una nova búsqueda amb PSI-BLAST, però utilitzant la matriu que anteriorment ha utilitzat el programa, i que ha guardat al arxiu (hbb_tarsy.bls1). Es generarà un nou arxiu amb la llista d'homòlegs (hbb_tarsy_pdb.out2 ) i un altre fitxer amb la matriu utilitzada (hbb_tarsy.bls2).
        bash-2.05 /disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -C hbb_tarsy.bls2 -o hbb_tarsy_pdb.out1 -R hbb_tarsy.bls1 -j 2
  3. Ara utilitzarem la opció -B. El fitxer de clustal que utilitzarem serà el que hem creat abans amb Clustalw (llistat.aln). Del arxiu (llistat.aln), esborrarem la primera línia i la línia d'asterisc per a que sigui compatible amb PSI-BLAST
         bash-2.05 /disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -B llistat.aln -j 2 -o hbb_tarsy-out3 -d /disc9/DB/blast/pdb
Primer de tot hem utilitzat PSI-BLAST contra swissprot, i la matriu que obtinguda l'hem utilitzat per a fer la búsqueda d'homolegs a PDB mitjançant un altre cop PSI-BLAST. Ho fem així perquèla base de dades de swissprot es més gran que pdb, i així obtenim una matriu de búsqueda molt mes acurada. Fent-la servir contra PDB, obtindrem seqüències que no obtindríem si féssim el PSI-BLAST directament contra PDB.


Index