PART 1: Aliniament amb Clustalw


  1. DESCRIPCIÓ TEÒRICA DEL PROGRAMA

    En la primera part de la pràctica emprarem el programa Clustalw, per tal de realitzar un aliniament múltiple de les diferents seqüències que anirem obtenint al llarg de la pràctica, després de realitzar diferents cerques en diferents bases de dades (pdb, swissprot).


  2. DESCRIPCIÓ PRÀCTICA DELS COMANDAMENTS DEL PROGRAMA

    Les comandes que hem utilitzat durant la pràctica han estat les següents:


    BLASTP:

    $cp /disc9/practica_3/BLAST/globin/hbb_tarsy.sw .
    $/disc9/BLAST/EXE/blastall -p blastp -i hbb_tarsy.sw -d /disc9/DB/blast/swissprot -o blast_search1.out &
    $/disc9/BLAST/EXE/blastall -p blastp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -o blast_search2.out &


    A continuació cerquem a la web: http://www.expasy.ch (pàgina de Swissprot i TrEMBL), les seqüències corresponents a les proteïnes: hba_leppa.sw, hbaz_caphi.sw, hbaz_human.sw.

    Aquestes són algunes de les seqüències que haurien de sortir-nos als nostres outputs, un cop executades les comandes anteriors de cerca amb swissprot i pdb.

    Les seqüències corresponents a aquestes proteïnes les juntem en un mateix arxiu que contingui a més, la seqüència problema (hbb_tarsy.sw). El resultat de lŽarxiu hauria de ser idèntic al que sŽadjunta (llistat.fa).

    Un cop tenim lŽarxiu amb les seqüències en format fasta, podem fer correr el programa Clustalw:


    [e14910.bio. [...] practica_3]$ /disc9/CLUSTALW/clustalw


    	
    	
     **************************************************************
     ******** CLUSTAL W(1.60) Multiple Sequence Alignments  ********
     **************************************************************
    
    
         1. Sequence Input From Disc
         2. Multiple Alignments
         3. Profile / Structure Alignments
         4. Phylogenetic trees
    
         S. Execute a system command
         H. HELP
         X. EXIT (leave program)
    
    
    Your choice: 1
    
    
    Sequences should all be in 1 file.
    
    6 formats accepted:
    NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF.
    
    
    Enter the name of the sequence file: llistat.fa
    
    Sequence format is Pearson
    
    Sequences assumed to be PROTEIN
    
    Sequence 1: gi|122699|      147 aa
    Sequence 2: sp|P02020|      143 aa
    Sequence 3: sp|P13786|      141 aa
    Sequence 4: sp|P02008|      141 aa
    
    
    
     **************************************************************
     ******** CLUSTAL W(1.60) Multiple Sequence Alignments  ********
     **************************************************************
    
    
         1. Sequence Input From Disc
         2. Multiple Alignments
         3. Profile / Structure Alignments
         4. Phylogenetic trees
    
         S. Execute a system command
         H. HELP
         X. EXIT (leave program)
    
    
    Your choice: 2
    
    
    
    ****** MULTIPLE ALIGNMENT MENU ******
    
    
        1.  Do complete multiple alignment now (Slow/Accurate)
        2.  Produce guide tree file only
        3.  Do alignment using old guide tree file
    
        4.  Toggle Slow/Fast pairwise alignments = SLOW
    
        5.  Pairwise alignment parameters
        6.  Multiple alignment parameters
    
        7.  Reset gaps between alignments? = ON
        8.  Toggle screen display          = ON
        9.  Output format options
    
        S.  Execute a system command
        H.  HELP
        or press [RETURN] to go back to main menu
    
    
    Your choice: 1
    
    Enter a name for the CLUSTAL output file  [llistat.aln]:
    
    Enter name for GUIDE TREE          file   [llistat.dnd]:
    
    Start of Pairwise alignments
    Aligning...
    Sequences (1:2) Aligned. Score:  32
    Sequences (1:3) Aligned. Score:  36
    Sequences (1:4) Aligned. Score:  34
    Sequences (2:3) Aligned. Score:  35
    Sequences (2:4) Aligned. Score:  34
    Sequences (3:4) Aligned. Score:  85
    
    Guide tree        file created:   [llistat.dnd]
    
    Start of Multiple Alignment
    There are 3 groups
    Aligning...
    Group 1: Sequences:   2      Score:2147
    Group 2:                     Delayed
    Group 3:                     Delayed
    Sequence:1     Score:995
    Sequence:2     Score:1004
    
    Alignment Score 2645
    
    
    
    Consensus length = 150
    
    CLUSTAL-Alignment file created  [llistat.aln]
    
    
    CLUSTAL W(1.60) multiple sequence alignment
    
    
    
    gi|122699|      MVHLTAEEKAAVTALWGKVD--VEDVGGEALGRLLVVYPWTQRFFDSFG-DLSTPAAVMS
    sp|P02020|      -MRFSQDDEVLIKEAWGLLH-QIPNAGGEALARMFSCYPGTKSYFPHFGHDFSAN-----
    sp|P13786|      --SLTRTERTIILSLWSKISTQADVIGTETLERLFSCYPQAKTYFPHF--DLHS-----G
    sp|P02008|      --SLTKTERTIIVSMWAKISTQADTIGTETLERLFLSHPQTKTYFPHF--DLHP-----G
                        .  .   .   *  .       * *.* *.    * .. .*  *  *
    
    gi|122699|      NAKVKAHGKKVLNAFSDGMAHLDNLKGTFAKLSELHCDKLHVDPENFRLLGNVLVCVLAH
    sp|P02020|      NEKVKHHGKKVVDAIGQGVQHLHDLSSCLHTLSEKHARELMVDPCNFQYLIEAIMTTIAA
    sp|P13786|      SAQLRAHGSKVVAAVGDAVKSIDNVTSALSKLSELHAYVLRVDPVNFKFLSHCLLVTLAS
    sp|P02008|      SAQLRAHGSKVVAAVGDAVKSIDDIGGALSKLSELHAYILRVDPVNFKLLSHCLLVTLAA
                      ... ** **. *    .  .  .  .   *** *.  * *** **. *   ..  .*
    
    gi|122699|      HFGKEFTPQVQAAYQKVVAGVATALAHKYH
    sp|P02020|      HYGEKFTPEINCAAEKCLGQIVHVLISLYR
    sp|P13786|      HFPADFTADAHAAWDKFLSIVSGVLTEKYR
    sp|P02008|      RFPADFTAEAHAAWDKFLSVVSSVLTEKYR
                    ..   **    .*  * .  .   *   *.
    
    Press [RETURN] to continue:
    
    
    
    ****** MULTIPLE ALIGNMENT MENU ******
    
    
        1.  Do complete multiple alignment now (Slow/Accurate)
        2.  Produce guide tree file only
        3.  Do alignment using old guide tree file
    
        4.  Toggle Slow/Fast pairwise alignments = SLOW
    
        5.  Pairwise alignment parameters
        6.  Multiple alignment parameters
    
        7.  Reset gaps between alignments? = ON
        8.  Toggle screen display          = ON
        9.  Output format options
    
        S.  Execute a system command
        H.  HELP
        or press [RETURN] to go back to main menu
    
    
    Your choice:
    
    
    
     **************************************************************
     ******** CLUSTAL W(1.60) Multiple Sequence Alignments  ********
     **************************************************************
    
    
         1. Sequence Input From Disc
         2. Multiple Alignments
         3. Profile / Structure Alignments
         4. Phylogenetic trees
    
         S. Execute a system command
         H. HELP
         X. EXIT (leave program)
    
    
    Your choice: x
    
    	

    Output de sortida del programa : llistat.aln


    Altres comandes també utilitzades durant la pràctica han estat les següents:


    PSI_BLAST:

    $/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -j 2 -C hbb_tarsy.bls1 -o hbb_tarsy.out &
    $/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -d /disc9/DB/blast/pdb -j 2 -R hbb_tarsy.bls1 -C hbb_tarsy.bls2 -j 2 -o hbb_tarsy.out2 &
    $/disc9/BLAST/EXE/blastpgp -i hbb_tarsy.sw -B llistat2.aln* -j 2 -d/disc9/DB/blast/pdb -o hbb_tarsy.out3 &

    *Aquest arxiu correspon a lŽoutput del clustalw fet amb lŽarxiu llistat.fa, i modificat posteriorment (sŽhi han eliminat tots els caràcters rars: *, · , ...)


    Un cop executades les comandes del PSI-BLAST, creem un arxiu que contingui algunes de les seqüències homòlogues obtingudes a partir dels resultats.

    Així doncs, un cop creem lŽarxiu amb el conjunt de seqüències en format fasta, correm el programa dŽaliniament Clustalw (utilitzarem com a input, lŽarxiu en format fasta: llistatPSIblast.fa).

    El resultat que nŽobtenim és el que es pot observar tot clicant lŽanexe (llistatPSIblast.aln).


  3. EXEMPLES DE COMANDAMENTS I CONDICIONS APLICADES EN LŽEXECUCIÓ


    Diferents opcions pels diferents mètodes de cerca
    BLASTPSI-BLAST

    -p: Nom del Programa
    (en el nostre cas: blastp, ja que treballa amb proteïnes)

    -i: Nom arxiu dŽentrada
    (Ex: hbb_tarsy.sw)

    -d: Base de dades
    (Ex: /disc9/DB/blast/pdb)

    -o: (Opcional) Arxiu de sortida
    (Ex: blast_search1.out)


    clica aquí per a veure més opcions del programa

    -o: (Opcional) Arxiu de sortida
    (Ex: hbb_tarsy.out)

    -i: Arxiu dŽentrada
    (Ex: hbb_tarsy.sw)

    -j: Nombre màxim de pasos a utilitzar amb PSI-Blast (nombre dŽiteracions)

    -C: (Opcional) Arxiu de sortida pel control del funcionament de PSI-Blast
    (Ex: hbb_tarsy.bls1)

    -R: Arxiu dŽentrada per a iniciar PSI-Blast


    clica aquí per a veure més opcions del programa



  4. RESULTATS OBTINGUTS DE LŽAPLICACIÓ DEL PROGRAMA ALS EXEMPLES COMENTATS I PROBLEMES PROPOSATS A LA PRÀCTICA


    • Desenvolupa un mètode de cerca per tal de trobar a les bases de dades de seqüències de proteïnes amb estructura coneguda les més homòlogues a un seqüència problema.


    Per tal de posar en pràctica totes les comandes i demés opcions que hem anat estudiant anteriorment, agafarem tres seqüències problema donades i les analitzarem par per pas.

    DŽentre totes les seqüències problema donades, nŽescullo tres:

    seq3.fa
    seq4.fa
    seq7.fa


    A continuació es detallen els passos realitzats amb cada una de les tres seqüències, així com els arxius de sortida resultants en cada cas:


    1. $ /disc9/BLAST/EXE/blastall -p blastp -i nomseq.fa -d /disc9/DB/blast/swissprot -o blast_nomseq.out
      blast_seq3.outblast_seq4.outblast_seq7.out

    2. $ /disc9/BLAST/EXE/blastall -p blastp -i nomseq.fa -d /disc9/DB/blast/pdb -o blast_nomseq.out2
      blast_seq3.out2blast_seq4.out2blast_seq7.out2

      Creo un arxiu que contingui diferents seqüències homòlogues trobades, en format fasta, a partir de les bases de dades (primer cerco a swissprot i després realitzo una cerca més acurada en pdb).

      LŽarxiu el creo a partir dels resultats obtinguts de la base de dades pdb.
      seqs_seq3.faseqs_seq4.faseqs_seq7.fa

    3. $ /disc9/CLUSTALW/clustalw

      SŽobtenen diferents aliniaments per a cada una de les seqüències: seqs_nomarxiu.aln
      seqs_seq3.alnseqs_seq4.alnseqs_seq7.aln

    4. $ /disc9/BLAST/EXE/blastpgp -i nomseq.fa -d /disc9/DB/blast/pdb -j 2 -C hbb_tarsy.bls1 -o nomseq.out &
      seq3.outseq4.outseq7.out

    5. $ /disc9/BLAST/EXE/blastpgp -i nomseq.fa -d /disc9/DB/blast/pdb -j 2 -R hbb_tarsy.bls1 -C hbb_tarsy.bls2 -j 2 -o nomseq.out2 &
      seq3.out2seq4.out2seq7.out2

      Creo un arxiu que contingui diferents seqüències homòlogues trobades, en format fasta, a partir de les bases de dades (pdb amb el programa PSI-Blast).
      seqs_seq3PSIblast.faseqs_seq4PSIblast.faseqs_seq7PSIblast.fa

    6. $ /disc9/CLUSTALW/clustalw

      SŽobtenen diferents aliniaments per a cada una de les seqüències: seqs_nomarxiuPSIblast.aln
      seqs_seq3PSIblast.alnseqs_seq4PSIblast.alnseqs_seq7PSIblast.aln


      CONCLUSIONS:

      El fet que PSI-Blast presenti una sèrie dŽiteracions (definides per lŽusuari) permet la troballa dŽaquells homòlegs més remots, que dŽaltra manera no sŽhan pogut trobar amb una sola cerca en Blast.

      PSI-Blast, presenta certs avantatges sobre Blast com poden ser...:

      • Algorisme heurístic, ràpid i eficient
      • Búsqueda a partir de PSSM (Position-specific Scoring Matrix)
      • Software senzill

      ... així com certs incovenients:

      • Cal revisar els resultats que se nŽobtenen, ja que poden ser inclossos alguns falsos homòlegs remots
      • De vegades mostra seqüències tant semblants, que pot donar problemes de superposició
      • E-value que se nŽobté, mostra el grau de coincidència amb la matriu de pesos generada en un pas anterior i no pas amb la seqüència original

      Cal destacar que els resultats obtinguts amb les tres seqüències problema són força similars tant si correm Blastp com PSI-Blast, excepte en el cas de la seqüència 4.

      Les altres seqüències (la 3 i la 7), presenten uns resultats força semblants en ambdues versions; en canvi, amb la seqüència 4, els resultats que en resulten, desconcerten força.

      La cerca dŽaquesta seqüència amb Blastp, mostra uns deu resultats de possibles proteïnes homòlogues però els E-values dŽaquestes, són molt alts (poc significatius). Per una altra banda, PSI-Blast, només dóna dos resultats i els E-values en aquest cas tampoc aporten cap dada relevant.

      Així doncs, val a dir que el resultats obtinguts de correr el programa amb Blastp i amb PSI-Blast així com lŽaliniament obtingut a partir de Clustalw no són vàlids (dades errònies), ja que els programes no han donat cap proteïna que sigui homòloga a la donada (E-values < 10-05 poden considerar-se acceptables).





PART 2: Aliniament amb hmmalign
  1. DESCRIPCIÓ TEÒRICA DEL PROGRAMA

    HMMER, és un paquet de software que conté en ell diversos programes, cadascun dŽells relacionat amb la construcció, cerca, tractament, etc. dels Models Ocults de Markov (Hidden Markov Models).

    hmmbuild, construeix un Model Ocult de Markov (HMM) a partir dŽun aliniament de seqüències.

    hmmcalibrate, és una comanda opcional del paquet, que parteix dŽun HMM i nŽelimina tota informació redundant (repeticions, duplicacions...) del model.
    Aquesta comanda, elimina el biaix existent en el nostre sistema generat.

    hmmsearch, busca sobre bases de dades de seqüències aquella seqüència que encaixi amb un model donat a testar.

    hmmpfam, busca sobre bases de dades de HMM un model que encaixi amb una seqüència donada a testar.

    hmmalign, està indicat per a lŽaliniament de seqüències dŽun model donat.


  2. DESCRIPCIÓ PRÀCTICA DELS COMANDAMENTS DEL PROGRAMA

    Durant la primera part de la pràctica, les comandes que hem utilitzat han estat les següents:

    $ cp -r /disc9/practica_3/HMMER .
    $ cd HMMER
    $ tcsh
    [e14910.bio.acexs.au.upf@au48239 practica_3]$ source /disc9/cshrc
    [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild globin.hmm globins50.msf
    Construeix un model (globin.hmm) a partir dŽun aliniament de seqüències donat (globins50.msf)
    [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmsearch globin.hmm Artemia.fa > artemia
    Cerca de nous dominis globin, a partir dŽun HMM creat (globin.hmm), sobre una base de dades de seqüències donada (Artemia.fa)
    [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmsearch globin.hmm /disc9/DB/blast/swissprot > swisspract3_2
    DŽigual forma que lŽanterior, busca sobre bases de dades de seqüències, aquella seqüènica que encaixi amb un model donat. En aquest cas, la base de dades de seqüències és més gran.

    A la segona part de la pràctica, les comandes utilitzades han estat:

    [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild -A myhmms rrm.slx
    [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild -A myhmms fn3.slx
    [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild -A myhms pkinase.slx
    Afegir lŽopció -A a lŽhmmbuild, fa que es crei un model HMM (en aquest cas myhmms), que conté diversos HMM concatenats en ell. Es pot obtenir dŽigual forma un HMM que contingui diversos HMM en ell, tot ajuntant tres HMM construïts en un sol arxiu, amb la comanda cat.
    [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmcalibrate myhmms
    Aquest pas és opcional, però en fer-lo, sŽincrementa la sensibilitat de cerca sobre les diferents bases de dades.Aquest pas triga en correr cert temps, i al finalitzar, genera un arxiu dŽextensió .xxx
    [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmpfam myhmms 7LES_DROME > 7les_drome
    A partir de la base de dades de HMM creada en el pas anterior (myhmms), ara buscarem un model que encaixi amb la seqüència donada (7LES_DROME)
    [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmalign -o globins630.ali globin.hmm globins630.fa
    Crea un aliniament múltiple de seqüències partint dŽun aliniament inicial de seqüències, emprat per a crear el HMM i hi alinia a més, totes les seqüències trobades en les diferents bases de dades de models testades.

    LŽarxiu de sortida resultant: globins630.ali


  3. EXEMPLES DE COMANDAMENTS I CONDICIONS APLICADES EN LŽEXECUCIÓ


    Comparació entre els diferents programes
    PSI-Blast vs. HMM
    SimilitudsDiferències

    Ambdós mètodes són algorismes específics de posició (no independents de posició com BLAST...) i per tant els hi confereix lŽadvantatge de ser més precissos en aquelles regions conservades, que no pas en les no conservades.

    Sempre es comparen contra famílies de proteïnes conegudes.

    Ambdós són mètodes iteratius de cerca: mentre en PSI-Blast es pot determinar el nombre dŽiteracions, a HMM, el nombre dŽiteracions, no cesa fins que ja no pot afegir cap més seqüència sobre lŽaliniament de partida.

    PSI-Blast: Parteix dŽuna seqüència i cerca en bases de dades de seqüències.

    Cerca de proteïnes sobre BLAST i utilitza una PSSM (Position-specific Scoring Matrix) com a resultat, en comptes dŽuna seqüència individual.

    HMM: compara un model donat contra una base de dades de seqüències.


    Comparació entre les diferents bases de dades
    PFAM vs. Swissprot
    SimilitudsDiferències

    Són bases de dades per a la cerca de proteïnes.

    Aporten informació addicional: estructura, dominis, links a dŽaltres bases de dades,...

    PFAM: Base de dades de models HMM.

    Ideal per a la cerca de noves proteïnes dins una mateixa família.

    Swissprot:Base de dades de seqüències.

    La més gran pel que fa al nombre dŽentrades en ella. És la base de dades de referència per a lŽinici de la cerca sobre una proteïna.



  4. RESULTATS OBTINGUTS DE LŽAPLICACIÓ DEL PROGRAMA ALS EXEMPLES COMENTATS I PROBLEMES PROPOSATS A LA PRÀCTICA


    • Fes servir el teu mètode de búsqueda per comparar el resultat de buscar una seqüència problema a la base de dades de PFAM amb HMM o amb PSI-Blast a Swissprot: aplica-ho a tres seqüències del directori desempaquetat de "seq.tar".


    Per tal dŽarribar a unes conclusions comparables amb els resultats de la pràctica 3.1, analitzarem dŽigual forma, les seqüències 3,4 i 7.

    Els passos realitzats per tal dŽobtenir uns resultats a comparar partint dŽun model HMM i així com els arxius de sortida en cada cas, han estat:


    1. [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmbuild nomseq.hmm seqs_nomseqPSIblast.aln*
      seq3.hmmseq4.hmmseq7.hmm

      *Aquest arxiu prové del resultat de lŽaliniament a partir del programa Clustalw, obtingut a partir de la cerca en PSI-Blast (veure apartat anterior).


    2. [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmcalibrate nomseq.hmm
      (pas opcional)


    3. [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmsearch nomseq.hmm /disc9/DB/blast/swissprot > searchnomseq
      searchseq3searchseq4searchseq7


    4. [e14910.bio.acexs.au.upf@au48239 practica_3]$ hmmpfam /disc9/DB/pfam/Pfam nomseq.fa > pfamnomseq
      pfamseq3pfamseq4pfamseq7


      CONCLUSIONS:

      Val a dir que comparant els mètodes de cerca PSI-Blast i hmmsearch o hmmpfam, tot i que aquests últims triguen força més a executar-se, són més precisos.

      En el cas de la seqüència 4, mentre que del PSI-Blast no en resultava cap proteïna homòloga, ara emprant hmmsearch o hmmpfam, hi trobem una família de proteïnes, homòlogues a la seqüència problema, i que en aquest cas si que resulta ser força significativa (E-value de << 10-05 per ambdós casos).

      No sŽha de confondre el fet que el resultat de hmmpfam només et doni un resultat significatiu amb que només existeix una proteïna homòloga: el fet que hmmpfam només et doni un resultat significatiu, vol dir que la família de proteïnes que et mostra, conté diverses proteïnes en ella que mantenen certa homologia amb la teva proteïna problema.

      En canvi en hmmsearch, tŽordena segons lŽE-value les diferents proteïnes més homòlogues a la original.