Princípios gerais dos métodos de distância

   Duas seqüências macromoleculares podem apresentar um valor de identidade entre seus monômeros que varia entre 0 (nenhum dos monômeros é idêntico para cada uma das posições) até 1 (ou 100%), onde as seqüências são completamente idênticas. Distâncias são valores que podem ser interpretados como medidas geométricas entre pontos que são calculadas a partir da comparação entre as seqüências.

1. Matriz de distâncias

Para um conjunto com N seqüências são possíveis N*(N-1)/2 distâncias que podem ser representadas por uma matriz triangular onde  a diagonal conteria apenas valores 1 (quando uma seqüência é comparada com ela mesma):
 
 
1
2
3
4
...
N-1
N
1
 
d(1,2)
d(1,3)
d(1,4)
...
d(1,N-1)
d(1,N)
2
   
d(2,3)
d(2,4)
...
d(2,N-1)
d(2,N)
3
     
d(3,4)
...
d(3,N-1)
d(3,N)
4
       
...
d(4,N-1)
d(4,N)
...
         
...
...
N-1
           
d(N-1,N)
N
             

2. Árvores construídas a partir da matrix de distâncias.

    Arvores são representações de dimensão fracionária nas quais cada um dos pontos que representam as seqüências são ligados a cada um dos outros pontos por um único caminho.  Uma árvore representará a matriz de distâncias se a soma dos trechos dos caminhos percorridos entre dois pontos for a distância entre esses pontos de acordo com a matriz.
Por exemplo, considere a seguinte matriz com distâncias arbitrárias entre os pontos A, B, C, D e E:
 
 
A
B
C
D
E
A
 
82
192
192
192
B
   
192
192
192
C
     
58
94
D
       
94
E
         

Abaixo está um diagrama onde todas as distâncias entre os pontos estão representadas:

distâncias em um espaço

Observação:   O diagrama acima, com linhas retas, tem existência em espaços de N-1 dimensões, onde N é o número de pontos. No caso acima ele deve ser interpretado como tetradimensional.
   Para as distâncias acima existe uma única solução de representação de árvore onde as distâncias acima estão contempladas:

    Na  árvore acima existe um ponto (R) que tem a propriedade de ter uma distância igual para todos os pontos termninais da árvore. Quando existe tal ponto, as distâncias são ditas "ultramétricas".
    Para se chegar na árvore, é empregado um algoritmo (conjunto de procedimentos automatizados) que é representado através de uma alegoria aqui.
    Considere agora a seguinte matriz de distâncias:
 
 
A
B
C
D
E
A
 
125
163
189
239
B
   
86
184
234
C
     
222
272
D
       
122
E
         

    Mais uma vez existe uma única solução pra uma árvore que contempla as distâncias acima:

    Não há, na árvore acima, nenhum ponto que seja equidistante dos pontos terminais. No entanto, as distâncias estão perfeitamente contempladas. Nesse caso as distâncias não são ultramétricas, mas apenas aditivas. Todas as distâncias ultramétricas são aditivas também, mas o inverso não pode ser afirmado. A obtenção da árvore pode ser imaginada através da seguinte alegoria.

3. Algoritmos de construção de árvores a partir de distâncias.

    O primeiro algoritmo desenvolvido para a  construção de árvores a partir da matrizes de distâncias foi o UPGMA. ("Unweighted  pair group method using arithmetic averages", Sneath e Sokal, 1973). Com esse algoritmo é possível apenas a reconstrução de árvores com distâncias ultramétricas. Mesmo que essa propriedade  não seja verificada na matriz, a árvore resultante  sempre apresenta um ponto equidistante dos terminais. Devido a essa limitação  o emprego desse algoritmo tem sido criticado.

       Existem outors algoritmos que não exigem a necessidade de ultrametricidade, tais como o  de Farris (1970), de "Neighbor joining" (Saitou e Nei, 1987), etc. Para revisões, consultar Nei (1987), Swofford et al. (1996) e Russo et al. (2000). De modo geral, os métodos lidam de modo diferente com os erros, que consistem na falta da propriedade de aditividade dos dodos de distâncias.

4. Modelos de substituição de nucleotídeos e distâncias.

    Em primeiro lugar, é preciso se levar em conta que, a partir da comparação de seqüências atuais, não é possível se saber todas as substituições realmente ocorridas durante a evolução das seqüências pelo fato de que em uma única posição pode ter havido mais que uma substituição. Veja a seguinte animação.

    Para se lidar com esse problema, é necessário que as distâncias sejam corrigidas, de acordo com algum modelo. O mais simples foi desenvolvido por Jukes e Cantor (1969) de acordo com a premissa que as substituições entre os nucleotídeos ocorram com igual taxa:

    Graficamente, teremos  a seguinte relação entre a proporção de nucleotídeos diferentes e a distância corrigida:

    Existem outros modelos, mais realistas, que levam em conta o fato de que existe uma fração dos nucleotídeos que nunca são substituídos, de que as transições (substituições entre pirimidinas  ou entre purinas) são mais freqüentes que as transições (substituições de purina para pirimidina ou vice versa), de que as taxas de substituições entre os sítios são heterogêneas, de que as proporçoes entre as bases são diferentes, etc. O princípio continua o mesmo, ou seja, verificamos nas seqüências atuais um número menor de substituições do que realmente ocorreu na evolução. Com os modelos pretendemos saber qual é o valor de distância mais adequado para a reconstrução da árvore.

5. Causas de taxas diferentes em linhagens.

    Obviamente, o tempo decorrido entre o ancestral de todos os organismos e esses é exatamente a mesma, conforme representado aqui. Entretanto vários conjuntos de dados mostram que existem taxas de evolução molecular diferentes para linhagens de organismos diferentes. Uma das explicações para essas observaçãoes é de que organismos com tempos de geração diferentes teriam taxas de evolução molecular diferentes. Nesse caso, espécies com tempo de geração curto teriam um maior número de gerações para um determinado intervalo de tempo absoluto do que espécies de tempo de geração maior. Existe uma grande dsicussão sobre esse tema que envolve os seguintes aspectos:
a) Se duas espécies contemporâneas apresentam tempos de geração diferentes, a espécie ancestral das mesmas tinha um único tempo de geração e não é possível, na maioreia das situações, se determinar o período em que houva a diferenciação quanto a esse aspecto.
b) Mesmo quando há diferença nos tempos de geração, pode ser que no nível das gerações celulares de células germinativas é o mesmo, o que causaria diferenças nas taxas de mutação.

    Além da questão relativa aos tempos de geração diferentes, existe a questão demográfica. Espécies que apresentam grandes flutuações populacionais estão sujeitas a apresentar aumento de variabilidade genética quando a população cresce em número (conforme visto no modelo desenvolvido por Kimura e Ohta, em 1974, aqui representado). Em populações que diminuem de tamanho, é verificado o efeito contrário, ou seja, diminuição de variabilidade genética. Espécies que aumentam e diminuem de tamanho constantemente são encontradas entre as espécies colonizadoras, reconhecidamente oportunistas. Para tornar o problema ainda mais complexo, as espécies colonizadoras tendem a ter tempos de geração mais curtas que as suas espécies próximas não colonizadoras!

Página principal