BAPS: Bayesian Analysis of Population Structure

Captura de Tela 2018-11-11 às 14.47.32

Finalidade

BAPS 6 (Bayesian Analysis of Population Structure) é um programa como o nome mesmo já diz que utiliza a inferência bayesiana para verificar a estruturação genética de populações (alélica – microssatélite e nucleotídica – sequência). O programa trata frequência de alelos dos marcadores e o número de grupos geneticamente divergentes como variáveis randômicas. Apesar disso é possível pré-definir esses agrupamentos. – trecho adaptado de: http://www.helsinki.fi/bsg/software/BAPS/macSnow/BAPS6manual.pdf , página 3.

 

Tutorial rápido para mtDNA – preparando arquivos

Para rodar uma análise básica de genes mitocondriais são necessários quatro arquivos (ver tabela). Antes de iniciar a análise é necessário saber designar os valores de K, onde K seria quantos clusters (grupos) você espera encontrar, esse valor pode variar.

Por exemplo: em uma análise com 20 indivíduos e um gene cytb, podemos utilizar K = 2 2 4 5 7, o valor total nesse caso não pode ser maior que o 20, pois não pode existir mais agrupamentos que o número total de sequências. Quanto mais valores de K, melhor serão as simulações, pois estas serão simuladas várias vezes de acordo com os valores, no exemplo acima serão realizadas cinco simulações, onde a primeira possuiria dois agrupamentos, a segunda dois agrupamentos, a terceira quatro agrupamentos e assim por diante.

  Descrição Observação
Data file Sequência nucleotídica/numérica No final de cada sequência adicionar um número sequencial, ex: ACTCG 1.
Name file Nome da população, espécie, ou amostra Esse nome aparecerá no output final, a informação auxilia.
Index file Número onde começa cada agrupamento (população, espécie, amostra) Caso você não queira separar inicialmente por agrupamento esse arquivo pode constar apenas a posição das sequências, ex: 1, 2, 3, 4, 5, 6.
Linkmap No caso de genes linked, como os genes mitocondriais, deve ser criado um arquivo com o número total de pares de base por coluna Todos esses arquivos eu costumo criar no excel e salvar como .txt. Logo no caso desse arquivo, cada base deve estar presente em uma coluna.

 

Data file: Na figura abaixo seguem dois estilos que podem constar no arquivo, esses estilos NÃO devem ocorrer simultaneamente, eles estão juntos para facilitar a compreensão. Normalmente, eu edito todos os arquivos no excel, nesse caso as sequências devem ficar em uma única célula e o número apenas a ordem das sequências. Para transformar as sequências em números, a conversão em um pouco “chata”, vamos lá: no Excel utilize a função substituir, com o arquivo de sequências aberto você substitui o A por _11, onde _ significa espaço. O valor 11 é simbólico, podendo ser qualquer dezena repetida 11 22 33 44 55 66 77 88 99, cada nucleotídeo deve ser substituído por uma dessas opções. NOTA: caso exista gap ou N, substituir por _-999.

Captura de Tela 2018-11-11 às 14.51.03

Name file: Seguindo o exemplo da informação que possui quatro sequências, o arquivo pode ser feito de várias formas. Se você sabe antecipadamente da existência de populações o arquivo pode conter os nomes das populações, caso contrário pode ser apenas o nome de cada sequência. Ex: dentro das quatro sequências existem 2 populações, ou dentro das quatro sequências existem quatro indivíduos que não se sabe quantas populações se têm. NOTA: Os screenshots estão unindo para finalidades de praticidade, mas na realidade cada opção é um arquivo único e distinto.

Captura de Tela 2018-11-11 às 14.51.49

Index file: Aqui delimitamos os grupos, seguindo o exemplo do name_file a primeira opção será onde começa a primeira população (id1) e a segunda (id3). No segundo exemplo pode-se apenas colocar a contagem das sequências.

Captura de Tela 2018-11-11 às 14.52.17

Linkmap: Aqui você informa quantos pares de base tem o seu gene em questão, essa opção só é feita com genes mitocondriais. Nesse exemplo em questão estaríamos trabalhando com sequências que possuem um total de 10 pares de base, é necessário apenas uma linha com essa informação, pois supõe-se que a matriz é igual, ou seja, todas as sequências possuem o mesmo comprimento.

Captura de Tela 2018-11-11 às 14.53.06

Tutorial rápido – rodando programa

No caso de genes mitocondriais os passos são os seguintes:

  • Em ‘population mixture analysis’ escolher a opção ‘CLUSTERING WITH LINKED LOCI’.
  • Carregar o arquivo de sequência > Nome > Index, aqui o programa pergunta se você deseja salvas os dados que ainda não foram processados (fica ao seu critério).
  • Carregar o arquivo Linkmap, especificar CODON como o modelo de ligação.
  • Indicar o número máximo de população K, experimentar valores diferentes para múltiplas análises consecutivas que serão combinadas no final.
  • Salvar os resultados da análise de mistura, ela será utilizada posteriormente (mix.mat)
  • Em ‘population admixture’ escolher a opção ‘ADMIXTURE BASED ON MIXTURE CLUSTERING’
  • Carregar resultado da análise anterior
  • Indicar ‘tamanho mínimo da população a ser considerada na análise’, esses indivíduos serão removidos em caso de agrupamentos genéticos menores que o número indicado.
  • Informar o número de interações, quanto maior melhor
  • Salva o arquivo (admix.data)
  • FILE > LOAD RESULTS > ADMIXTURE RESULTS
  • GRAPH > VIEW ADMIXTURE RESULTS à ALL CLUSTERS
  • Valores de p são informados nos arquivos .txt, valores de p menores ou iguais a 0.005 são considerados evidência de admixture.

 

Deixe um comentário