Análises de Bioinformática

# *Montagem e anotação estrutural de genomas

A montagem de novo (pela primeira vez) de genomas é uma área em constante avanço. Os montadores são criados direcionados para determinados tipos de tecnologia de sequenciamento, mas vários estão sendo melhorados para permitir a utilização de diferentes tipos de sequências (ex.: Allpaths-LG => Illumina + PacBio - software.broadinstitute.org/allpaths-lg/blog). A escolha da tecnologia de sequenciamento deve incluir a avaliação dos softwares de montagem disponíveis.

Para encontrarmos regiões funcionais dentro do genoma, é necessário realizar a anotação estrutural do mesmo. No LBB, utilizamos o programa maker2 (www.yandell-lab.org/software/maker.html) para fazer a predição de modelos gênicos, tRNA e regiões repetitivas. Para visualização destas anotações, utilizamos a interface do JBrowse (http://jbrowse.org/).

# Comparação de genomas e transcriptomas

Para entender melhor evolução e relação filogenética entre diferentes organismos, utilizamos ferramentas e métodos de “Genômica comparativa”. A partir da similaridade de sequencias (identidade, variações, posição, motivos etc), podemos chegar a conclusões sobre similaridade de estrutura, de função e ancestralidade comum. Análises comparativas de genomas podem ser feitas em diferentes níveis de abordagem, oferecendo múltiplas perspectivas acerca dos organismos estudados:

- Comparação da estrutura genômica, incluindo a descrição de parâmetros estruturais do DNA, a análise de repetições e de regiões de baixa complexidade em geral, a identificação de rearranjos tanto ao nível do DNA quanto ao nível dos genes, a identificação de sintenia e a análise de regiões limítrofes entre regiões sintênicas vizinhas (breakpoints);

- Comparação das regiões codificantes, abrangendo a identificação destas regiões, a comparação dos conteúdos gênico e proteico, a identificação de regiões conservadas entre os genomas, a análise da conservação de grupos de sequências e de genes ortólogos, da conservação de famílias de genes parálogos e da conservação da localização dos genes entre as diferentes espécies estudadas e a análise da ocorrência de eventos de fusão e/ou ligação funcional entre genes;

- Comparação de regiões não codificantes, envolvendo a identificação de elementos regulatórios.

# Análise de repetições e Elementos transponíveis

O conteúdo repetitivo nos genomas varia com a espécie, sendo especialmente alto em muitas plantas. Identificar e mascarar estas regiões é uma etapa muito importante do processo de montagem de um genoma. Repetições em tandem são outro exemplo de utilização, já os microsatélites utilizados como marcadores moleculares são baseados no número destas repetições.

Dentre o conteúdo repetitivo são encontrados os Elementos Transponíveis, segmentos de DNA que se movimentam no DNA, podendo gerar cópias de fragmentos do mesmo, e sendo considerados os grandes responsáveis pelo aumento do tamanho dos genomas. Podem ser classificados como Classe I (Retrotransposons) e Classe II (Transposons de DNA).

A análise destas regiões envolve diferentes ferramentas, incluindo algumas etapas com grande demanda de memória e processamento, o que motivou o desenvolvimento de um pipeline para facilitar esta análise (em fase final de testes).

# Filogenia Molecular

A filogenética é a Ciência Biológica que busca identificar e compreender as relações evolutivas entre diferentes organismos. Inicialmente, os critérios utilizados para a reconstrução filogenética baseavam-se em dados puramente morfológicos. Com o acesso recente à estrutura e sequencia de macromoléculas (DNA, RNA e proteínas), as análises filogenéticas utilizando dados de sequencias passaram a ser o padrão.

# Análise de variantes e marcadores moleculares

Para analisar as variações no genoma de um organismo (como SNPs e INDELs), o primeiro passo normalmente é mapear as sequências contra o genoma de referência, e depois as variações são identificadas e caracterizadas. No LBB utilizamos um pipeline composto por dois softwares que realizam o alinhamento (BWA e BOWTIE) e três softwares que vão identificar as variações (SAMTools, Freebayes e GATK).

Os marcadores moleculares são marcadores genéticos que exploram a variabilidade do DNA. São caracterizados pela detecção de variações naturais nas sequências entre indivíduos. Atualmente, existe uma grande variedade de marcadores moleculares disponíveis para diferentes espécies vegetais, sendo os tipos mais utilizados: i) INDELs: inserção ou deleção de nucleotídeos; ii) PAVs: Variantes de Presença ou Ausência (PAVs), ou fragmentos que estão ou não estão presentes em determinado genótipo; iii) SNPs: Polimorfismo de base única; e iv) SSRs: Sequências simples repetidas, ou Microsatélites.

# Descoberta e caracterização de genes, promotores e reguladores

Identificar genes, promotores e reguladores de expressão relacionados a características de interesse, por ex., agronômico ou de saúde humana, é um dos objetivos mais comuns em projetos de pesquisa envolvendo as "ômicas". Para analisar a grande quantidade de material biológico presente nas bases de dados públicas e geradas pelos projetos de pesquisa, diversas estratégias são adotadas, tais como o sequenciamento do genoma (e sua anotação estrutural e funcional) e as análises de expressão de diferentes fontes (RNAseq, miRNA, chips).

# Mapeamento

O sequenciamento em larga escala, especiamente oriundo de equipamentos Illumina, gera milhões de sequencias curtas (aproximadamente 35-150pb). Para se definir o local no genoma onde essas sequencias foram geradas, novas abordagens para alinhamento de sequencias foram desenvolvidas, de forma a "mapear" de maneira rápida e consumindo pouca memória devido a forma como estes programas indexam os dados. Esta abordagem é bastante utilizada para análises de busca de variantes (snp call) e anáilise de transcritomas, como em expressão diferencial. O bowtie (http://bowtie-bio.sourceforge.net/bowtie2/index.shtml), o bwa (http://bio-bwa.sourceforge.net/) e o novoalign (http://www.novocraft.com/products/novoalign/) são exemplos de alguns programas muito utililizados para este fim.

# Expressão diferencial

O objetivo é definir quais genes estão sendo significantemente mais ou menos expressos na célula em determinada condição ou tecido, por exemplo. Nesta análise, o número de reads mapeados para cada biblioteca é linearmente correlacionado com a sua abundância dentro da célula. Assim, o sequenciamento de RNA (RNA-Seq) oferece uma aproximação quantitativa da abundância dos transcritos na forma de counts (contagens).

Estas contagens precisam ser normalizadas para a remoção de problemas técnicos decorrentes do processo de sequenciamento, particularmente aquelas referentes a diferença no tamanho dos transcritos e a profundidade do sequenciamento de diferentes bibliotecas ou de amostras. Existem vários métodos para normalização da expressão nas bibliotecas de cDNA, dependendo do tipo de dado a ser analisado, não existindo ainda consenso na comunidade científica. Um pipeline bastante utilizado é o "Tuxedo pipeline", composto pelos programas TopHat -> Cufflinks -> Cuffmerge -> Cuffdiff (https://ccb.jhu.edu/software/tophat/index.shtml).

# Anotação funcional

Para inferir função à cada modelo gênico gerado, é preciso fazer a anotação funcional destas regiões. Para isso utilizamos o programa interproscan (https://www.ebi.ac.uk/interpro/). Este programa utiliza diversas ferramentas para predição de domínios funcionais: Gene3D, CDD, HAMAP, PANTHER, Pfam, PIRSF, PRINTS, ProDom, PROSITE, SMART, SUPERFAMILY, TIGRFAMs, SignalP e TMHMM. Com o resultado do interproscan, fazemos uma integração dos dados de anotação estrutural com funcional, de forma a podermos visualizar os dados combinados no Jbrowse.

* Os tipos de análise que estão sendo realizadas dependem das demandas dos projetos e da formação da equipe atual, e podem variar com o tempo.