Pré-Processamento

O pré-processamento de dados é uma técnica de pesquisa de dados que envolve a transformação de dados brutos num formato compreensível. Os dados do mundo real são muitas vezes incompletos, inconsistentes, e/ou apresentam falhas em certos comportamentos ou modas, sendo provável que contenham muitos erros. O pré-processamento  de dados é um método comprovado na resolução de tais problemas. O pré-processamento de dados prepara dados brutos para posterior processamento. As técnicas de pré-processamento são distintas para diferentes tipos de dados bem como problemas.

Identificação da ROI (Região de Interesse)

Uma região de interesse (frequentemente abreviada como ROI), consiste em amostras dentro de um conjunto de dados identificado para determinado fim. O conceito de ROI é geralmente usado em diversas áreas de aplicação. Por exemplo, em imagens médicas, os limites de um tumor podem ser definidos numa imagem ou num volume, com o propósito de medir o seu tamanho. A fronteira endocárdica pode ser definida numa imagem, talvez durante diferentes fases do ciclo cardíaco, por exemplo, final da sístole e final da diástole, a fim de avaliar a função cardíaca. Em sistemas de informação geográficas (SIG), uma região de interesse pode ser definida literalmente como uma seleção poligonal num mapa 2D. Em visão computacional e reconhecimento ótico de caracteres, a ROI limita as fronteiras do objeto em questão. Em muitas aplicações, rótulos simbólicos (textual) são anexadas a um ROI, de forma a descrever o seu conteúdo de forma resumida. Dentro de uma ROI podem residir pontos de interesse individual (POIs). ROIs têm um papel muito importante no processamento de dados agronómicos.

Downsampling

Downsampling está relacionado com a tarefa de re-amostragem de uma sequência de dados a uma velocidade menor. Isto leva a um novo conjunto de um menor número de entidades tendo como resultado, menor tamanho. No entanto, fazer o downsampling de uma sequência de dados também leva à perda de informação importante. Assim, é necessário ponderar a relação tamanho dos dados e a perda de informação.

Aproximação

A aproximação de dados pode ser uma forma de tratamento de Big Data. Pode ajudar na redução do volume de “Big Data” preservando ao mesmo tempo as modas dos valores que são necessários para a análise de um problema particular. As técnicas para aproximação dos dados principais são diferentes para diferentes problemas.

Limpeza

A limpeza ou depuração de dados consiste no processo de deteção e correção (ou remoção) de registos incorretos ou corrompidos de um conjunto de registos, tabela, ou base de dados conseguindo identificar partes incompletas, incorretas, imprecisas ou irrelevantes dos dados substituindo, modificando ou eliminando dados “sujos” ou grosseiros. A limpeza de dados pode ser feita interactivamente ou com processamento de dados em lote através de scripting.