Big data

O termo “Big Data” pode ser definido como uma quantidade de dados tão grande que não é passível de ser processado por métodos convencionais. O tamanho dos dados a partir dos quais estes podem ser considerados “Big Data” está constantemente a mudar com o contínuo desenvolvimento das tecnologias. A capacidade de processamento e armazenamento dos sistemas de computação melhoram continuamente ao longo do tempo, tornando assim a “Big Data” do passado mais facilmente processável atualmente.

“Propriedades”

“Big Data” é frequentemente caracterizado pelas propriedades dos “5 V’s”, denominados por velocidade, volume, valor, variedade e veracidade, termos estes definidos em baixo, de forma muito breve:

Velocidade. Refere-se à rapidez a que grandes quantidades de dados são produzidos, recolhidos e analisados. A cada segundo, de cada dia, o número de dados contínua a aumentar. Além de terem de ser analisados, a rapidez de transmissão e acesso a estes tem de ser instantânea de forma a permitir o acesso em tempo real.

Valor. Diz respeito à utilidade dos dados. Dados que possuam um elevado valor para        um problema em particular poderão ser completamente inúteis para outro problema, tornando-se assim numa problemática bastante relevante. Possuir vastas quantidades de dados sem que estes possam ser transformados em algo valioso acabam por torná-los inúteis.

Variedade. É definida como os diferentes tipos de dados que podem ser usados. Os dados de hoje em dia são bastante diferentes dos dados do passado. Atualmente, não nos limitamos à ideia da estruturação aperfeiçoada dos dados numa tabela. Os dados do presente não são estruturados. De facto, 80% dos dados de todo o mundo inserem-se nesta categoria. Tecnologia nova e inovadora de “Big Data” permite, atualmente, a recolha e armazenamento de dados estruturados e não estruturados, sendo usados simultaneamente.

Veracidade. Refere-se à qualidade ou fiabilidade dos dados. A recolha massiva de dados não tem qualquer utilidade se a qualidade ou fiabilidade destes não for correta.

“Tipos de dados”

Existem distintos tipos de dados tendo cada um diferentes maneiras de serem processados. Os tipos de dados mais comuns são texto, áudio, imagem e vídeo.

Texto.  O número de documentos digitalizados está a aumentar exponencialmente. A maioria destes documentos não são estruturados. Valores de recurso de grandes conjuntos de dados também podem ser tratados como “Big Data” textual. O tratamento destes dados requer técnicas especializadas pois a maioria das plataformas padrão têm problemas no tratamento destes.

Áudio. O desenvolvimento de tecnologias à base de áudio tem sido considerável. Os sinais de áudio são atualmente recolhidos de forma mais espontânea, sendo a maioria da recolha destes feito de forma não compressiva. Milhões de clipes de áudio são produzidos todos os dias, sendo que no meio de todas as fontes se destaca o discurso, o modo mais espontâneo de comunicação. O tratamento de tal vastidão de dados bem como o processamento destes para diferentes aplicações é um desafio.

Imagem. As próprias imagens digitais mais comuns já possuem grandes quantidades de informação por si sós. A quantidade de informação que se encontra dentro de uma imagem tem vindo a incrementar de forma constante com o crescente desenvolvimento das tecnologias. Presentemente, as imagens provenientes de satélite são extremamente grandes, tanto a nível de tamanho da imagem como da diversidade em termos de informação. O armazenamento e processamento destas imagens é considerado um grande desafio atualmente.

Vídeo. A vídeo-vigilância tem-se tornado alvo de enorme interesse nos dias de hoje. Elevadas quantidades de informação estão atualmente a ser geradas diariamente, através de câmaras de vídeo. É uma tarefa desafiante, não só armazenar estas vastas quantidades de dados como também processá-los em tempo real. É essencial para aplicações díspares tais como a deteção de intrusos, condução automática, etc..