terça-feira, 10 de janeiro de 2012

O tsunami dos dados






Artigo de opinião publicado no diário ‘As Beiras’
em 9 de Janeiro de 2012


Longe vão os tempos nos quais a ciência se fazia com teorias simples e com pequenas experiências, que geravam reduzidos conjuntos de dados para análise. Apesar de ser essa a imagem que a maioria das pessoas ainda tem da ciência – em muito alimentada pelo cinema e por programas televisivos de divulgação e entretenimento – a realidade é bem diferente.

As tecnologias da informação e comunicação (TIC) em muito alteraram este paradigma. Os instrumentos científicos são cada vez mais complexos, podendo atingir um grau de sofisticação semelhante ao de grandes computadores. Estes instrumentos geram enormes quantidades de dados, sendo impraticável que esses dados sejam analisados e tratados manualmente e/ou no momento da experiência.

A título de exemplo, refere-se que o acelerador de partículas LHC (Large Hadron Collider), localizado num túnel de 27 Km construído 175 metros abaixo da superfície na fronteira franco-suíça, perto de Genebra, poderá gerar cerca de 15 petabytes de dados por ano (1 petabyte são cerca de 1126 biliões de bytes). Por outro lado, estima-se que estudos de mapeamento do cérebro humano poderão exigir o tratamento de 1 zettabyte de dados, ou seja, cerca de um milhão de petabytes.

Mesmo quando o volume de dados é muito inferior aos valores acima referidos, o mais comum é que esse volume seja ainda de tal modo alto que exija a separação entre a realização das experiências e a análise dos dados que delas resultam. Significa isto que quando fazem as experiências os cientistas não têm, em muitos casos, uma ideia precisa do conhecimento que poderá vir a ser extraído dos dados e que, também frequentemente, esse conhecimento só poderá ser extraído após meses ou anos de trabalho de análise, recorrendo a supercomputadores.

O enorme volume de dados com o qual a ciência se depara conduziu, por isso, a um novo pilar do processo científico, para além da teorização, da experimentação e da computação: o pilar da mineração de dados, no âmbito do qual os dados são organizados, processados e analisados por forma a que deles se possa extrair conhecimento. É um pilar que exige meios de cálculo intensivos, muitas vezes envolvendo vários computadores ligados em rede.

Mas não é só nas diversas áreas da ciência que as TIC têm levado a uma superabundância de dados. Esta tendência regista-se em todas as áreas da nossa sociedade, com a recolha, processamento e cruzamento de todo o tipo de dados sobre pessoas, serviços e bens. É um fenómeno de tal forma vasto que o maior desafio que agora se coloca à nossa civilização é o de sobreviver à revolução provocada pela intensiva utilização das novas tecnologias, não se deixando ela, por um lado, subjugar pelas TIC nem, por outro, afogar pelo tsunami de dados que elas provocam.

Sem comentários:

Enviar um comentário