Big Data - Tim Smith

Grande quantidade de informação é um conceito elusivo. Ele representa uma quantidade de informação digital, que é difícil de armazenar. transportar ou analisar. Grande quantidade de informação é algo tão volumoso que soterra as tecnologias atuais e nos desafia a criar a próxima geração de ferramentas e técnicas para estocagem de dados. Bem, grande quantidade de informação não é nada novo. Na verdade, físicos no CERN têm se contorcido com o desafio de sua grande quantidade de dados que sempre se expande por décadas. Cinquenta anos atrás, os dados do CERN podiam ser armazenados em um único computador. Ok, não era um computador comum, esse era um 'mainframe' que enchia um edifício inteiro. Para analisar os dados, físícos de todo o mundo viajavam ao CERN para conectar-se à enorme máquina. Na década de 1970, nossa grande quantidade de dados foi distribuída entre diferentes conjuntos de computadores que cresceram feito cogumelos no CERN. Cada conjunto foi interligado a redes internas exclusivas. Mas os físicos trabalhavam sem levar em consideração os limites entre os conjuntos, por isso precisavam acessar dados em todos eles. Portanto, conectamos as redes independentes em nossa própria CERNET. Na década de 1980, ilhas de redes similares, falando diferentes dialetos, surgiram por toda a Europa e Estados Unidos, tornando o acesso remoto possível, mas torturante. Para tornar mais fácil para nossos físicos do mundo todo acessar o conjunto de dados que sempre se expande, armazenado no CERN sem viajar, as redes precisavam falar a mesma língua. Adotamos o padrão de trabalho da incipiente internet dos Estados Unidos, seguida pelo resto da Europa, e estabelecemos o 'link' principal, no CERN, entre Europa e os Estados Unidos em 1989, e surgiu a verdadeira internet global! Os físicos podiam acessar facilmente os terabytes do conjunto de dados remotamente, pelo mundo todo, gerar resultados e escrever estudos em suas instituições locais. Daí, eles queriam compartilhar suas descobertas com todos seus colegas. Para tornar fácil o compartilhamento dessa informação, criamos a 'web' no início da década de 1990. Os físicos não precisavam mais saber onde a informação estava armazenada para encontrá-la e acessá-la na web, uma ideia que pegou no mundo todo e transformou a forma como nos comunicamos no cotidiano. No início da década de 2000, o contínuo crescimento de nosso conjunto de dados ultrapassou nossa capacidade de analisá-los no CERN, apesar de termos edifícios cheios de computadores. Tivemos que começar a distribuir os petabytes de dados a nossos colaboradores associados, para que utilizassem computadores e armazenamento locais em centenas de instituições diferentes. Para orquestrar esses recursos interconectados com suas diferentes tecnologias, desenvolvemos uma rede, que permite o compartilhamento contínuo de recursos computacionais no mundo todo. Isso se assenta em relações de confiança e troca mútua. Mas essa rede modelo não pode ser transferida para fora de nossa comunidade tão facilmente, onde nem todos têm recursos para compartilhar nem se pode esperar que empresas tenham o mesmo nível de confiança. De outro lado, uma alternativa, uma abordagem mais empresarial para acessar recursos sob demanda, desenvolveu-se recentemente, chamada computação na nuvem, que outras comunidades estão explorando agora para analisar sua grande quantidade de informação. Pode parecer paradoxal para um lugar como o CERN, um laboratório focado no estudo dos imensamente pequenos blocos construtores da matéria, ser a fonte de algo tão grande quanto o imenso conjunto de dados. Mas a forma pela qual estudamos as partículas fundamentais, assim como as forças com as quais elas interagem, envolve criá-las transitoriamente, colidindo prótons em nossos aceleradores e capturando um indício deles enquanto aceleram até próximo à velocidade da luz. Para ver esses indícios, nosso detector, com 150 milhões de sensores, atua como uma verdadeira câmera 3-D, fotografando cada colisão. Isso é mais que 14 milhões de vezes por segundo. Isso produz muita informação. Mas, se há tanto tempo essa grande quantidade de dados está por aí, por que de repente estamos ouvindo sobre isso agora? Bem, como explica a velha metáfora, o todo é maior que a soma de suas partes, e não é mais apenas a ciência que está explorando isso. O fato de que podemos obter mais conhecimento reunindo informações relacionadas e observando correlações pode informar e enriquecer numerosos aspectos da vida cotidiana, seja em tempo real, como tráfego ou condições financeiras, seja em evoluções de curto prazo, como diagnósticos médicos e previsões meteorológicas, seja em situações previsíveis, como negócios, crime ou propensão a doenças. Virtualmente, cada campo está se voltando para o agrupamento de grande quantidade de informação, com redes de sensores móveis abrangendo o globo, câmeras na terra e no ar, arquivos armazenando informações publicadas na web, e registradores capturando as atividades de cidadãos da Internet no mundo todo. O desafio é inventar novas ferramentas e técnicas que garimpem esses vastos armazéns, para embasar a tomada de decisão, melhorar diagnóstico médico e atender necessidades e desejos da sociedade de amanhã de maneiras que são inimagináveis hoje.