Tip:
Highlight text to annotate it
X
Grande quantidade de informação é um conceito elusivo.
Ele representa uma quantidade de informação digital,
que é difícil de armazenar.
transportar
ou analisar.
Grande quantidade de informação é algo tão volumoso
que soterra as tecnologias atuais
e nos desafia a criar a próxima geração
de ferramentas e técnicas para estocagem de dados.
Bem, grande quantidade de informação não é nada novo.
Na verdade, físicos no CERN têm se contorcido
com o desafio de sua grande quantidade de dados que sempre se expande por décadas.
Cinquenta anos atrás, os dados do CERN podiam ser armazenados
em um único computador.
Ok, não era um computador comum,
esse era um 'mainframe'
que enchia um edifício inteiro.
Para analisar os dados,
físícos de todo o mundo viajavam ao CERN
para conectar-se à enorme máquina.
Na década de 1970, nossa grande quantidade de dados
foi distribuída entre diferentes conjuntos de computadores
que cresceram feito cogumelos no CERN.
Cada conjunto foi interligado
a redes internas exclusivas.
Mas os físicos trabalhavam sem levar em consideração
os limites entre os conjuntos,
por isso precisavam acessar dados em todos eles.
Portanto, conectamos as redes independentes
em nossa própria CERNET.
Na década de 1980, ilhas de redes similares,
falando diferentes dialetos,
surgiram por toda a Europa e Estados Unidos,
tornando o acesso remoto possível, mas torturante.
Para tornar mais fácil para nossos físicos do mundo todo
acessar o conjunto de dados que sempre se expande,
armazenado no CERN sem viajar,
as redes precisavam falar
a mesma língua.
Adotamos o padrão de trabalho da incipiente internet dos Estados Unidos,
seguida pelo resto da Europa,
e estabelecemos o 'link' principal, no CERN,
entre Europa e os Estados Unidos em 1989,
e surgiu a verdadeira internet global!
Os físicos podiam acessar facilmente
os terabytes do conjunto de dados
remotamente, pelo mundo todo,
gerar resultados
e escrever estudos em suas instituições locais.
Daí, eles queriam compartilhar suas descobertas
com todos seus colegas.
Para tornar fácil o compartilhamento dessa informação,
criamos a 'web' no início da década de 1990.
Os físicos não precisavam mais saber
onde a informação estava armazenada
para encontrá-la e acessá-la na web,
uma ideia que pegou no mundo todo
e transformou a forma como nos comunicamos
no cotidiano.
No início da década de 2000,
o contínuo crescimento de nosso conjunto de dados
ultrapassou nossa capacidade de analisá-los no CERN,
apesar de termos edifícios cheios de computadores.
Tivemos que começar a distribuir os petabytes de dados
a nossos colaboradores associados,
para que utilizassem computadores e armazenamento locais
em centenas de instituições diferentes.
Para orquestrar esses recursos interconectados
com suas diferentes tecnologias,
desenvolvemos uma rede,
que permite o compartilhamento contínuo
de recursos computacionais no mundo todo.
Isso se assenta em relações de confiança e troca mútua.
Mas essa rede modelo não pode ser transferida
para fora de nossa comunidade tão facilmente,
onde nem todos têm recursos para compartilhar
nem se pode esperar que empresas
tenham o mesmo nível de confiança.
De outro lado, uma alternativa, uma abordagem mais empresarial
para acessar recursos sob demanda,
desenvolveu-se recentemente,
chamada computação na nuvem,
que outras comunidades estão explorando agora
para analisar sua grande quantidade de informação.
Pode parecer paradoxal para um lugar como o CERN,
um laboratório focado no estudo
dos imensamente pequenos blocos construtores da matéria,
ser a fonte de algo tão grande quanto o imenso conjunto de dados.
Mas a forma pela qual estudamos as partículas fundamentais,
assim como as forças com as quais elas interagem,
envolve criá-las transitoriamente,
colidindo prótons em nossos aceleradores
e capturando um indício deles
enquanto aceleram até próximo à velocidade da luz.
Para ver esses indícios,
nosso detector, com 150 milhões de sensores,
atua como uma verdadeira câmera 3-D,
fotografando cada colisão.
Isso é mais que 14 milhões de vezes por segundo.
Isso produz muita informação.
Mas, se há tanto tempo essa grande quantidade de dados está por aí,
por que de repente estamos ouvindo sobre isso agora?
Bem, como explica a velha metáfora,
o todo é maior que a soma de suas partes,
e não é mais apenas a ciência que está explorando isso.
O fato de que podemos obter mais conhecimento
reunindo informações relacionadas
e observando correlações
pode informar e enriquecer numerosos aspectos da vida cotidiana,
seja em tempo real,
como tráfego ou condições financeiras,
seja em evoluções de curto prazo,
como diagnósticos médicos e previsões meteorológicas,
seja em situações previsíveis,
como negócios, crime ou propensão a doenças.
Virtualmente, cada campo está se voltando para o agrupamento de grande quantidade de informação,
com redes de sensores móveis abrangendo o globo,
câmeras na terra e no ar,
arquivos armazenando informações publicadas na web,
e registradores capturando as atividades
de cidadãos da Internet no mundo todo.
O desafio é inventar novas ferramentas e técnicas
que garimpem esses vastos armazéns,
para embasar a tomada de decisão,
melhorar diagnóstico médico
e atender necessidades e desejos
da sociedade de amanhã de maneiras que são inimagináveis hoje.