Frederic Kaplan - How i built an information time machine

Tradutor: Leonardo Silva Revisor: Leonardo Leidens Esta é uma imagem do planeta Terra. Parece demais com as fotos tiradas da Apollo, que são bastante conhecidas. Há uma novidade: você pode clicar nela e, se você clicar nela, você pode ver de perto quase qualquer lugar da Terra. Por exemplo, esta é uma visão panorâmica do campus da EPFL. Em muitos casos, também é possível ver de perto um prédio de uma rua próxima. É incrível. Mas há algo faltando nesta maravilhosa viagem: o tempo. Não tenho certeza de quando esta foto foi tirada. Nem mesmo de que tenha sido tirada no mesmo instante que a vista panorâmica. Em meu laboratório, desenvolvemos ferramentas para viajar não somente no espaço, mas também no tempo. A dúvida que temos é: seria possível criar algo como um Google Mapas do passado? Posso adicionar uma barra deslizante no Google Mapas e simplesmente mudar o ano, vendo como era 100 anos antes, mil anos antes? Isso seria possível? Posso recuperar redes sociais do passado? É possível criar um Facebook da Idade Média? Então, posso criar maquinas do tempo? Talvez simplesmente digamos: "Não, isso não é possível". Ou, talvez, possamos pensar nisso do ponto de vista da informação. Isso é o que eu chamo de cogumelo de informação. Verticalmente, temos o tempo, e, horizontalmente, a quantidade de informação digital disponível. Obviamente, nos últimos dez anos, temos muita informação. E, é claro, quanto mais no passado, menos informação temos. Se quisermos criar um Google Mapas do passado, ou um Facebook do passado, precisamos ampliar esse espaço, precisamos transformá-lo em um retângulo. Como fazemos isso? A digitalização é uma maneira. Existe muito material disponível: jornais, milhares de livros impressos. Posso digitalizá-los todos. Posso extrair informações deles. É claro que, quanto mais no passado, menos informações teremos. Então, talvez isso não seja suficiente. Aí, posso fazer o que os historiadores fazem. Posso pensar de forma mais ampla. É o que chamamos, em ciência da computação, de simulação. Se eu pegar um diário de bordo, posso considerá-lo não apenas como um diário de bordo de um capitão veneziano, saindo em uma jornada em particular. Posso considerar que seja, de fato, um diário de bordo que representa muitas viagens daquele período. Estou pensando de forma mais ampla. Se tenho uma pintura de uma fachada, posso considerar que não seja apenas de um prédio em particular, mas que, provavelmente, também compartilhe da mesma gramática de prédios dos quais não tenhamos informação. Então, se quisermos criar uma máquina do tempo, precisamos de duas coisas. Precisamos de arquivos bem grandes e de especialistas excelentes. A Máquina do Tempo de Veneza, o projeto sobre o qual vou falar, é um projeto conjunto entre a EPFL e a Universidade Ca'Foscari de Veneza. Veneza tem algo bem peculiar: sua administração tem sido bem, bem burocrática. Eles têm informações sobre tudo, quase que como a Google de hoje. No Archivio di Stato, existem 80 km de arquivos que documentam cada aspecto da vida de Veneza, num período de mais de mil anos. Você tem cada navio que parte, cada navio que chega. Você tem cada mudança que foi feita na cidade. Está tudo lá. Estamos instalando um programa de digitalização de dez anos, que tem por objetivo transformar esse imenso arquivo em um sistema gigante de informação. Nosso objetivo é chegar a 450 livros sendo digitalizados por dia. É claro, ao digitalizar, isso não é suficiente, porque a maioria desses documentos está escrita em latim, em toscano, em dialeto veneziano. Então, é necessário transcrevê-los, em alguns casos traduzi-los, indexá-los, e é claro que isso não é fácil. Em particular, o método tradicional de reconhecimento óptico de caracteres, que pode ser usado para documentos impressos, não funciona bem para documentos manuscritos. Então, a solução é, na verdade, pegar inspiração de outra área: o reconhecimento de fala. Este é um campo que parece impossível, mas que, na verdade, pode ser feito simplesmente adicionando limites, se você tiver um modelo muito bom de uma linguagem que seja usada, se tiver um modelo muito bom de documento, a forma como são estruturados. E esses são documentos administrativos. São bem estruturados em muitos casos. Se você dividir esse enorme arquivo em subgrupos, que, na verdade, compartilhem das mesmas características, então, existe uma chance de dar certo. Se chegarmos a esse estágio, então, há outra coisa: podemos extrair eventos desse documento. Na verdade, provavelmente 10 bilhões de eventos podem ser extraídos desse arquivo. E esse sistema de informação gigante pode ser pesquisado de várias formas. Você pode perguntar coisas como: "Quem vivia nesse palácio em 1323?" "Quanto custava uma brema no mercado Realto em 1434?" "Quanto ganhava um vidraceiro em Murano, talvez, durante uma década?" Você pode até fazer perguntas maiores porque tudo estará semanticamente codificado. Então, você pode transformar isso em espaço, porque muito dessa informação é espacial. E, a partir disso, você pode, por exemplo, reconstruir uma jornada extraordinária dessa cidade que conseguiu se desenvolver de forma sustentável, ao longo de mil anos, conseguindo ter sempre uma certa harmonia com o ambiente. Você pode reconstruir essa jornada e visualizá-la de diferentes maneiras. Mas, é claro, não é possível entender Veneza se apenas observar a cidade. É preciso colocar isso em um contexto europeu maior. Então, a ideia é também documentar tudo que funcionava em termos de Europa. Podemos reconstruir também a jornada do império marítimo veneziano, como, progressivamente, controlou o Mar Adriático, como se tornou o império medieval mais poderoso de sua época, controlando a maior parte das rotas marítimas do leste ao sul. Mas você pode até fazer outras coisas, porque, nessas rotas marítimas, existem padrões regulares. Você pode dar um passo além e, na verdade, criar um sistema de simulação, criar um simulador mediterrâneo que seja capaz de reconstruir até informações que não tenhamos, o que possibilitaria que houvesse perguntas que você pudesse fazer, como se estivesse usando um planejador de rotas. "Se eu estiver em Corfu, em junho de 1323, e quiser ir a Constantinopla, onde posso pegar um navio?" É provável que possamos responder essa pergunta com um, dois ou três dias de precisão. "Quanto vai custar?" "Quais são as chances de encontrarmos piratas?" É claro, vocês entendem, o principal desafio científico de um projeto como este é qualificar, quantificar e representar a incerteza e a inconsistência a cada passo desse processo. Há muitos erros. Erros no documento, o nome errado do capitão. Alguns dos barcos, na verdade, nunca viram o mar. Há erros de tradução, interpretações tendenciosas, e, além disso, se adicionar processos algorítmicos, você vai ter erros de reconhecimento, erros de extração. Então, você tem dados bem incertos. Então, como podemos detectar e corrigir essas inconsistências? Como podemos representar essa forma de incerteza? É difícil. Uma coisa que você pode fazer é documentar cada passo do processo, não apenas codificando a informação histórica, mas aquilo que chamamos de informação meta-histórica, como o conhecimento histórico é construído, documentando cada passo. Isso não vai garantir que, de fato, vamos convergir para uma única história de Veneza, mas talvez possamos reconstruir uma história em potencial de Veneza, inteiramente documentada. Talvez não haja nenhum mapa sequer. Talvez haja diversos mapas. O sistema deve permitir isso, porque temos de lidar com uma nova forma de incerteza, que é realmente nova para esse tipo de bancos de dados gigantes. E como devemos comunicar essa nova pesquisa a um grande público? Novamente, Veneza é extraordinária por isso. Com os milhões de visitantes que vêm todos os anos, é um dos melhores lugares para se tentar criar o museu do futuro. Imagine que, horizontalmente, você veja o mapa reconstruído de um determinado ano, e, verticalmente, você veja o documento que serviu de base para a reconstrução. Pinturas, por exemplo. Imagine um sistema imersivo que nos permita mergulhar e reconstruir a Veneza de um determinado ano, experiências que você possa compartilhar com um grupo. Ao contrário, imagine, na verdade, que você comece a partir de um documento, um manuscrito veneziano, e você mostre o que pode criar a partir dele, como ele é decodificado, e como o contexto desse documento pode ser recriado. Esta é uma imagem de uma exposição que está sendo conduzida em Genebra, com esse tipo de sistema. Então, para concluir, podemos dizer que a pesquisa na área de humanas está prestes a passar por uma evolução que, talvez, seja similar ao que aconteceu com as ciências da vida, trinta anos atrás. É realmente uma questão de escala. Vemos projetos que estão muito além do que qualquer equipe de pesquisa pode fazer, e isso é muito novo para a área de humanas, que, com frequência, tem o hábito de trabalhar em grupos pequenos ou com apenas dois pesquisadores. Ao visitar o Archivio di Stato, você percebe que isso está além do qualquer equipe possa realizar, e que esse deve ser um esforço comum e em conjunto. Então, o que precisamos fazer para essa mudança de paradigma é, na verdade, promover uma nova geração de "humanistas digitais" que vão estar prontos para essa mudança. Muito obrigado. (Aplausos)