TEDxESPM - Claudio Pinhanez - Pesquisa IBM

Bem, boa tarde. Eu gostaria de em primeiro lugar agradecer o pessoal da organização que me colocou logo depois de Pedro Bial, Rafinha Bastos e Papai Noel. Não é uma tarefa fácil de seguir... ah... como o... Pra cá?... prá lá... tá difícil aqui... ah pronto... Como o Paulo Markun falou, eu sou da IBM Research, eu sou cientista, sou pesquisador e o meu interesse é entender esses sistemas complexos que pessoas, máquinas, processos, empresas criam e como a gente pode melhorar esses sistemas. E hoje o que eu quero conversar com vocês é falar sobre um assunto que a gente tá convers... falando muito, mas de como isso pode ajudar a gente a melhorar o mundo e esse assunto é rastros digitais. Rastros digitais são, são esse enorme... essa enorme coleção de informações que a gente deixa, através de e-mail, através de blogs, artigos, das nossas, são todos esses registros que a gente tá cada vez mais deixando numa forma digital. E como exemplo vou pegar um e-mail de, um e-mail que eu recebi recentemente de alguém que acho que todos vocês conhecem, uma tal de Marcia Golfieri, o e-mail só diz “Obrigada Claudio!”, mas aí tem um... uma assinatura ali que diz quem é ela, com quem ela trabalha, o endereço, ah... fala que ela, ela tá ligada com... ah... meio ambiente , fala que ela é uma fã dos Beatles. Porque olha só, quem que botaria essa frase no final, que é a última frase, da última música, do último disco lançado pelos Beatles? E além de tudo é AP. Ela diz que é ela mesma, extended authentication protocol. Mas, repara, eu falei tudo isso sobre ela assumindo certas expectativas. Pode ser que ela não seja fã dos Beatles, mas que ela viu aquela frase lá num para choque de um caminhão na Malásia. Pode ser que essa não seja a Marcia Golfieri que a gente conhece, mas alguma outra. Então o ponto essencial é que pra fazer sentido desses enormes, dessas enormes coleções de rastros digitais, nós temos que aplicar modelos que vão ser necessariamente probabilísticos. E nos últimos anos, em termos de pesquisa essa área tem avançado muito e tem conseguido resultados surpreendentes. Principalmente com pequenos fiapos de conhecimento, conseguir tirar informações bem interessantes. Deixa eu mostrar dois exemplos: Esse é um exemplo de um trabalho que o meu laboratório, não o do Brasil, mas o de Israel fez, examinando só os logs de telefone de uma empresa e vendo quem chama quem. E aí eles encontraram gráficos dessa forma. E encontraram essas pessoas, que eles chamam de conectores e sabe o que eles descobriram? Que quando essas pessoas deixam uma empresa telefônica para ir pra outra, elas levam um monte de gente junto com ela, só olhando esse gráfico. Acha esses pontos de conexão e você sabe que esses são os consumidores que você não quer perder. Porque esses vão arrastar mais gente com eles. Um outro exemplo que é lá do Media Label, onde eu estudei. Eles fizeram um experimento muito interessante: eles instalaram no celular de 100 alunos um sistema que rastreava onde eles estavam. Olhava a configuração dos provedores de internet sem fio e tentava decidir só se eles estavam em casa, no trabalho, em algum outro lugar ou se não tinham sinal. Seguiram essas 100 pessoas por um mês. Aí usaram uma técnica que chama “Principal Component Analysis” é um jeito de analisar volumes gigantes de dados e eles conseguiram criar modelos, pra esses usuários, de forma que se eu receber os dados das 12 horas, primeiras horas do dia, o modelo é capaz de prever onde essa pessoa vai tá nas 12 horas seguintes com quase 80% de certeza. Só sabendo se você tá em casa, no trabalho, em outro lugar. E outra coisa, eram três grupos diferentes de pessoas e eles mostraram que só olhando esses padrões você conseguia identificar a qual desses grupos eles pertenciam com 96% de certeza. Então não precisa muito pra começar a fazer alguma coisa, a conseguir dados. E mas o que eu... primeira coisa que eu acho importante, que a gente tem que saber sobre esse tipo de tecnologia, é que elas não conseguem ainda, provavelmente nunca conseguirão, informações a nível de indivíduo. O que elas conseguem é pegar populações grandes e encontrar grupos e falar de pequenos grupos dentro dele. E a razão disso é porque o indivíduo é muito variável. Mas quando a gente está num grupo e num grupo de semelhantes, a gente tem comportamentos muito parecidos e as variações absurdas que a gente tem de comportamento são canceladas pelas, pelos não absurdos de outras pessoas, vamos dizer assim. Tá, então a primeira coisa é dizer não é... a gente não vai encontrar problemas a nível de..., mas como grupo a gente pode encontrar. Como pequenos grupos até. Mas o ponto é... nós estamos ainda muito no início desse tipo de trabalho e vai demorar muito tempo pra que a gente crie modelos complexos. Isso aqui é uma visualização de dados criada pelo, por um, por esse designer Green Weber, mas a gente tá muito no início e parte do problema que a gente tá no início é que a gente não tem os dados. Então, se eu olhar os dados que explicam as pessoas hoje, tão espalhadas por uma enorme coleção de empresas, então a Google sabe o que você tá procurando, o Twitter sabe pra quem você quer mandar ideias, a Skype sabe pra quem, com quem você fala, a Amazon sabe que livros você lê. Ah... a Visa sabe o que você compra, e assim por diante. Agora, o valor de agregar, de ter todas essas informações juntas e de ser capaz de minerar essas informações é tremendo e você vê que várias dessas companhias estão realmente numa batalha de vida e morte pra abocanhar cada vez mais gente das outras companhias. E por quê? Porque aí os dados começam a ficar melhores, mais interessantes e você é capaz de fazer mais coisas com eles. Nesse ponto você vai dizer: “Poxa, isso não é perigoso? Não é perigoso pra mim, como indivíduo? Pra nós, como grupo”? E eu recomendo fortemente, tem um artigo que a Danah Boyd acabou de lançar, Danah Boyd é uma das grandes pensadoras sobre essa área social da internet, e ela realmente coloca o dedo na ferida dizendo: Olha, esses modelos que tão sendo pensados, que tão sendo criados, será que eles vão ser realmente corretos? Será que a informação que eu vou tirar deles, eu vou conseguir entender o suficiente pra poder atuar de uma maneira correta em cima deles? Será que é ético fazer isso? Será que é? Será que esses modelos vão ser simplistas demais? Quem vai ter acesso a esses modelos? E aí, quem vai ter direito a ver? Como, quem vai poder manipular esses dados? E eu acho que são questões fundamentais. Mas como todo outro, mas como todo processo de uma inovação tecnológica, a gente tem que colocar numa balança os perigos e as vantagens. E aí um problema que eu acho nessa área é quando a gente fala nas vantagens, a gente pensa em vantagens de marketing. Se uma empresa puder fazer isso, ela vai poder chegar e mandar um anúncio no seu celular exatamente no momento que você tá com vontade de tomar sorvete, passando na frente do Amor aos Pedaços do Shopping, assim você vai comprar... esse tipo de elucubração. Na minha opinião, se é só isso que a gente tem a ganhar, talvez seja muito pouco. Mas o que eu vou tentar agora, no resto da pales... dessa conversa, é falar pra vocês que eu acho que esse tipo de modelo é fundamental pra resolver o 2º maior problema que nos afeta hoje como raça humana. O 1º a gente sabe: é a crise de meio ambiente. Mas eu acho que existe uma crise tão grande, tão impactante e tão capaz de afetar nossa viabilidade como raça nesse planeta, que tá...em que esse tipo de abordagem pode ajudar. Eu não vou tentar convencer vocês de que essa cri...de que isso é uma grande crise. Vou tentar explicar o problema agora e como rastros digitais podem ajudar. O problema tem a ver com os grandes sistemas de serviço que hoje prestam... saúde, educação, segurança, ah... assistência à velhice e assim por diante. E essa é uma crise de produtividade. O que está acontecendo com esses sistemas em todo o mundo é que eles estão sendo... ficando sobrecarregados com o aumento de demanda, na medida em que há mais gente saindo da pobreza e indo pra uma condição de classe média. E eles só conseguem aumentar sua capacidade de prover serviços, colocando gente. Então cada vez eu tenho mais demanda, eu boto mais gente, e mais gente, e fica mais caro e isso em termos de custo significa que a minha produtividade não aumenta. E eu vou tentar demonstrar alguns casos de como isso acontece. O mais evidente é esse gráfico. E gráficos desse tipo. Esse gráfico mostra a evolução nos últimos 200 anos, 210 anos, da divisão da mão de obra nos Estados Unidos, entre Agricultura, Indústria e Serviços. Então hoje tem setenta e tantos por cento da população americana trabalha em serviço. O que isso significa? Significa que hoje serviços é tão ineficiente quanto era a agricultura em 1800. Nós só conseguimos prover serviços colocando gente, e gente, e gente. Situação semelhante: isso aqui é uma projeção do congresso americano de custos de medicina, tá? E você vê eles dividem em baixo é o custo sem considerar o envelhecimento da população, existe um custo extra que vem pelo fato que gente mais velha tem...precisa de mais cuidado de saúde, mas a maior parte desse crescimento absolutamente vertiginoso que triplica em 60 anos o custo vem da necessidade de botar mais gente pra cuidar dessas pessoas. Que mesmo as novas tecnologias que são criadas ainda precisam de gente, precisam de mais gente e a única maneira que a gente encontra de botar, aumentar a qualidade, é gente. Quer ver uma outra área que isso acontece? Computação. Poxa, mas computação não é feita por máquinas? Resposta é? Não! Não mais! Em 96, isso aqui é um gráfico que mostra os custos de computação no mundo inteiro, os grandes Data Centers. Tá? Em 96, dominado pelo amarelo, custo de máquina. Hoje, mais que 50% do custo de gerar informação, de gerir informação é gente. Você vê que o custo de máquinas novas se manteve constante, o custo de energia, em verde, aumentou, e o que aumenta o custo? Gente. E esse tipo de gráfico que a gente vê os custos de gente aumentando, nesse formato de cunha, a gente encontra em educação, a gente encontra em segurança, em outras áreas tá? Eu trabalho tentando ajudar esses sistemas. Quer ver um exemplo? A IBM tem , aqui em Hortolândia, uma hora e meia de São Paulo, uma fábrica de serviços. Entre 8 e 10 mil pessoas...tá, só pra ter uma ideia, 140 linhas de ônibus, só pra ter uma ideia dessa população. O que que eles fazem? Eles são babá de computador. Tem mui...tem várias... milhares de servidores e eles cuidam pra que esses servidores fiquem de pé. Que não caiam,tá? E isso é absolutamente igual em todas as outras empresas que tem grandes Data Centers, Google, Tata, Info System...é um negócio movido à gente. Não é mais movido à computador, tá? E pra quem conhece, assim, se for pensar em Lei de Murphy, quer dizer, a velocidade dos computadores aumenta, mas o custo aumenta mais rápido ainda por causa das pessoas. Então a gente, no meu grupo, a gente estuda e tenta fazer...tenta melhorar esses sistemas. Então, por exemplo, a gente chega e tenta criar simuladores. Pra que quando a gente mexa em alguma coisa, pra tentar otimizar alguma operação, a gente consiga fazer isso antes de mexer no mundo real. Porque o mundo real é uma situação crítica. Parece hospital aquilo. Tem emergência. Eles têm servidores que têm que... que podem ficar 5 minutos fora do ar... 10 minutos... e precisa de alguém que tem chegar lá, como se fosse lá num departamento de emergência, e botar no ar de novo. Uma outra coisa que a gente faz é lidar com os dados. Então isso aí, por exemplo, são visualizações, eu não tenho tempo pra falar do que elas são, mas mostram diferentes padrões de operação e a gente tentando entender o que estes diferentes padrões significam em termos de eficiência, de produtividade, de qualidade pro consumidor. Mas o problema é que tudo isso aqui ainda tá muito na infância. Porque esses sistemas, o coração deles é gente. Enquanto a gente não conseguir visualizar os dados das pessoas de uma forma inteligível, ou simular pessoas no ambiente, a gente vai brincar de tentativa e erro. A gente vai ficar tentando resolver esses sistemas simplesmente por tentativa e erro. E a gente precisa dar um salto qualitativo e pra isso a gente vai ter que criar modelos muito mais fantásticos, muito melhores sobre as pessoas. E pra criar esses modelos não tem jeito, nós precisamos dados sobre as pessoas: como elas falam, com quem elas falam, quais são os padrões de vida...tudo isso faz parte de pensar esses modelos, tá? Isso é algo que tá começando, a gente ainda tá muito no início, e direciona numa área, que é a área que o meu grupo tá começando a trabalhar, de algo que a gente chama de Sociologia Computacional. Que é buscar, criar modelos das pessoas, das relações delas, que permitam que a gente entenda esses sistemas complexos, que as pessoas formam e, principalmente, esses sistemas de produção do tipo Data Centers, Hospitais, Saúde, Segurança, mas que possa criar modelos que me ajudem a, de alguma forma, ah... atuar nesses sistemas com alguma ideia de como eles vão mudar, como vão reagir à mudanças. Tá? A gente tem que sair desse paradigma. Como eu disse: há riscos nisso? Há, mas eu acho que nós estamos aí numa situação que a gente tem que tomar cuidado com questões éticas, com questões de acesso e uma série de outras essas questões, mas não podemos parar de trabalhar nessa área porque essa área vai ser cada vez mais precisa pra, pra arrumar esses sistemas de serviços de que todos nós dependemos, tá? Como tráfego, como educação, como a própria computação. Enfim, era isso que eu queria dizer. Obrigado.