How We Teach Computers to Understand Pictures - Fei fei li - Ted talks

Tradutor: Fernando Gonçalves Revisor: Maricene Crus Deixem-me lhes mostrar algo. (Vídeo) Garota: Certo, isso é um gato sentado sobre a cama. O garoto está acariciando o elefante. Aquelas são pessoas que estão entrando num avião. É um avião grande! Fei-Fei Li: Esta é uma criança de três anos de idade descrevendo o que vê numa série de fotos. Ela ainda tem muito o que aprender sobre este mundo, mas já é uma especialista numa importante tarefa: dar sentido ao que vê. Nossa sociedade está mais tecnologicamente avançada do que nunca. Mandamos pessoas para a Lua, fazemos telefones que falam conosco ou personalizamos estações de rádio para tocar só as músicas de que gostamos. No entanto, nossas máquinas mais avançadas e computadores ainda lutam para realizar esta tarefa. Então, estou aqui hoje para dar um relatório do progresso sobre os últimos avanços em nossa pesquisa em visão computacional, uma das tecnologias mais inovadoras e potencialmente revolucionárias na ciência da computação. Sim, temos protótipos de carros que podem dirigir sozinhos, mas sem uma visão inteligente, não conseguem notar a diferença entre um saco de papel amassado na estrada, que pode ser atropelado, e uma pedra daquele tamanho, que deve ser evitada. Fizemos câmeras incríveis de megapixel, mas não demos visão aos cegos. Os "drones" podem voar sobre a terra firme, mas não têm a tecnologia de visão suficiente para nos ajudar a rastrear as mudanças das florestas tropicais. As câmeras de segurança estão em toda parte, mas não nos alertam quando uma criança está se afogando numa piscina. Fotos e vídeos estão se tornando partes integrais da vida global. Estão sendo gerados a um ritmo muito além do que qualquer humano, -- ou grupos de seres humanos -- poderia esperar ver. E vocês e eu estamos contribuindo para isto nesta palestra TED. No entanto, nosso software mais avançado ainda tem dificuldade para compreender e administrar este conteúdo enorme. Então, em outras palavras, coletivamente como sociedade, somos muito cegos, porque nossas máquinas mais inteligentes ainda são cegas. "Por que isto é tão difícil?", vocês podem perguntar. As câmeras podem tirar fotos como esta, convertendo luzes numa matriz bidimensional de números conhecida como pixels, mas estes são apenas números sem vida, não carregam significado em si mesmos. Assim como ouvir não é o mesmo que escutar, tirar fotos não é o mesmo que ver, e por ver, queremos dizer, compreender. Na verdade, a mãe natureza levou 540 milhões de anos de trabalho pesado para realizar esta tarefa, e muito deste esforço foi para desenvolver o aparelho de processamento visual do nosso cérebro, não os olhos em si. Então, a visão começa com os olhos, mas acontece de fato no cérebro. Então, por 15 anos, começando com o meu doutorado na Caltech e depois liderando o Stanford's Vision Lab, venho trabalhando com os meus mentores, colaboradores e alunos para ensinar os computadores a ver. Nosso campo de pesquisa chama-se visão computacional e aprendizado de máquina. É parte do campo geral da inteligência artificial. Basicamente, queremos ensinar as máquinas a ver como nós: nomear objetos, identificar pessoas, perceber a geometria 3D das coisas, compreender relações, emoções, ações e intenções. Nós tecemos juntos histórias completas das pessoas, lugares e coisas no momento em que os vemos. O primeiro passo rumo a este objetivo, é ensinar um computador a ver objetos, o bloco de construção do mundo visual. De modo bem simples, imaginem este processo de ensino como mostrar aos computadores algumas imagens de treinamento de um objeto em particular, digamos gatos, e projetar um modelo que aprenda a partir destas imagens de treinamento. Qual é a dificuldade disto? Afinal de contas, um gato é apenas uma coleção de forma e cores, e foi o que fizemos nos primeiro dias de modelagem de objetos. Falamos ao algoritmo computacional, numa linguagem matemática, que um gato tem o rosto arredondado, corpo gordinho, duas orelhas pontudas e uma cauda longa, e parecia tudo bem. Mas, e este gato? (Risos) Ele está todo torto. Agora é preciso adicionar outra forma e outro ponto de vista ao objeto modelo. Mas, e se os gatos estiverem escondidos? E estes gatos bobos? Agora vocês sabem do que estou falando. Mesmo algo simples, como um animal doméstico, pode apresentar um número infinito de variações ao objeto modelo, e isto é só um objeto. Então, há oito anos, uma observação bem simples e profunda mudou o meu pensamento. Ninguém diz a uma criança como ver, especialmente nos primeiros anos. Elas aprendem através das experiências e exemplos do mundo real. Se considerarmos os olhos de uma criança como um par de câmeras biológicas, eles tiram uma foto a cada 200 milissegundos, o tempo médio em que o movimento do olho é feito. Então, aos três anos, uma criança terá visto centenas de milhões de fotos do mundo real. São muitos exemplos de treinamento. Então, em vez de focar somente algoritmos melhores, minha ideia foi dar-lhes os tipos de dados de treinamento que uma criança obtém através das experiências, tanto em quantidade quanto em qualidade. Uma vez compreendendo isso, sabíamos que precisávamos coletar um conjunto de dados que tivesse mais imagens do que tínhamos antes, talvez milhares de vezes mais, e juntamente com o professor Kai Li, da Universidade de Princeton, lançamos o projeto ImageNet em 2007. Felizmente, não tínhamos que colocar uma câmera em nossas cabeças e esperar por vários anos. Fomos à internet, o maior tesouro de imagens que os humanos já criaram. Baixamos aproximadamente um bilhão de imagens e usamos tecnologia de "crowdsourcing", como a plataforma Amazon Mechanical Turk, para nos ajudar a classificar essas imagens. No seu auge, o ImageNet foi um dos maiores empregadores de trabalhadores da Amazon Mechanical Turk. Juntos, quase 50 mil trabalhadores de 167 países do mundo, nos ajudaram a limpar, separar e classificar aproximadamente um bilhão de candidatas a imagens. Esse foi o tamanho do empenho para capturar até mesmo uma fração das imagens que a mente de uma criança capta nos primeiros anos de desenvolvimento. Em retrospecto, esta ideia de usar dados extensos para treinar os algoritmos computacionais pode parecer óbvia agora, mas em 2007, não era tão óbvia assim. Estivemos praticamente sós nessa jornada por um bom tempo. Alguns colegas próximos me aconselharam a fazer algo mais útil pelo meu mandato, e lutávamos constantemente para conseguir financiamento para a pesquisa. Uma vez, eu brinquei com os meus alunos de graduação que iria reabrir minha loja de lavagem a seco para financiar o ImageNet. Afinal de contas, foi assim que financiei minha faculdade. Então seguimos em frente. Em 2009, o projeto ImageNet entregou um banco de dados de 15 milhões de imagens, entre 22 mil classes de objetos e coisas, organizadas pelas palavras cotidianas em inglês. Tanto em quantidade quanto em qualidade, isso foi uma escala sem precedentes. Como exemplo, no caso dos gatos, temos mais de 62 mil gatos de todos os aspectos e poses; e todas as espécies de gatos domésticos e selvagens. Ficamos muito felizes em criar o ImageNet e queríamos que todo o mundo das pesquisas se beneficiasse com ele. Assim, à moda TED, abrimos todo o conjunto de dados para a comunidade mundial de pesquisa gratuitamente. (Aplausos) Agora que temos os dados para alimentar o cérebro do nosso computador, estamos prontos para retornar aos algoritmos em si. Como se viu, a riqueza de informações fornecidas pelo ImageNet foi um ajuste perfeito para uma classe de algoritmos de aprendizado de máquina chamada "rede neural convolucional", iniciada por Kunihiko Fukushima, Geoff Hinton e Yann LeCun nos anos 1970 e 1980. Assim como o cérebro é composto de bilhões de neurônios altamente conectados, uma unidade operacional básica numa rede neural é como um nó neuronal. Ela obtém informações de outros nós e envia dados para outros. Além disso, essas centenas de milhares, ou mesmo milhões de nós, são organizadas em camadas hierárquicas, parecidas com o cérebro. Numa rede neural que usamos para treinar nosso modelo de reconhecimento de objetos há 24 milhões de nós, 140 milhões de parâmetros e 15 bilhões de conexões. É um modelo enorme. Alimentada pelos dados consideráveis do ImageNet e os modernos CPUs e GPUs para treinar um modelo colossal, a rede neural convolucional floresceu de um modo que ninguém esperava. Tornou-se a arquitetura vencedora para gerar novos resultados animadores em reconhecimento de objetos. Isto é um computador nos dizendo que esta foto contém um gato e onde ele está. É claro que há mais coisas além de gatos. Aqui está um algoritmo computacional nos dizendo que a foto contém um garoto e um urso de pelúcia; um cão, uma pessoa e uma pequena pipa ao fundo; ou uma foto com muitas informações como um homem, um skate, corrimãos, um poste de luz, e assim por diante. Às vezes, quando o computador não tem certeza do que vê, (Risos) nós o ensinamos a ser inteligente o bastante para nos dar uma resposta segura em vez de ficar deduzindo muito, como nós faríamos. Mas outras vezes, nosso algoritmo computacional é notável aos nos dizer exatamente o que são os objetos, como a marca, o modelo e o ano dos carros. Nós cruzamos esse algoritmo com milhões de imagens do Google Street View em centenas de cidades americanas e descobrimos algo muito interessante: primeiro, confirmou-se a nossa sabedoria popular de que preços de carros estão relacionados ao rendimento das famílias. Mas surpreendentemente, o preço dos carros também se relaciona com as taxas de crimes nas cidades, ou padrões de votos pelo CEPs. Espere um pouco. É isso mesmo? Os computadores já igualaram ou mesmo superaram as capacidades humanas? Não tão rápido. Até agora, apenas ensinamos os computadores a ver objetos. É como uma criancinha aprendendo a pronunciar algumas palavras. É um feito incrível, mas é apenas o primeiro passo. Em breve, outro marco de desenvolvimento será atingido, e as crianças começam a se comunicar por meio de frases. Então, em vez de dizer que isto é um gato na foto, vocês ouviram a garotinha nos dizendo que isto é um gato deitado na cama. Então, para ensinar um computador a ver uma foto e criar frases, o casamento entre os dados e o algoritmo de aprendizado de máquina deve dar outro passo. Agora, o computador tem que aprender tanto com as fotos quanto com as frases em linguagem natural geradas por humanos. Assim como o cérebro integra visão e linguagem, nós desenvolvemos um modelo que conecta partes de coisas visuais, como fragmentos visuais, com palavras e ideias em frases. Há uns quatro meses, finalmente juntamos tudo isso, e produzimos um dos primeiros modelos de visão computacional capaz de gerar frases do jeito humano quando vê uma foto pela primeira vez. Agora, vou mostrar o que o computador diz quando vê a foto que a garotinha viu, no início desta palestra. (Vídeo) Computador: Um homem está em pé, próximo a um elefante. Um grande avião sentado em cima de uma pista de aeroporto. FFL: Claro, estamos trabalhando com afinco para melhorar nossos algoritmos, e ele ainda tem muito o que aprender. (Aplausos) E o computador ainda comete erros. (Vídeo) Computador: Um gato deitado numa cama com um cobertor. (Risos) FFL: É claro, quando ele vê muitos gatos, ele acha que tudo se parece com um gato. (Vídeo) Computador: Um garoto está segurando um taco de beisebol. (Risos) FFL: Se nunca viu uma escova de dentes, ele a confunde com um taco de beisebol. (Vídeo) Computador: Um homem monta um cavalo na rua, próximo a um edifício. (Risos) FFL: Não ensinamos Arte 101 aos computadores. (Vídeo) Computador: Uma zebra num campo gramado. FFL: E ele não aprendeu a apreciar a deslumbrante beleza da natureza como nós apreciamos. Tem sido uma longa jornada. Ir da idade zero a três foi difícil. O verdadeiro desafio é ir dos 3 aos 13 e além disso. Vejam esta foto do garoto com o bolo novamente. Até então, ensinamos o computador a ver objetos ou mesmo contar-nos uma simples história quando vê uma foto. (Vídeo) Computador: Uma pessoa sentada à mesa com um bolo. FFL: Mas há muito mais nesta foto do que apenas uma pessoa e um bolo. O que o computador não vê é que esta é uma colomba que é servida apenas durante a Páscoa. O garoto está vestindo a sua camiseta preferida, que lhe foi dada de presente pelo pai após uma viagem a Sydney. E nós podemos ver a felicidade dele, e o que está se passando em sua mente exatamente naquele momento. Este é o meu filho Leo. Em minha busca pela inteligência visual, penso nele constantemente e no mundo futuro em que ele viverá. Quando as máquinas puderem ver, médicos e enfermeiros terão pares extras de olhos incansáveis para ajudá-los a diagnosticar e cuidar de pacientes. Os carros funcionarão de forma mais inteligente e segura nas estradas. Robôs, não apenas seres humanos, nos ajudarão a realizar buscas em áreas de desastres e a salvar pessoas soterradas e feridas. Descobriremos novas espécies, materiais melhores e exploraremos lugares que não podemos ver com a ajuda das máquinas. Pouco a pouco, estamos dando visão às máquinas. Primeiro, as ensinamos a ver, então elas nos ajudam a ver melhor. Pela primeira vez, os olhos humanos não serão os únicos ponderando e explorando nosso mundo. Não usaremos as máquinas apenas pela sua inteligência; colaboraremos também com elas de uma maneira que nem sequer imaginamos. Esta é a minha busca: dar aos computadores inteligência visual e criar um futuro melhor para o Leo e para o mundo. Obrigada. (Aplausos)