Texto Mining Twitter, um Estudo de Caso STATISTICA

Há muita informação valiosa por aí nas conversas da “mídia social”. Neste estudo de caso, vamos explorar como STATISTICA Text Miner foi usado para acessar tweets a partir do Twitter relacionar a temas específicos, armazenar e acompanhar tendências, encontrar relações interessantes e ganhar conhecimento. 7 00:00:18,750 --> 00:00:22,230 Meu nome é Jennifer Thompson e eu sou uma estatística da StatSoft. Vamos explorar formas de analisar o conteúdo de mídia social. Eu quero aprender mais sobre discussões envolvendo palavras-chave como StatSoft, STATISTICA, mineração de dados, mineração de texto, análise preditiva. E a lista continua. O que as pessoas estão falando quando mencionam essas palavras-chave? Acompanhado ao longo do tempo, veremos picos ou pausas no número de menções? Que outras palavras ocorrem com freqüência nessas discussões e qual é o sentimento global? Que outras coisas interessantes podemos aprender com o que as pessoas estão dizendo online? Atualmente existem algumas ferramentas para encontrar no Twitter postagens relacionadas com os sentimentos dos usuários e número de menções de uma palavra-chave. Então, por que eu usei o STATISTICA Text Miner? Os benefícios estão na automação de relatórios e alertas, bem como maiores funcionalidades para determinar o conteúdo de conversas automaticamente. Usando o servidor de monitoramento e alertas do STATISTICA, eu tenho um acompanhamento, a longo prazo e contínuo, de conversas e os históricos de dados são armazenados de forma a que eu possa acessá-los novamente mais tarde. Isso permite que eu compare as conversas deste ano com as do ano passado. Os tweets são pesquisáveis no Twitter por pouco mais de uma semana, então o armazenamento da informação se torna necessário. Também com a automação, a análise é executada somente quando padrões de interesse são encontrados e eu sou alertada. Por exemplo, se uma nova palavra ou frase está ocorrendo na conversa. Este relatório enviado mostra as novas tendências e posso reagir em conformidade. Eu posso ver os relatórios no meu tempo livre mas eu recebo uma mensagem de texto sempre que o sentido das conversas muda para o sentido negativo. Esta mudança pode ser um grande negócio, então eu preciso ser alertada o quanto antes. Eu usei uma macro STATISTICA Visual Basic para obter os tweets e a informação de apoio em uma planilha. Eu extraí informações como a data e hora, identificação do usuário, e o texto postado. Então eu posso começar a análise e executar a mineração de texto sobre os tweets. Estatísticas descritivas básicas sobre os dados do twitter podem ser informativas. Quantas vezes a palavra-chave foi mencionada em tweets em um determinado dia? Este gráfico mostra as menções diárias para a marca STATISTICA, bem como para seus dois grandes concorrentes. Quando ocorrem os picos no número de menções, é muito interessante ver o que as pessoas estão dizendo. Será que coincidem com um comunicado de imprensa, campanha de marketing, ou um evento, como uma conferência ou a liberação de uma nova versão do software? Encontrar estes picos é o primeiro passo para a compreensão da sua causa e de como nós podemos promover conversas mais positivas sobre a marca. Quanta sobreposição ocorre para os usuários? Ao olhar para as tendências, há uma mão cheia de tweeters criando a maioria dos ruídos, ou as menções estão vindo de usuários específicos? Aqui vemos que 71 por cento dos tweets são de usuários únicos. Isso me diz que, provavelmente, o alcance é superior do que se a maioria dos tweets fossem provenientes de apenas uma pessoa. Aqui nós estamos olhando para as menções diárias de várias palavras-chave mineração de dados, análises e estatísticas. Uma mudança de tendência pode indicar um lugar interessante para detalhar o conteúdo. As repetições de tweets podem ser interessantes também. Para a palavra-chave "data mining", 14% das mensagens eram tweets repetidos. A mineração de texto sobre as mídias sociais tem algumas considerações especiais, tais como a informalidade da linguagem utilizada. No Twitter são frequentemente usadas siglas na gíria de chat. Para considerar isto, eu mudei os filtros para o que compõe uma palavra. Também mudei os caracteres que são permitidos para formar uma palavra. Para detectar ícones emocionais ou caras sorridentes, vírgulas e parênteses devem ser adicionados. Estou à procura de frases específicas, como "data mining", "text mining", "análise preditiva". Essas frases podem ser igualmente detectadas. Usando uma lista de sinônimos, posso combinar palavras com o mesmo significado. Por exemplo, "stat" será uma abreviatura de "statistic". Elas são a mesma palavra e são reconhecidas como tal quando a lista de sinônimos é usada. Nos resultados, tendências interessantes podem tornar-se aparentes em um gráfico de dispersão com os componentes da decomposição de valores singulares. Este aglomerado de palavras, “fire far dring” e “hose” indica que vários tweets utilizam esse conjunto de palavras juntas em postagens que também contêm a palavra "data mining". Com uma exploração adicional descobri que várias pessoas tinham postado ou re-postado sobre um post de blog com “drinking from the fire hose” no título. Esta interessante tendência foi encontrada através de “text mining” aos dados. No rastreamento de percepções da marca STATISTICA e de suas duas concorrentes, eu fiz um gráfico de pizza para mostrar a distribuição das percepções relativas a cada uma. Percepção, neste caso, foi medida no uso de emoticons e vemos esta careta franzida com língua de fora. Tweeters mencionando o segundo concorrente usavam um monte de emoticons de língua de fora, que pode ser uma expressão de brincadeira ou boba. Adicionalmente, a análise de percepção dos usuários pode ser realizada através da comparação das palavras positivas e negativas encontradas nas postagens dando-lhes um tom geral. Este gráfico de controle de qualidade está rastreando as menções ao longo do tempo para palavras-chave nas postagens afim de detectar alterações de padrão. Este tipo de informação poderia ser utilizada para determinar a eficácia de uma campanha de marketing. Distribuir a análise por localidade geográfica pode trazer informação interessante sobre as tendências regionais. Vamos rever mais dos resultados no STATISITCA. Após uma análise básica gráficos e algumas estatísticas descritivas, eu comecei a análise de mineração de texto para postagens que mencionavam a frase "data mining". Aqui estamos olhando para a saída com o resumo das palavras. Estas serão as palavras e frases mais frequentes nos tweets sobre "data mining". Algumas delas são esperadas como conhecimento, download, computador, web, negócios, aplicativo, máquina, inteligência e assim por diante. Em seguida, vemos a palavra "Shakespeare". Este não é um termo que eu esperava ver em uma discussão sobre a mineração de dados, e é um padrão interessante saber que "Shakespeare" está sendo exibido no top 20 dos termos mencionados em postagens de "data mining". Uma maior exploração irá nos dizer mais. Após monitorar as frequências dos termos exibidos em tweets acerca de mineração de dados, Eu combinei esta frequência numa escala temporal num gráfico. Este gráfico, na realidade, mostra várias tendências e picos interessantes nos números de menções para vários termos incluindo o termo Shakespeare. Muitos destes termos-chave são um tanto inesperados. O primeiro pico no número de menções de uma palavra é o termo "expert". Em uma semana ou mais, um aglomerado de palavras que obtiveram pico no número de menções "drink fire hose" e "far" Este pico pode ser rastreado para vários tweets e retweets sobre as postagens de blog com "drinking from the fire hose" no título. Outro grupo de termos para pico é "europeu", "facebook", e "crack", que é atribuída a um artigo que circula com respeito uma denúncia europeia sobre privacidade do facebook. Posteriormente, há um pequeno máximo falando sobre livros com o tema da aprendizagem de máquina e inteligência artificial. Em seguida chegamos ao máximo para o termo Shakespeare. Este discurso vem de comentários em torno de uma apresentação sobre a mineração de dados de obras clássicas de Shakespeare que se está destacando na era digital. *** gráfico é particularmente interessante, pois mostra tendências ao longo do tempo e podemos ver rapidamente o que as pessoas estão falando. Aqui está um olhar para os relatórios gerados a partir do servidor de monitoramento e alertas do STATISTICA. Estes relatórios são calendarizadose e gerados automaticamente. Os relatórios são enviados para as pessoas responsáveis para revisão. Também os tweets recuperados são armazenadas para uso futuro. Esta última página do relatório mostra informações sobre as contas do Twitter envolvidas nas mensagens sobre mineração de dados. O gráfico dá uma visão geral do número de seguidores que um usuário do Twitter tem, bem como o número médio que esse usuario segue. Isto dá uma idéia geral quanto ao alcance que estas mensagens têm. O número médio de seguidores de contas do Twitter, comentando sobre mineração de dados é de 2.451. O histograma mostra uma distribuição assimétrica. A maioria dos posters têm entre 65 e 725 seguidores. Isto é o vigésimo quinto no percentil 75. Para continuar assistindo as séries você pode se inscrever em “statsoft.com/tmsubscribe” e se você quiser mais informações sobre A StatSoft e seus produtos, incluindo STATISTICA Text Miner, visite www.statsoft.com.br ou ligue para +55 11 3777 8190 Fora dos Estados Unidos, Canadá e México a página de contato statsoft.com tem links para os nossos escritórios internacionais que lhe poderão dar assistência.