Postagens

Mostrando postagens de janeiro, 2016

Machine Learning Para Previsão de Vendas Usando Dados Meteorológicos

O WalMart é uma rede com milhares de lojas em 27 países. É possível encontrar vários artigos sobre os mecanismos tecnológicos utilizados para gerenciar a logística e distribuição dos produtos. É a segunda vez que eles oferecem uma competição no Kaggle com a intenção de encontrar candidatos para entrevistas para vagas de cientistas de dados. Uma grande vantagem deste tipo de competição é termos acesso a dados de grandes companhias, e entender quais são os problemas que eles estão tentando resolver com modelos probabilísticos. O objetivo da competição era criar um modelo que pudesse prever a quantidade de venda de alguns produtos, em lojas específicas, nos dias antes e depois de nevascas e tempestades. O exemplo dado por eles na descrição da tarefa foi a venda de guarda-chuvas, que intuitivamente deve ver um aumento antes de uma grande tempestade. Dados Para treinar o modelo foram oferecidos dois arquivos: um deles continha informações sobre a identificação das lojas, produtos,

Como Identificar Clientes no Twitter Usando Data Mining

Marketing digital é uma área que tem crescido bastante, principalmente com a chegada das redes sociais. Uma das grandes questões da área é: como tornar os usuários destas redes em clientes? Uma das estratégias de maior sucesso é interagir com usuários interessados em comprar seus produtos ou usar seus serviços. Neste artigo vou mostrar como utilizei técnicas de mineração de dados, num projeto pessoal, para identificar clientes em potencial para uma loja americana de sapatos femininos. Procurar tweets com uma hashtag específica e relevante Existe uma forma simples de filtrar tweets, que é buscando por uma hashtag específica. Neste caso, a primeira hashtag testada foi #shoes. O raciocínio foi o seguinte: pessoas interessadas em sapatos postam tweets com esta tag, portanto interagir com elas pode ser uma forma de apresentar a loja. Neste mesmo raciocínio, testei a hashtag #fashion. O único problema é que, apesar de realmente ser utilizada por consumidoras de sapatos, estas hashta

Onde Encontrar Datasets para Praticar Data Science e Machine Learning

Para se tornar um bom Data Scientist e começar a realmente entender Machine Learning duas coisas são muito importantes: estudar os algoritmos, e aplicar o que foi aprendido a dados reais. Na indústria, a maior parte do tempo de um projeto de Machine Learning é normalmente gasta com a preparação e compreensão dos dados. Aplicar um algoritmo super avançado de Machine Learning a dados ruins seria como usar um carro esportivo muito veloz numa estrada esburacada. Não adianta ele ter uma ótima performance, você não vai conseguir passar de uma certa velocidade. Na prática muitas vezes o que faz a diferença entre um modelo muito bom e um mediano é justamente entender os dados, e saber prepara-los bem para aplicar um algoritmo. E esta é uma habilidade que pode ser aprendida como qualquer outra. Por isso, quero listar aqui alguns sites onde você poderá encontrar datasets abertos para praticar as suas habilidades, ou usar na prática, dependendo de seu projeto: UCI Machine Learning Reposi

Como Criar um SVM para Big Data em 10 Minutos Usando Python

Imagem
SVMs são bastante populares em aplicações de machine learning. Apesar de seguirem princípios simples, eles já demonstraram ser muito poderosos em diversas tarefas e datasets. Neste artigo quero demonstrar como implementar um SVM capaz de lidar com dados que chegam em tempo real, sem ter que armazená-los na memória. Clique aqui para acessar o código e o dataset deste artigo. Eu recomendo rodá-lo usando Pypy. Principais modos de treinar um modelo de machine learning Existem três maneiras populares de treinar um modelo: batch learning, mini-batch learning, e stochastic learning. Batch Learning : no primeiro modo, nós armazenamos todos os dados de treino numa matriz e alimentamos o algoritmo, reduzindo a loss function baseado em todos os exemplos de uma vez. Isso nem sempre é possível devido ao tamanho do dataset. Nestes casos temos que recorrer às duas outras maneiras. Mini-Batch Learning : neste caso, selecionamos um número N de exemplos e dividimos o training set em blocos de