Neste guia, vamos caminhar por 8 divertidos projectos de aprendizagem de máquinas para principiantes. Os projectos são alguns dos melhores investimentos do seu tempo. Vai gostar de aprender, ficar motivado, e fazer progressos mais rápidos.

Vê, nenhuma quantidade de teoria pode substituir a prática prática prática. Os manuais escolares e as lições podem embalá-lo numa falsa crença de domínio, porque o material está lá à sua frente. Mas uma vez que o tente aplicar, poderá descobrir que é mais difícil do que parece.

Projectos ajudam-no a melhorar rapidamente as suas competências aplicadas ao ML, dando-lhe a oportunidade de explorar um tópico interessante.

Plus, pode adicionar projectos ao seu portfólio, tornando mais fácil arranjar um emprego, encontrar oportunidades de carreira fixes, e até negociar um salário mais elevado.

Aqui estão 8 divertidos projectos de aprendizagem mecânica para principiantes. Pode completar qualquer um deles num único fim-de-semana, ou expandi-los para projectos mais longos, se os apreciar.

Table of Contents

  1. Machine Learning Gladiator
  2. Play Money Ball
  3. Prever os preços das acções
  4. Ensino uma rede neural para ler a escrita
  5. Investigar Enron
  6. Escrever Algoritmos ML de Raspadinha
  7. li>Sentimento das Mídias Sociais

  8. Improve Health Care

Máquina de Aprendizagem Gladiador

Chamamos afectuosamente a este “gladiador de aprendizagem mecânica”,”mas não é novidade. Esta é uma das formas mais rápidas de construir intuição prática em torno da aprendizagem de máquinas.

O objectivo é tirar modelos out-of-the-box e aplicá-los a diferentes conjuntos de dados. Este projecto é espectacular por 3 razões principais:

P>Primeiro, construirá intuição para encaixar modelo a problema. Que modelos são robustos aos dados em falta? Quais os modelos que lidam bem com características categóricas? Sim, pode escavar através de livros de texto para encontrar as respostas, mas aprenderá melhor ao vê-lo em acção.

Segundo, este projecto ensinar-lhe-á rapidamente a inestimável habilidade de fazer protótipos de modelos. No mundo real, é muitas vezes difícil saber qual o modelo que terá melhor desempenho sem simplesmente os experimentar.

Finalmente, este exercício ajuda-o a dominar o fluxo de trabalho da construção de modelos. Por exemplo, poderá praticar…

  • Importar dados
  • Limpeza de dados
  • Dividi-lo em conjuntos de treino/teste ou validação cruzada
  • Pré-processamento
  • Transformações
  • Engenharia de características

Porque utilizará modelos prontos a usar, terá a oportunidade de se concentrar em aperfeiçoar estes passos críticos.

Cheque as páginas de documentação do sklearn (Python) ou do caret (R) para instruções. Deverá praticar algoritmos de regressão, classificação, e agrupamento.

Tutoriais

  • Python: sklearn – tutorial oficial para o pacote de sklearn
  • Prever a qualidade do vinho com Scikit-Learn – tutorial passo-a-passo para treinar um modelo de aprendizagem de máquina
  • R: caret – Webinar dado pelo autor do pacote de caretas

Fontes de dados

  • Repositório de aprendizagem de máquinas UCI – 350+ conjuntos de dados pesquisáveis abrangendo quase todos os assuntos. Encontrará definitivamente conjuntos de dados que lhe interessam.
  • Kaggle Datasets – mais de 100 conjuntos de dados carregados pela comunidade Kaggle. Há aqui alguns conjuntos de dados realmente divertidos, incluindo locais de desova PokemonGo e Burritos em San Diego.
  • data.gov – Conjuntos de dados abertos lançados pelo governo dos EUA. Excelente local para procurar se estiver interessado em ciências sociais.

Play Money Ball

No livro Moneyball, os Oakland A revolucionaram o basebol através de scouting analítico de jogadores. Construíram uma equipa competitiva enquanto gastavam apenas 1/3 do que grandes equipas de mercado como os Yankees pagavam por salários.

P>Primeiro, se ainda não leram o livro, devem verificá-lo. É um dos nossos favoritos!

Felizmente, o mundo desportivo tem uma tonelada de dados para jogar. Dados para equipas, jogos, pontuações e jogadores são todos controlados e livremente disponíveis online.

Existem muitos projectos de aprendizagem de máquinas divertidos para principiantes. Por exemplo, poderia tentar…

  • Apostas desportivas… Prever os resultados da caixa dado os dados disponíveis na altura mesmo antes de cada novo jogo.
  • Talent scouting… Utilizar as estatísticas da faculdade para prever quais os jogadores que teriam as melhores carreiras profissionais.
  • Gestão geral… Criar grupos de jogadores com base nos seus pontos fortes, a fim de construir uma equipa bem formada.

Desporto é também um excelente domínio para a prática da visualização de dados e análise exploratória. Pode usar estas competências para o ajudar a decidir que tipos de dados incluir nas suas análises.

Fontes de dados

  • Base de dados de estatísticas desportivas – Estatísticas desportivas e dados históricos abrangendo muitos desportos profissionais e vários universitários. A interface limpa facilita a raspagem da web.
  • Referência Desportiva – Outra base de dados de estatísticas desportivas. Interface mais desorganizada, mas tabelas individuais podem ser exportadas como ficheiros CSV.
  • cricsheet.org – Dados bola por bola para jogos internacionais e IPL de cricket. Ficheiros CSV para jogos internacionais IPL e T20 estão disponíveis.

Previsão de preços de acções

O mercado de acções é como a terra dos doces para quaisquer cientistas de dados que estão mesmo remotamente interessados em finanças.

Primeiro, tem muitos tipos de dados que pode escolher. Pode encontrar preços, fundamentos, indicadores macroeconómicos globais, índices de volatilidade, etc… a lista continua e em.

Segundo, os dados podem ser muito granulares. Pode facilmente obter dados de séries cronológicas por dia (ou mesmo por minuto) para cada empresa, o que lhe permite pensar criativamente sobre estratégias de negociação.

Finalmente, os mercados financeiros geralmente têm ciclos curtos de feedback. Portanto, pode validar rapidamente as suas previsões sobre novos dados.

Alguns exemplos de projectos de aprendizagem de máquinas para principiantes que poderia tentar incluir…

  • Investimento de valor quantitativo… Prever movimentos de preços de 6 meses com base em indicadores fundamentais dos relatórios trimestrais das empresas.
  • Previsão… Construir modelos de séries temporais, ou mesmo redes neurais recorrentes, sobre o delta entre a volatilidade implícita e a real.
  • Arbitragem estatística… Encontrar acções semelhantes com base nos seus movimentos de preços e outros factores e procurar períodos em que os seus preços divergem.

Declaração de exoneração de responsabilidade: Construir modelos de negociação para praticar a aprendizagem de máquinas é simples. Torná-los rentáveis é extremamente difícil. Nada aqui é aconselhamento financeiro, e não recomendamos a negociação de dinheiro real.

Tutoriais

  • Python: sklearn for Investing – YouTube video series on applying machine learning to investing.
  • R: Negociação quantitativa com R – Notas de classe detalhadas para financiamento quantitativo com R.

Fontes de dados

  • Quandl – Mercado de dados que fornece gratuitamente (e premium) dados financeiros e económicos. Por exemplo, é possível descarregar em massa preços de acções de fim de dia para mais de 3000 empresas dos EUA ou dados económicos da Reserva Federal.
  • Quantopian – Comunidade financeira quantitativa que oferece uma plataforma gratuita para o desenvolvimento de algoritmo de negociação. Inclui conjuntos de dados.
  • Arquivo de Fundamentos dos EUA – 5 anos de dados fundamentais para 5000+ empresas dos EUA.

Programa de uma rede neural para ler a escrita

Rede neural e aprendizagem profunda são duas histórias de sucesso na inteligência artificial moderna. Levaram a grandes avanços no reconhecimento de imagens, geração automática de texto, e mesmo em carros auto-conduzidos.

Para se envolver neste excitante campo, deve começar com um conjunto de dados gerível.

O Desafio de Classificação de Dígitos Escritos à MNIST é o ponto de entrada clássico. Os dados de imagem são geralmente mais difíceis de trabalhar do que os dados relacionais “planos”. Os dados do MNIST são fáceis de iniciar e são suficientemente pequenos para caberem num computador.

O reconhecimento da caligrafia irá desafiá-lo, mas não precisa de alto poder computacional.

Para começar, recomendamos com o primeiro capítulo no tutorial abaixo. Ensinar-lhe-á como construir uma rede neural do zero que resolve o desafio MNIST com alta precisão.

Tutorial

  • Redes Neurais e Aprendizagem Profunda (Online Book) – O capítulo 1 percorre como escrever uma rede neural do zero em Python para classificar os dígitos do MNIST. O autor também dá uma explicação muito boa da intuição por detrás das redes neurais.

Fontes de dados

    >li> MNIST – MNIST é um subconjunto modificado de dois conjuntos de dados recolhidos pelo Instituto Nacional de Normas e Tecnologia dos EUA. Contém 70.000 imagens rotuladas de dígitos manuscritos.

Investigar Enron

O escândalo e colapso da Enron foi uma das maiores fusões empresariais da história.

No ano 2000, a Enron foi uma das maiores empresas de energia da América. Depois, depois de ter sido excluída por fraude, entrou em espiral para a falência no espaço de um ano.

Felizmente para nós, temos a base de dados de correio electrónico da Enron. Ela contém 500 mil e-mails entre 150 antigos funcionários da Enron, na sua maioria executivos de topo. É também a única grande base de dados pública de e-mails reais, o que a torna mais valiosa.

De facto, os cientistas de dados têm vindo a utilizar este conjunto de dados para a educação e investigação há anos.

Exemplos de projectos de aprendizagem de máquinas para principiantes que poderia tentar incluir…

  • Detecção de anomalias… Mapear a distribuição de e-mails enviados e recebidos por hora e tentar detectar comportamentos anormais que conduzam ao escândalo público.
  • Análise de redes sociais… Construir modelos gráficos de rede entre empregados para encontrar os principais influenciadores.
  • Processamento de linguagem natural… Analisar as mensagens corporais em conjunto com metadados de correio electrónico para classificar as mensagens com base nos seus propósitos.

Fontes de dados

  • Enron Email Dataset – Este é o arquivo de correio electrónico da Enron alojado pela CMU.
  • Descrição dos Dados Enron (PDF) – Análise exploratória dos dados de email Enron que poderiam ajudá-lo a obter a sua fundamentação.

Escrever Algoritmos ML a partir do Raspadinha

O algoritmo de aprendizagem da máquina de escrever a partir do zero é uma excelente ferramenta de aprendizagem por duas razões principais.

Primeiro, não há melhor maneira de construir uma verdadeira compreensão da sua mecânica. Será forçado a pensar em cada passo, e isto leva a um verdadeiro domínio.

Segundo, aprenderá a traduzir instruções matemáticas em código de trabalho. Irá precisar desta habilidade ao adaptar algoritmos da investigação académica.

Para começar, recomendamos que escolha um algoritmo que não seja demasiado complexo. Há dezenas de decisões subtis que terá de tomar, mesmo para os algoritmos mais simples.

Depois de se sentir à vontade para construir algoritmos simples, tente ampliá-los para maior funcionalidade. Por exemplo, tente alargar um algoritmo de regressão logística de baunilha para uma regressão de laço/cumeeira adicionando parâmetros de regularização.

Finalmente, aqui está uma dica que todos os principiantes devem saber: Não desanime é que o seu algoritmo não é tão rápido ou extravagante como os dos pacotes existentes. Esses pacotes são o fruto de anos de desenvolvimento!

Tutoriais

  • Python: Regressão logística a partir do zero
  • Python: k-Nearest Neighbors from Scratch
  • R: Regressão logística a partir do zero

Sentimento dos meus meios de comunicação social

Os meios de comunicação social tornaram-se quase sinónimos de “grandes dados” devido à enorme quantidade de conteúdo gerado pelo utilizador.

Minando estes dados ricos pode revelar-se uma forma sem precedentes de manter um pulso nas opiniões, tendências, e sentimento público. Facebook, Twitter, YouTube, WeChat, WhatsApp, Reddit… a lista continua e on.

Outras vezes, cada geração está a gastar ainda mais tempo nas redes sociais do que as suas predecessoras. Isto significa que os dados das redes sociais se tornarão ainda mais relevantes para o marketing, branding, e negócios como um todo.

Embora existam muitas plataformas de redes sociais populares por aí, o Twitter é o ponto de entrada clássico para a prática da aprendizagem mecânica.

Com dados do Twitter, obtém-se uma mistura interessante de dados (conteúdos tweet) e meta-dados (localização, hashtags, utilizadores, re-tweets, etc.) que abrem caminhos quase infinitos para análise.

Tutoriais

  • Python: Mining Twitter Data – How to perform sentiment analysis on Twitter data
  • R: Sentiment analysis with machine learning – Short and sweet sentiment analysis tutorial

Data Sources

  • Twitter API – O twitter API é uma fonte clássica para streaming de dados. Pode seguir tweets, hashtags, e mais.
  • StockTwits API – StockTwits é como um twitter para comerciantes e investidores. Pode expandir este conjunto de dados de muitas formas interessantes juntando-o a conjuntos de dados de séries cronológicas usando o carimbo da hora e o símbolo do ticker.

Improve Health Care

Outra indústria que está a sofrer mudanças rápidas graças à aprendizagem de máquinas é a saúde global e os cuidados de saúde.

Na maioria dos países, tornar-se médico requer muitos anos de educação. É um campo exigente, com longas horas de trabalho, altos riscos, e uma barreira ainda maior à entrada.

Como resultado, tem havido recentemente um esforço significativo para aliviar a carga de trabalho dos médicos e melhorar a eficiência global do sistema de cuidados de saúde com a ajuda da aprendizagem de máquinas.

casos de utilização incluem:

  • Cuidados preventivos… Prevendo surtos de doenças tanto a nível individual como comunitário.
  • Cuidados de diagnóstico… Classificando automaticamente os dados de imagem, tais como varreduras, radiografias, etc.
  • Seguros… Ajustar os prémios dos seguros com base em factores de risco disponíveis publicamente.

As hospitais continuam a modernizar os registos dos doentes e à medida que recolhemos dados de saúde mais granulares, haverá um afluxo de oportunidades de fruta de baixo peso para os cientistas de dados fazerem a diferença.

Tutoriais

  • R: Construção de modelos significativos de aprendizagem de máquinas para previsão de doenças
  • Aprendizagem de máquinas em cuidados de saúde – Excelente apresentação pela Microsoft Research

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *