Fazendo Data Science na Nuvem com o ScraperWiki

A ciência de dados é a nova grande novidade da tecnologia; altamente na moda e altamente remunerado, com cientistas de dados sendo procurados por algumas das maiores empresas do mundo.

A ciência de dados é a nova grande novidade da tecnologia;  altamente na moda e altamente remunerado, com cientistas de dados sendo procurados por algumas das maiores empresas do mundo.
Propaganda

Se você tem as habilidades mentais, um talento para programar e contar histórias, e um olho para o design, você pode fazer pior do que entrar na ciência dos dados. É a nova grande coisa da tecnologia; altamente na moda e altamente remunerado, com cientistas de dados sendo procurados por algumas das maiores empresas do mundo.

ScraperWiki é uma empresa que há muito tempo está associada ao campo da ciência de dados. Nos últimos anos, essa startup baseada em Liverpool ofereceu uma plataforma para os programadores escreverem ferramentas que obtêm dados, limpam e analisam na nuvem.

Com uma atualização recente e a crescente demanda por cientistas de dados na empresa, vale a pena dar uma boa olhada no ScraperWiki.

Divulgação completa: Eu fui estagiário na ScraperWiki no verão passado.

O que o ScraperWiki faz?

ScraperWiki comercializa-se como um lugar para obter, limpar e analisar dados, e fornece em cada uma dessas contagens. Na sua forma mais simples, permite a você - usuário - um lugar onde você pode escrever código que recupera dados de uma fonte, ferramentas para convertê-lo em um formato que seja fácil de analisar e armazenamento para mantê-lo para visualização posterior - que você também pode manipular com o ScraperWiki.

ScraperWiki-Home

Ele também vem com várias ferramentas pré-criadas que automatizam tarefas repetitivas, incluindo a obtenção de dados de PDFs, que são notoriamente difíceis de decodificar. Isto é, além de pesquisar no Twitter 5 Cool Twitter Search Truques para monitorar o que as pessoas estão dizendo sobre você 5 Cool Twitter Search Truques para monitorar o que as pessoas estão dizendo sobre você Se você possui um site ou está apenas tentando ganhar dinheiro online como freelancer, É sempre bom saber o que as pessoas estão dizendo sobre você pela Internet. As pessoas podem estar citando ... Leia Mais e raspando utilitários. Você não precisa de nenhuma experiência de desenvolvimento de software para usá-los.

Custo

Como mencionado anteriormente, o ScraperWiki adota o modelo de precificação freemium e oferece um serviço com vários níveis. Aqueles que estão começando com ciência de dados ou com necessidades limitadas podem fazer uso do serviço gratuito. Isso lhe dá três conjuntos de dados - onde você armazena seus dados e códigos.

Aqueles que planejam escrever vários scrapers ou querem fazer montanhas de análise de dados podem desembolsar algum dinheiro para uma conta premium. Estes começam em US $ 9 por mês e oferecem 10 conjuntos de dados. Se isso ainda não for suficiente, você pode sempre atualizar para a camada mais alta, que vem com 100 conjuntos de dados, e custa US $ 29 por mês.

Codificação

Os programadores costumam ser bastante específicos quando se trata de como eles codificam. Alguns preferem linguagens de script em linguagens compiladas. Alguns preferem a experiência reduzida de um editor de texto em relação a um ambiente de desenvolvimento integrado (IDE). ScraperWiki reconhece isso, e dá ao usuário uma enorme quantidade de escolha quando se trata de como você escreve seu código.

scraperwiki-choose

Se você é tão inclinado, você pode escrever seu código no navegador. Como você esperaria de qualquer ferramenta de desenvolvimento baseada na Web, baseada em navegador, com base na Web e baseada em navegador, ela vem com recursos que qualquer programador consideraria essencial, como o realce de sintaxe.

navegador de codificação em scraperwiki

Existem várias línguas em oferta. Estes incluem os 5 melhores sites para aprender programação em Python Os 5 melhores sites para aprender programação em Python Ao longo da última década, a linguagem de programação Python explodiu em popularidade entre os programadores em todas as áreas de codificação. De desenvolvedores web a designers de videogames a criadores de ferramentas internos, muitas pessoas caíram no ... Read More, uma linguagem de script popular usada por empresas como Google e NASA; Ruby 3 Interactive, Fun, Formas Livres de Começar a Aprender a Linguagem de Programação Ruby 3 Maneiras Interativas, Divertidas e Gratuitas de Começar a Aprender a Linguagem de Programação Ruby O Ruby é uma linguagem de script expressiva e de alto nível. Ele é usado na Web principalmente como parte da estrutura de desenvolvimento da Web do Ruby on Rails, mas também como autônomo. Se você está curioso sobre o que Ruby (não ... Read More, que alimenta um número de sites populares, como Living Social; e a popular linguagem de análise estatística, R.

linguagem scraperwiki

Além disso, você também pode escrever código a partir da linha de comando usando SSH, Git e qualquer editor de texto que você goste de usar. Sim, você leu certo. SSH O que é SSH e como é diferente do FTP [Tecnologia explicada] O que é SSH e como é diferente do FTP [Tecnologia explicada] Leia mais. Cada caixa que você usa é sua própria conta do Linux, e você pode se conectar a ela como se fosse um VPS ou qualquer outra conta de shell. Há uma série de editores de texto disponíveis, incluindo o Vim The Top 7 razões para dar ao editor de texto Vim uma chance Por anos, eu tentei um editor de texto após o outro. Você nome, eu tentei. Eu usei cada um desses editores por mais de dois meses como meu principal editor do dia-a-dia. De alguma forma, eu ... Leia mais que pode ser estendido com plugins e editando a configuração. Aqueles intimidados pelo Vim podem usar o Nano, que é um editor de texto de linha de comando leve.

scraperwiki-vim

As bibliotecas instaladas devem ser suficientes para escrever ferramentas para recuperar dados e processá-los. Se você precisar de algo um pouco mais obscuro, você sempre pode criar um virtualenv a partir da linha de comando. Como você pode ver, há uma enorme flexibilidade oferecida aos desenvolvedores.

Visualização de dados

Então, você tem seus dados. Você normalizou isso. Você limpou. Você analisou isso. Agora é hora de fazer alguma visualização e mostrar ao mundo o que você aprendeu.

O ScraperWiki permite que os desenvolvedores exibam seus dados usando páginas da web construídas a partir da trifecta familiar de HTML, CSS e JavaScript. Além disso, os componentes do Bootstrap são suportados fora da caixa.

scraperwiki-visualization

Há uma série de visualizações pré-criadas disponíveis, incluindo aquelas que mostram seus dados em um mapa e encontram tendências em suas descobertas. Para usá-los, você precisa garantir que seus dados sejam armazenados como arquivos SQLite com o nome de arquivo 'scraperwiki.sqlite'. Então você simplesmente adiciona a visualização em que está interessado. Simples, certo?

Conclusão

O ScraperWiki oferece muito aos desenvolvedores que querem fazer alguma análise de dados sem que seu ambiente de desenvolvimento fique no caminho deles, enquanto tem a flexibilidade de agradar até mesmo os usuários mais exigentes. Mas o que você acha? Deixe-me saber nos comentários abaixo.
Crédito da foto: Rocket Science (Dan Brown)

In this article