Quando se trata de bancos de dados on-line e informações que podem ser encontradas dentro do que é comumente conhecido como a “rede invisível” 10 Mecanismos de Busca para Explorar a Web Invisível Estamos familiarizados com a web. Mas você sabia que existe um vasto cache de informações que os mecanismos de pesquisa, como o Google, não têm acesso direto? Esta é a teia invisível. Leia mais “, não sou seu usuário típico. Claro, eu gasto um pouco do meu tempo vasculhando bancos de dados online em lugares como o Arquivo Nacional e a sala de leitura da CIA FOIA, mas devo dizer que nada me deixa mais animada do que quando encontro uma tabela baseada em HTML cheia de volumes. de dados aparentemente complexos e desconexos.
O fato é que as tabelas de dados são uma mina de ouro de verdades importantes. Os dados geralmente são coletados por exércitos de grunhidos de coleta de dados com botas no chão. Você tem pessoas do Censo dos EUA viajando por todo o país em busca de informações familiares e familiares. Você tem grupos ambientais sem fins lucrativos coletando todos os tipos de informações interessantes sobre o meio ambiente, a poluição, o aquecimento global e muito mais. E se você estiver no paranormal ou na Ufologia, há também tabelas de informações constantemente atualizadas sobre avistamentos de objetos estranhos no céu acima de nós.
Ironicamente, você pensaria que qualquer governo do mundo estaria interessado em saber que tipo de embarcações estrangeiras estão sendo vistas nos céus de qualquer país, mas aparentemente não - pelo menos não nos EUA de qualquer maneira. Nos Estados Unidos, a coleção de avistamentos incomuns de artesanato foi relegada a equipes de amadores amadores que migram para novos avistamentos de OVNIs como mariposas para uma chama. Meu interesse nessas aparições na verdade não provém de um fascínio por alienígenas ou ofícios de outros planetas, mas de um fascínio científico por padrões - onde e por que mais pessoas estão vendo coisas no céu, e se essas aparições poderiam refletir algo muito real e muito mais realista na verdade acontecendo.
Para explorar os volumes de dados coletados por equipes de entusiastas de OVNIs, desenvolvi uma maneira de importar grandes tabelas de dados HTML para uma planilha do Google e, depois, manipular e analisar esses dados para extrair e descobrir informações significativas e importantes. Neste artigo, pretendo mostrar a você como fazer o mesmo.
Dados HTML importantes na planilha do Google
Neste exemplo, mostrarei como importar dados da tabela em qualquer site da Internet para a planilha do Google. Pense no enorme volume de dados que está disponível na Internet atualmente na forma de tabelas HTML. A Wikipedia sozinha tem dados em tabelas para tópicos como o aquecimento global, o US Census Bureau tem toneladas de conjuntos de dados populacionais, e um pouco de Googling vai lhe trazer muito mais além disso.
No meu exemplo, eu estou começando com um banco de dados no National UFO Reporting Center que, na verdade, parece ser um banco de dados deep-web no estilo de consulta, mas se você observar a estruturação de URL, é na verdade um sem-complexo web. sistema de relatórios baseado em consistência de páginas da Web estáticas e tabelas HTML estáticas - exatamente o que queremos ao procurar dados para importar.
O NUForc.org é uma dessas organizações que serve como um dos maiores centros de informação para avistamentos de OVNIs. Não é o único, mas é grande o suficiente para encontrar novos conjuntos de dados com avistamentos atuais para cada mês. Você escolhe visualizar os dados classificados por critérios como Estado ou Data, e cada um deles é fornecido na forma de uma página estática. Se você classificar por data e, em seguida, clicar na data mais recente, verá que a tabela listada aqui é uma página da Web estática nomeada de acordo com o formato de data.
Então, agora temos um padrão para extrair regularmente as informações mais recentes sobre avistamentos desse banco de dados baseado em HTML. Tudo o que você precisa fazer é importar a primeira tabela, usar a entrada mais recente (a mais alta) para identificar a atualização mais recente e, em seguida, usar a data dessa postagem para criar o link da URL onde existe a tabela de dados HTML mais recente. Isso exigirá apenas algumas instâncias da função ImportHTML e alguns usos criativos das funções de manipulação de texto. Quando terminar, você terá uma das planilhas de relatórios mais atualizadas e atualizadas de sua preferência. Vamos começar.
Importando Tabelas e Manipulando Dados
O primeiro passo, claro, é criar a nova planilha.
Então, como você importa tabelas HTML? Tudo o que você precisa é o URL em que a tabela está armazenada e o número da tabela na página - geralmente o primeiro listado é 1, o segundo é 2 e assim por diante. Como eu sei o URL da primeira tabela listando as datas e as contagens de visões listadas, é possível importar digitando a seguinte função na célula A1.
= importhtml ("http://www.nuforc.org/webreports/ndxpost.html?" & H2, "tabela", 1)
H2 mantém a função “ = hour (now ()) “, então a tabela será atualizada a cada hora. Isso é provavelmente extremo para dados que atualizam isso com pouca frequência, então eu provavelmente poderia fazer isso todos os dias. De qualquer forma, a função ImportHTML acima traz a tabela como mostrado abaixo.
Você precisará fazer um pouco de manipulação de dados nesta página antes de poder juntar a URL para a segunda tabela com todos os avistamentos de OVNIs. Mas vá em frente e crie a segunda folha na pasta de trabalho.
Antes de tentar construir essa segunda planilha, é hora de extrair a data de postagem dessa primeira tabela, para construir o link para a segunda tabela. O problema é que a data é trazida como um formato de data, não uma string. Então, primeiro você precisa usar a função TEXT para converter a data de publicação do relatório em uma string:
= texto (A2, mm / dd / aa)
Na próxima célula à direita, você precisa usar a função SPLIT com o delimitador “/” para dividir a data em mês, dia e ano.
= split (D2, ”/”)
Parece bom! No entanto, cada número precisa ser forçado para dois dígitos. Você faz isso nas células logo abaixo deles usando o comando TEXT novamente.
= texto (E2, "00")
Um formato de "00" (esses são zeros) força dois dígitos ou um "0" como um espaço reservado.
Agora você está pronto para reconstruir o URL inteiro para a última tabela HTML de novos avistamentos. Você pode fazer isso usando a função CONCATENATE e reunindo todos os bits de informações que você acabou de extrair da primeira tabela.
= concatenar (“http://www.nuforc.org/webreports/ndxp”, G3, E3, F3, ”.html”)
Agora, na nova folha que você criou acima (a folha em branco), você vai fazer uma nova função "importhtml", mas desta vez para o primeiro parâmetro de link de URL, então você vai navegar de volta para a primeira planilha e clique na célula com o link da URL que você acabou de criar.
O segundo parâmetro é “table” e o último é “1” (porque a tabela de avistamentos é a primeira e somente na página). Aperte enter, e agora você acabou de importar todo o volume de aparições que foram postadas naquela data em particular.
Então, você provavelmente está pensando que isso é uma boa novidade e tudo mais - quero dizer, afinal de contas, o que você fez é extrair informações existentes de uma tabela na Internet e migrá-las para outra tabela, ainda que privada em sua tabela. Conta do Google Docs. Sim, é verdade. No entanto, agora que está na sua conta privada do Google Docs, você tem ao alcance das mãos as ferramentas e funções para analisar melhor esses dados e começar a descobrir conexões incríveis.
Usando relatórios dinâmicos para analisar dados importados
Recentemente, eu escrevi um artigo sobre o uso de relatórios dinâmicos no Google Spreadsheet Torne-se um analista de dados perito Overnight Usando o Google Spreadsheet Ferramentas de Relatório Torne-se um analista de dados Expert Overnight Usando o Google Spreadsheet Ferramentas de Relatório Você sabia que uma das maiores ferramentas de todos para conduzir dados análise é realmente o Google Spreadsheet? A razão para isso não é apenas porque ele pode fazer quase tudo que você pode querer ... Leia Mais para realizar todos os tipos de proezas legais de análise de dados. Bem, você pode fazer as mesmas acrobacias de análise de dados incríveis nos dados que importou da Internet - dando a você a capacidade de descobrir conexões interessantes que possivelmente ninguém mais descobriu antes de você.
Por exemplo, na tabela de avistamentos finais, eu poderia decidir usar um relatório dinâmico para examinar o número de diferentes formas exclusivas informadas em cada estado, comparado ao número total de avistamentos naquele estado em particular. Finalmente, eu também filtro qualquer coisa que mencione “alienígenas” na seção de comentários, para eliminar algumas das entradas mais faladas.
Isso realmente revela algumas coisas bastante interessantes logo de cara, como o fato de que a Califórnia tem claramente o maior número de avistamentos relatados de qualquer outro Estado, juntamente com a distinção de relatar o maior número de formas artesanais no país. Também mostra que Massachusetts, Flórida e Illinois também são grandes alvos no departamento de avistamentos de OVNIs (pelo menos nos dados mais recentes).
Outra coisa interessante sobre o Google Spreadsheet é a grande variedade de gráficos disponíveis para você, incluindo um Geo-Map que permite criar “pontos quentes” de dados em um formato gráfico que realmente se destaca e torna essas conexões dentro dos dados bastante óbvias.
Se você pensar sobre isso, isso é realmente apenas a ponta do iceberg. Se você puder importar dados de tabelas de dados em qualquer página da Internet, pense nas possibilidades. Obtenha os últimos números de ações, ou os 10 livros e autores mais recentes na lista de bestsellers do New York Times, ou os carros mais vendidos no mundo. Existem tabelas HTML em quase todos os tópicos que você possa imaginar e, em muitos casos, essas tabelas são atualizadas freqüentemente.
O ImportHtml permite que você conecte sua planilha do Google à Internet e se nutra dos dados existentes. Ele pode se tornar o seu centro pessoal de informações que você pode usar para manipular e massagear em um formato com o qual você possa realmente trabalhar. É apenas mais uma coisa muito legal de se adorar no Google Spreadsheet.
Você já importou dados para suas planilhas? Que tipo de coisas interessantes você descobriu nesses dados? Como você usou os dados? Compartilhe suas experiências e ideias na seção de comentários abaixo!
Créditos da Imagem: Gráfico de Negócios