Como funcionam os mecanismos de pesquisa?

Para muitas pessoas, o Google é a internet. É sem dúvida a invenção mais importante desde a própria Internet. E, embora os mecanismos de pesquisa tenham mudado muito desde então, os princípios subjacentes ainda são os mesmos.

Para muitas pessoas, o Google é a internet.  É sem dúvida a invenção mais importante desde a própria Internet.  E, embora os mecanismos de pesquisa tenham mudado muito desde então, os princípios subjacentes ainda são os mesmos.
Propaganda

Artigo atualizado por Joel Lee em 10/10/2017

Desbloqueie a folha de dicas "Top Atalhos de teclado da Pesquisa do Google" agora!

Isso irá inscrever você no nosso boletim informativo

Digite seu e-mail Desbloquear Leia nossa política de privacidade

Para muitos, o Google é a internet. É o ponto de partida para encontrar novos sites, e é sem dúvida a invenção mais importante desde a própria internet. Sem mecanismos de pesquisa, o novo conteúdo da Web seria inacessível para as massas.

Mas você sabe como funcionam os mecanismos de pesquisa? Cada mecanismo de pesquisa tem três funções principais: rastreamento (para descobrir conteúdo), indexação (para rastrear e armazenar conteúdo) e recuperação (para buscar conteúdo relevante quando os usuários consultam o mecanismo de pesquisa).

Rastejando

O rastreamento é onde tudo começa: a aquisição de dados sobre um site.

Isso envolve a varredura de sites e a coleta de detalhes sobre cada página: títulos, imagens, palavras-chave, outras páginas vinculadas, etc. Diferentes rastreadores também podem procurar por detalhes diferentes, como layouts de página, onde os anúncios são colocados, se os links estão cheios, etc.

Mas como um site é rastreado? Um bot automatizado (chamado de "spider") visita página após página o mais rápido possível, usando links de páginas para encontrar onde ir em seguida. Mesmo nos primeiros dias, as aranhas do Google podiam ler várias centenas de páginas por segundo. Hoje em dia, está nos milhares.

Como funcionam os mecanismos de pesquisa? diagrama de rastreador da web

Quando um rastreador da web visita uma página, ele coleta todos os links da página e os adiciona à lista de próximas páginas a serem visitadas. Ele vai para a próxima página em sua lista, coleta os links nessa página e repete. Os rastreadores da Web também revisitam páginas antigas de vez em quando para ver se alguma alteração ocorreu.

Isso significa que qualquer site vinculado de um site indexado será eventualmente rastreado. Alguns sites são rastreados com mais frequência e alguns são rastreados até maiores profundidades, mas às vezes um rastreador pode desistir se a hierarquia de páginas de um site for muito complexa.

Uma maneira de entender como um rastreador da Web funciona é construir você mesmo. Nós escrevemos um tutorial sobre a criação de um rastreador web básico em PHP, então verifique se você tem alguma experiência de programação.

Como funcionam os mecanismos de pesquisa? pesquisa do google sobre tablet

Observe que as páginas podem ser marcadas como "noindex", o que é como pedir que os mecanismos de pesquisa ignorem sua indexação. As partes não indexadas da Internet são conhecidas como “deep web” O que é a Deep Web? É mais importante do que você pensa O que é a Deep Web? É mais importante do que você imagina A deep web e a dark web são assustadoras e nefastas, mas os perigos foram exagerados. Aqui está o que eles realmente e como você pode acessá-los você mesmo! Leia mais, e alguns sites, como aqueles hospedados na rede TOR, não podem ser indexados pelos mecanismos de pesquisa. (O que é roteamento de cebola e TOR? O que é roteamento de cebola, exatamente? [MakeUseOf explica] O que é roteamento de cebola, exatamente? [MakeUseOf explica] Privacidade na Internet O anonimato foi uma das maiores características da Internet em sua juventude. suas piores características, dependendo de quem você pergunta) Deixando de lado os tipos de problemas que surgem ... Leia mais)

Indexação

A indexação é quando os dados de um rastreamento são processados ​​e colocados em um banco de dados.

Imagine fazer uma lista de todos os livros que você possui, seus editores, seus autores, seus gêneros, suas contagens de páginas, etc. O rastreamento é quando você vasculha cada livro enquanto a indexação é feita quando você os registra em sua lista.

Agora imagine que não é apenas uma sala cheia de livros, mas todas as bibliotecas do mundo. Essa é uma versão em pequena escala do que o Google faz, que armazena todos esses dados em vastos datacenters com milhares de petabytes que valem drives. Tamanhos de memória explicados - Gigabytes, terabytes e petabytes em termos de Layman Tamanhos de memória explicados - Gigabytes, terabytes e petabytes em Termos do leigo É fácil ver que 500 GB é mais do que 100 GB. Mas como os diferentes tamanhos se comparam? O que é um gigabyte para um terabyte? Onde um petabyte se encaixa? Vamos esclarecer! Consulte Mais informação .

Aqui está uma prévia de um dos data centers de pesquisa do Google:

Como funcionam os mecanismos de pesquisa? centros de dados da pesquisa do google
Crédito de imagem: Google

Recuperação e Ranking

Recuperação é quando o mecanismo de pesquisa processa sua consulta de pesquisa e retorna as páginas mais relevantes que correspondem à sua consulta.

A maioria dos mecanismos de pesquisa se diferencia por meio de seus métodos de recuperação: eles usam critérios diferentes para escolher quais páginas se encaixam melhor naquilo que você deseja encontrar. É por isso que os resultados de pesquisa variam entre o Google e o Bing, e por que o Wolfram Alpha é tão útil 10 Usos legais do Wolfram Alpha Se você ler e escrever no idioma inglês 10 Usos legais do Wolfram Alpha Se você ler e escrever no idioma inglês me algum tempo para envolver minha cabeça em torno do Wolfram Alpha e as consultas que ele usa para divulgar esses resultados. Você tem que mergulhar fundo no Wolfram Alpha para realmente explorá-lo para ... Leia Mais.

Os algoritmos de classificação verificam sua consulta de pesquisa em bilhões de páginas para determinar a relevância de cada um. As empresas guardam seus algoritmos de classificação como segredos industriais patenteados devido à sua complexidade. Um algoritmo melhor se traduz em uma melhor experiência de pesquisa.

Eles também não querem que os criadores da Web joguem o sistema e subam injustamente até o topo dos resultados de pesquisa. Se a metodologia interna de um mecanismo de busca fosse divulgada, todos os tipos de pessoas certamente explorariam esse conhecimento em detrimento de pesquisadores como você e eu.

Como funcionam os mecanismos de pesquisa? pen html search engine meta
Crédito de imagem: photovibes via Shutterstock

A exploração de mecanismos de busca é possível, é claro, mas não é mais tão fácil.

Originalmente, os mecanismos de pesquisa classificavam os sites de acordo com a frequência com que as palavras-chave apareciam em uma página, o que levava ao "preenchimento de palavras-chave", preenchendo páginas com bobagens pesadas por palavras-chave.

Em seguida, surgiu o conceito de importância do link: os mecanismos de pesquisa valorizavam os sites com muitos links de entrada porque interpretavam a popularidade do site como relevante. Mas isso levou a vincular spam em toda a web. Hoje em dia, os mecanismos de busca pesam os links dependendo da “autoridade” do site de links. Os mecanismos de pesquisa valorizam mais os links de uma agência do governo do que os links de um diretório de links.

Hoje, os algoritmos de classificação estão envoltos em mais mistério do que nunca, e "Search Engine Optimization" Demystify SEO: 5 Guias Search Engine Optimization que ajudarão você a começar Demystify SEO: 5 Search Engine Optimization Guias que ajudam a começar e muita tentativa e erro. Você pode começar a aprender os fundamentos e evitar erros comuns de SEO facilmente com a ajuda de muitos guias de SEO disponíveis na Web. Leia mais não é tão importante. Os bons rankings dos mecanismos de busca agora vêm de conteúdo de alta qualidade e ótimas experiências do usuário.

O que vem por aí para os motores de busca?

Ah, agora há uma questão interessante. A resposta é “semântica”: o significado do conteúdo da página. Você pode ler mais sobre a nossa visão geral de marcação semântica e seu impacto futuro O que é o markup semântico e como ele mudará a Internet para sempre [tecnologia explicada] O que é a marcação semântica e como ela mudará a Internet para sempre [tecnologia explicada] Leia mais.

Mas aqui está a essência disso.

Agora, você pode procurar por “cookies sem glúten”, mas os resultados podem retornar receitas para cookies sem glúten. Em vez disso, você pode encontrar receitas regulares de cookies que dizem "Esta receita não é isenta de glúten". Ela tem as palavras corretas, mas o significado errado.

Com a semântica, você pode procurar por receitas de cookies e depois remover certos ingredientes: farinha, nozes, etc. Você também pode restringir os resultados a apenas receitas com tempos de preparação inferiores a 30 minutos e avaliar pontuações de 4/5 ou mais. Isso seria legal, certo? É para onde estamos indo!

Ainda confuso sobre como funcionam os mecanismos de pesquisa? Veja como o Google explica o processo:

Se você achou isso interessante, talvez também goste de aprender como funcionam os mecanismos de pesquisa de imagens .

Crédito da imagem: prykhodov / Depositphotos

In this article