Como o Image-to-Text funciona (também conhecido como Reconhecimento Óptico de Caracteres)

Propaganda

Extrair texto de imagens nunca foi tão fácil como hoje graças à tecnologia de reconhecimento ótico de caracteres (OCR).

OCR nos permite fazer todos os tipos de coisas úteis, como pesquisar imagens usando consultas de texto, reproduzir documentos sem digitá-los manualmente e até mesmo converter texto manuscrito em texto digital Como converter uma imagem com texto manuscrito usando OCR Como converter uma imagem com texto manuscrito usando o OCR Para converter uma imagem de texto manuscrito em texto digital que você pode editar e pesquisar, você precisa de uma ferramenta OCR (reconhecimento óptico de caracteres). Experimente uma destas ferramentas OCR para digitalizar manuscrito. Consulte Mais informação .

Mas o que é reconhecimento de caracteres ópticos? Como de fato, isso funciona? Pode parecer magia negra para você, mas até o final deste artigo, você terá uma sólida compreensão de como os computadores podem reconhecer letras e palavras.

Como funciona o reconhecimento óptico de caracteres

Para entender como o texto é extraído de uma imagem, primeiro precisamos entender quais imagens são e como elas são armazenadas nos computadores.

Um pixel é um único ponto de uma determinada cor. Uma imagem é essencialmente uma coleção de pixels. Quanto mais pixels em uma imagem, maior sua resolução. Um computador não sabe que uma imagem de uma placa de sinalização é realmente uma placa de sinalização - só sabe que o primeiro pixel é essa cor, o próximo pixel é essa cor e exibe todos os seus pixels para você ver.

Isso significa que texto e não-texto não são diferentes de um computador, e é por isso que o reconhecimento óptico de caracteres é muito difícil. Com isso em mente, veja como funciona.

Etapa 1: pré-processamento da imagem

Antes que o texto possa ser puxado, a imagem precisa ser massageada de certas maneiras para tornar a extração mais fácil e com maior probabilidade de sucesso. Isso é chamado de pré-processamento e diferentes soluções de software usam diferentes combinações de técnicas.

As técnicas de pré-processamento mais comuns incluem:

Binarização
Todos os pixels da imagem são convertidos em preto ou branco. O objetivo é deixar claro quais pixels pertencem ao texto e quais pixels pertencem ao plano de fundo, o que acelera o processo real de OCR.

Binarização para reconhecimento óptico de caracteres

Deskew
Como os documentos raramente são digitalizados com alinhamento perfeito, os caracteres podem ficar inclinados ou até de cabeça para baixo. O objetivo aqui é identificar linhas de texto horizontais e, em seguida, girar a imagem para que essas linhas sejam realmente horizontais.

Despeckle
Quer a imagem tenha sido binarizada ou não, pode haver ruído que possa interferir na identificação de caracteres. Despeckling se livrar desse ruído e tenta suavizar a imagem.

Remoção de linha
Identifica todas as linhas e marcações que provavelmente não são caracteres e, em seguida, as remove para que o processo real de OCR não fique confuso. É especialmente importante ao digitalizar documentos com tabelas e caixas.

Zoneamento
Separa a imagem em partes distintas do texto, como identificar colunas em documentos com várias colunas.

Zoneamento para reconhecimento óptico de caracteres — Crédito de imagem: WayneRay / Wikimedia

Etapa 2: Processando a imagem

Em primeiro lugar, o processo de OCR tenta estabelecer a linha de base para cada linha de texto na imagem (ou, se estiver zoneada no pré-processamento, funcionará em cada zona, uma de cada vez). Cada linha identificada de caracteres é manipulada um por um.

Para cada linha de caracteres, o software OCR identifica o espaçamento entre os caracteres procurando por linhas verticais de pixels sem texto (o que deve ser óbvio com a binarização adequada). Cada pedaço de pixels entre essas linhas que não são de texto é marcado como um "token" que representa um caractere. Por isso, essa etapa é chamada de tokenização .

Processamento de imagem para reconhecimento óptico de caracteres

Uma vez que todos os caracteres potenciais da imagem são tokenizados, o software OCR pode usar duas técnicas diferentes para identificar quais caracteres esses tokens realmente são:

Reconhecimento de padrões
Cada token é comparado pixel a pixel contra um conjunto inteiro de glifos conhecidos - incluindo números, pontuação e outros símbolos especiais - e a correspondência mais próxima é escolhida. Essa técnica também é conhecida como correspondência de matriz.

Existem vários inconvenientes aqui. Primeiro, os tokens e glifos precisam ser de tamanho similar ou nenhum deles corresponderá. Segundo, os tokens precisam estar em uma fonte semelhante aos glifos, o que exclui o manuscrito. Mas se a fonte do token é conhecida, o reconhecimento de padrões pode ser rápido e preciso.

Extração de recursos
Cada token é comparado com regras diferentes que descrevem o tipo de personagem que pode ser. Por exemplo, duas linhas verticais de altura igual conectadas por uma única linha horizontal provavelmente serão a capital H.

Essa técnica é útil porque não está limitada a determinadas fontes ou tamanhos. Também pode ser mais nuançado em reconhecer as diferenças sutis entre um I maiúsculo, um L minúsculo e o número 1. O lado negativo? Programar as regras é muito mais complexo do que simplesmente comparar os pixels em um token com os pixels de um glifo.

Etapa 3: pós-processamento da imagem

Uma vez que toda a correspondência de token tenha terminado, o software de OCR poderia apenas chamá-lo por dia e apresentar os resultados para você. Mas geralmente é preciso fazer um pouco mais de falsificação para garantir que você não está revirando os olhos com resultados sem sentido.

Restrição Lexical
Todas as palavras são comparadas com um léxico de palavras aprovadas, e quaisquer que não correspondam são substituídas pela palavra de ajuste mais próxima. Um dicionário é um exemplo de um léxico. Isso pode ajudar a corrigir palavras com caracteres errados, como "espinho" em vez de "th0rn".

Otimizações específicas de aplicativos
Quando o OCR é usado em configurações de nicho, como para documentos médicos ou legais, um tipo especial de OCR pode ser usado especialmente para essa configuração. Nestes casos, o software OCR pode procurar por equações matemáticas, termos específicos do setor, etc.

Linguagem Natural
Essa técnica avançada corrige sentenças usando um modelo de linguagem que descreve a probabilidade de determinadas palavras serem seguidas por outras palavras. É semelhante à tecnologia que prevê a palavra que você deseja digitar em um teclado móvel.

Quando bem feito, isso pode resultar em textos notavelmente legíveis.

Ferramentas recomendadas de reconhecimento óptico de caracteres

Agora que você sabe como funciona o OCR, deve ser fácil ver que nem todas as ferramentas OCR são iguais. A precisão de seus resultados dependerá muito de quão bem o software implementa as várias técnicas de OCR discutidas neste artigo.

É altamente recomendável o OneNote para isso, que é apenas uma das razões pelas quais ele bate o Evernote para anotações do Evernote vs. OneNote: Qual aplicativo de anotações é ideal para você? Evernote vs OneNote: Qual aplicativo para anotações é ideal para você? O Evernote e o OneNote são incríveis aplicativos de anotações. É difícil escolher entre os dois. Comparamos tudo, desde a interface até a organização da nota para ajudar você a escolher. O que funciona melhor para você? Consulte Mais informação . Se você estiver disposto a pagar por uma solução premium, considere o OmniPage. Veja nossa comparação do OneNote vs. OmniPage para software livre OCR vs. OID pago: Microsoft OneNote e Nuance OmniPage Software Comparado Gratuito versus Software OCR Pago: Microsoft OneNote e Nuance OmniPage O software de scanner OCR Comparado permite converter texto em imagens ou PDFs em texto editável documentos. Uma ferramenta gratuita de OCR como o OneNote é boa o suficiente? Vamos descobrir! Consulte Mais informação . Para documentos móveis, você vai querer verificar esses aplicativos OCR para dispositivos Android 6 Melhores Aplicativos Android OCR para extrair texto de imagens 6 Melhores Aplicativos Android OCR para extrair texto de imagens Você precisa digitalizar qualquer texto impresso para que você possa manter um cópia macia dele? Nesse caso, tudo o que você precisa é de uma ferramenta de reconhecimento ótico de caracteres (OCR). Consulte Mais informação .

Como você usa o OCR? Tem alguma ferramenta de OCR favorita que não mencionamos? Deixe-nos saber nos comentários abaixo!