Se você quiser converter qualquer texto impresso em texto digital que possa copiar, colar, editar e pesquisar, será necessário usar scanners de OCR (Optical Character Recognition).
Quando você escolhe digitalizar ou tirar uma foto de um documento, ele será salvo em um formato como JPEG ou PDF. O software OCR pode então reconhecer as letras e números dentro desses documentos e convertê-los em um PDF pesquisável. 4 Métodos para criar e editar arquivos PDF para 4 métodos gratuitos para criar e editar arquivos PDF para liberar todos os tipos de arquivos comuns encontrados em nosso No mundo da computação, o PDF é provavelmente um dos mais restritivos, ao mesmo tempo em que está disponível para todos usarem (principalmente para ler) .... Leia Mais, ou em um arquivo que você pode editar em programas como o Microsoft Word.
O problema é que alguns scanners OCR funcionam muito melhor do que outros, com o melhor sendo muito pesado na carteira.
Omnipage18, por exemplo, custa US $ 150, mas é especialmente bom em reconhecer idiomas diferentes. O Adobe Acrobat Pro DC custa US $ 400, mas tem incrível precisão. O ABBYY FineReader custa US $ 150, mas é fantástico na conversão de documentos, como revistas e folhetos, em texto pesquisável. Nós estaremos testando a oferta online da ABBYY mais adiante neste artigo.
No entanto, se você está atrás de alternativas gratuitas que você pode baixar e usar no Windows ou OS X, você deve experimentar estas ferramentas OCR As 5 melhores ferramentas de OCR para extrair texto de imagens As 5 melhores ferramentas de OCR para extrair texto de imagens Como resmas de papel, como você consegue converter todo o texto impresso em algo que um programa digital será capaz de reconhecer e indexar? Mantenha um bom software de OCR por perto. Consulte Mais informação . Mas se você preferir usar uma ferramenta de OCR gratuita e on-line, continue lendo, conforme experimentamos os melhores, com os resultados abaixo.
O teste
Parece que a maioria das pessoas agora usa seus smartphones para fazer a digitalização deles Digitalize e gerencie seus recibos, economize espaço, papel e tempo Digitalize e gerencie seus recibos, economize espaço, papel e tempo Recibos de papel são facilmente perdidos e difíceis de encontrar quando você precisa deles a maioria. Felizmente, ir digital resolve esses dois problemas. Leia mais, decidi usar o aplicativo Scannable do Evernote (gratuito no iOS e Android). Examinei a primeira página de Climbing Mount Improbable, de Richard Dawkin, para ver os resultados que poderíamos obter com uma formatação muito básica. Eu também escaneei uma página do The 4-Hour Chef de Tim Ferriss para testar os scanners com alguma formatação um pouco mais complicada. Salvei cada um desses arquivos como PDF.
Esses documentos foram executados por meio de algumas das supostamente melhores ferramentas de OCR on-line para ver o desempenho delas.
OCR on-line gratuito
Felizmente, não é necessário registro para usar o OCR on-line gratuito. E fiquei duplamente impressionado quando vi a reivindicação de manter a formatação e o layout do meu documento.
O site afirma ser capaz de suportar PDF, GIF, BMP, JPEG, TIFF e PNG como entrada. As saídas podem ser DOC, um documento de texto em PDF, RTF e TXT. Infelizmente, não consegui descobrir se eles tinham um limite de tamanho de arquivo.
Documento Básico para PDF
Convertido absolutamente perfeitamente. Não há muito mais a dizer! Nós começamos muito bem.
Documento Básico para DOC
As palavras reais parecem ter se convertido de forma impecável, além do “ount” do “Monte Rushmore” de alguma forma indo para o AWOL. A formatação é uma história diferente, no entanto. Muitas vírgulas foram substituídas por sublinhados e espaços aleatórios foram inseridos em pontos ao longo do documento. Mais tarde, quando você ver como o software premium se saiu nesse teste, isso não é um esforço ruim.
Documento Complexo para PDF
A conversão do documento levou uns impressionantes 120 segundos! Depois de concluído, todo o texto foi convertido com precisão de cerca de 95%, embora o texto na caixa separada no canto superior direito da página não pudesse ser pesquisado. Alguns outros caracteres em todo o PDF também estavam incorretos.
Documento Complexo para DOC
Desta vez, a conversão levou apenas 10 segundos, com o texto novamente convertido com cerca de 95% de precisão. Houve alguns problemas estranhos de espaçamento, e o software teve problemas para converter a fonte no canto superior direito do documento e perdeu alguns caracteres aqui e ali.
Veredito
Se você deseja converter documentos formatados em PDF, esta é uma ferramenta fantástica. Em termos de conversão para o DOC, os resultados não foram nada para se escrever.
i2OCR
O i2OCR faz algumas afirmações impressionantes. A ferramenta reconhece mais de 60 idiomas, pode manipular layouts com várias colunas (removendo a formatação), não tem limites de tamanho de arquivo, pode converter arquivos enviados e de URLs. E você não precisa se registrar para usar essa ferramenta também.
O serviço funciona simplesmente extraindo o texto de sua imagem e, em seguida, produzindo texto não formatado. Você pode corrigir rapidamente quaisquer erros na visualização lado a lado, antes de copiar o texto para outros programas ou fazer o download como DOC, PDF ou HTML.
Nota: quando eu tentei carregar meus documentos PDF, eles foram rejeitados pelo i2OCR, então eu precisei convertê-los em JPEG (pegando uma captura de tela deles e, em seguida, carregando os arquivos).
Documento Básico para Texto Simples
Devido à forma como esta ferramenta funciona, toda a formatação é perdida, embora a conversão de imagem para texto tenha sido quase perfeita. Houve alguns pequenos erros, como o espaçamento entre parágrafos, e algumas vírgulas foram substituídas por pontos, mas essas são pequenas imperfeições.
Documento complexo para texto simples
A maior parte do texto foi convertida sem muitos erros, além do título e da receita no canto superior direito, que era ilegível para essa ferramenta. A maneira como as colunas foram convertidas em texto simples estava longe de ser ideal. Se você quiser tornar essa conversão viável, será necessário muito tempo para reorganizar as linhas em sentenças coerentes.
Veredito
Para documentos básicos, o i2OCR funciona muito bem. A capacidade de editar o texto antes de baixar também é um toque muito bom. No entanto, para documentos mais complexos, a conversão ainda é bastante precisa, mas a forma como o texto é produzido não facilitará muito a sua vida.
Online OCR
O Online OCR atualmente suporta 46 idiomas diferentes e pode converter PDF, JPG, BMP, TIFF e GIF em formato Word, Excel ou Plain Text. O site afirma que “documentos convertidos são exatamente iguais aos originais - tabelas, colunas e gráficos”.
A versão que você pode usar sem registrar permite converter até 15 imagens por hora (limite de 5MB). Se você se inscrever para uma conta, poderá comprar mais páginas além desse limite, além de poder também converter documentos de várias páginas e arquivos ZIP.
Documento Básico para DOC
O documento básico convertido sem falhas para além do numeral romano , não sendo escolhido. Como o site prometeu, a formatação foi exatamente como no livro. Parabéns a esta ferramenta.
Documento Complexo para DOC
Depois de ficar desapontado com as ferramentas anteriores de OCR na conversão do documento complexo, fiquei impressionado com o Online OCR. O layout estava quase perfeito, como você pode ver acima. Mais uma vez, porém, a receita não foi bem recebida, mas quaisquer outros pequenos erros foram insignificantes.
Veredito
Resultados absolutamente fantásticos do Online OCR. A única desvantagem que vejo é que não há como baixar os documentos convertidos como PDFs, pois os formatos de saída mencionados incluem apenas DOCX, XLSX e TXT.
ABBYY FineReader Online (versão de 10 páginas)
Como mencionado anteriormente, a ABBYY é uma das líderes de mercado em software de OCR, custando cerca de US $ 150 por seu programa completo, que pode ser baixado. Eles oferecem um teste gratuito de 10 páginas para sua ferramenta on-line, embora (o registro é obrigatório). Para uma assinatura de US $ 5, sua ferramenta on-line permitirá que você converta 200 páginas por mês.
Os arquivos aceitos podem ter até 100 MB, em qualquer um desses formatos: PDF, JPG, JPEG, TIF, TIFF, PCX, DCX, BMP e PNG. A ABBYY também reconhece quase 200 idiomas. As saídas são especialmente impressionantes, com uma escolha entre DOCX, XLSX, RTF, TXT, PPTX, ODT, PDF, FB2 e EPUB.
Você pode até experimentar alguns recursos BETA durante sua avaliação. A primeira é a opção de traduzir seu documento para outro idioma. A outra é exportar seu documento convertido para sua conta de armazenamento em nuvem, seja o Dropbox, o Google Drive, o Evernote, o Microsoft OneDrive ou o Box.
Documento Básico para DOCX
Os resultados gerais foram bons, mas não surpreendentes, considerando que este é um produto premium. Várias vírgulas e pontos foram trocados, várias aspas foram substituídas por um asterisco, duas letras maiúsculas foram perdidas e uma palavra (literalista) foi grafada incorretamente.
Documento Complexo para DOCX
Uma vez convertidas, havia muito poucas falhas no texto dentro do documento (além do OCR lutando com a fonte da receita novamente!), Mas a formatação deixava muito a desejar.
As três colunas de alguma forma ocuparam duas páginas, com a coluna central aparecendo apenas na segunda página. Se você quisesse realmente fazer algo com esse documento convertido, acabaria arrancando os cabelos.
Documento Básico para PDF
Ao revisar o PDF convertido, não consegui encontrar nenhuma falha. Talvez tenhamos encontrado onde a ABBYY se destaca. Resultados fantásticos.
Documento Complexo para PDF
Mais uma vez, não encontrei nenhum erro nesse arquivo convertido. A ABBYY obviamente sabe como converter para PDF excepcionalmente bem.
Veredito
Se você está feliz em pagar alguns dólares, a conversão para PDF parece funcionar fenomenalmente bem com esse serviço, e a possibilidade de sincronizar arquivos convertidos com o armazenamento em nuvem é especialmente útil se você estiver digitalizando um grande volume de documentos. Como com as outras opções, porém, a ABBYY ainda não descobriu como converter documentos no DOC para edição fácil.
O resultado final
Se, como a maioria das pessoas, você só estiver procurando digitalizar alguns artigos de revistas e algumas contas domésticas, não precisará editar esses documentos. Portanto, a conversão direta para um PDF será adequada para você, porque você ainda poderá pesquisar esses documentos. Para isso, o Free Online OCR foi definitivamente a melhor ferramenta gratuita que testamos. Dito isto, se você estiver disposto a pagar US $ 5 por mês por quase perfeição, o FineReader Online da ABBYY foi um pouco mais preciso.
Quando se trata de converter documentos para o DOC, não conseguimos encontrar nenhuma solução perfeita, mas os melhores resultados vieram do Online OCR. A conversão não foi perfeita, mas a integridade da formatação foi mantida intacta e os erros foram insignificantes. Quando comparamos esses resultados com a oferta “premium” da ABBYY, você não pode deixar de ficar imensamente impressionado.
Não incluímos os recursos de OCR do Google Drive nesta postagem. um pouco para o everywhereness do Google, mas mais para o fato de que queríamos testar alguns outros serviços de OCR on-line gratuitos lá fora.
Para você: Quais outras ferramentas OCR online você recomendaria para nossos leitores? E qual você já tentou que nunca mais usaria?