FECHAR ✕
Obrigado por nos visitar! Informe seus dados e que tipo de informação deseja que entraremos em contato.

Obrigado! Mensagem enviada!

Oops! Something went wrong while submitting the form

OCR e digitalização de documentos

Ribermídia - Gestão da Informação
|
Digitalização de documentos
|
15/8/2017

Automatizar a indexação de documentos digitalizados

Parece ser uma tendência social e, consequentemente, de mercado, a ampla divulgação de novas tecnologias ou processos como as soluções ideais ou como ferramentas que irão tornar obsoletos todos os processos e tecnologias anteriores. É claro que novas tecnologias que se mostrem eficazes nos farão avaliar as tecnologias que às precederam. Todavia, isto não é garantia de que uma ferramenta nova se mostrará, no decorrer do seu uso, algo tão eficaz que torne a tecnologia anterior descartável. Pelo menos não de imediato. Em geral, a tendência é a utilização combinada de processos até que o desenvolvimento destes apresente dados que apontem para a possibilidade de substituição ou de surgimento de uma tecnologia híbrida.

Reconhecimento ótico de caracteres não é algo novo. Seu desenvolvimento data de décadas atrás, algumas pesquisas remontam aos anos 50. No entanto, esta ferramenta passa a ganhar espaço após um conjunto de fatores, entre eles: a popularização dos computadores, o uso cada vez mais frequente da Internet, o surgimento de empresas especializadas em digitalização de documentos, o aparecimento de softwares e aplicativos voltados para a gestão eletrônica de dados e documentos, etc.

Há, consequentemente, uma relação muito forte entre a proposta da tecnologia OCR e os serviços de digitalização de documentos. A proposta da tecnologia OCR é reconhecer caracteres em um documento enquanto este ainda é uma imagem e tornar estes caracteres rastreáveis. Metaforicamente, é como se o seu escâner ou aplicativo soubesse ler e reescrever, eletronicamente, todo o conteúdo de um documento. São muitas as vantagens de uma tecnologia que tenha isto a oferecer: reproduzir em formato eletrônico cópias de documentos que você tem apenas em formato de imagem; reduzir o tempo e a mão de obra necessários para indexar documentos cujo formato digitalizado é somente imagem; tornar o conteúdo de documentos digitalizados rastreável quase que automaticamente, após a digitalização, e por aí vai. É quase sempre desta forma que o reconhecimento ótico de caracteres é oferecido e compreendido pelo usuário final, como uma tecnologia milagrosa.

Carta manuscrita
Carta manuscrita - caracteres de difícil reconhecimento

Acontece que, como toda nova tecnologia, existem limitações. Nem todo tipo de caractere é facilmente identificado através do reconhecimento ótico de caracteres. Existem claras diferenças, por exemplo, entre textos digitados e textos manuscritos. E, entre os manuscritos, a variação de formato de caracteres é muito grande. Mesmo que consideremos apenas documentos cujo conteúdo foi datilografado ou digitado através de um software de edição de texto e, portanto, seus caracteres seguem um padrão mais uniforme do que um texto manuscrito, devemos considerar que existem diversas fontes, com diferentes formatos e que o documento é passível de desgaste e perda de material impresso, além da possibilidade de encontrarmos documentos com carimbos e inscrições que se sobrepõem ao texto originalmente impresso. Tudo isto pode dificultar ou tornar inviável ou não confiável a produção de informações através de OCR.

OCR torna-se um processo eficaz, com capacidade de reduzir o tempo de indexação de documentos e de produzir dados eletrônicos confiáveis, se utilizado em processos específicos de digitalização de documentos. Formulários cujos dados impressos são padronizados e que permitem uma segunda etapa de validação podem gerar cases de sucesso onde esta tecnologia possibilita a implementação de serviços de digitalização a custos menores, com menor tempo de produção e ótimos resultados. Mas, como sempre, digitalizar não é simplesmente pensar em como transformar um documento físico em digital, é preciso planejar todas as etapas e variáveis de cada contexto de gestão documental. OCR pode ser uma ótima opção, dependendo da situação que se apresentar e dos recursos que estiverem disponíveis.

Postagens recentes