Reconhecimento Óptico de Caracteres (OCR) refere-se a uma tecnologia de software e processos que envolvem a tradução de texto impresso em computador texto pesquisável.
Feito corretamente, OCR permite aos usuários pesquisar e recuperar palavras individuais contidos em um arquivo ou página. Além disso, quando um conjunto de arquivos é indexado, os usuários são capazes de procurar por palavras-chave em uma biblioteca documento inteiro e recuperar cada página com precisão exata. OCR permite aos usuários executar buscas em segundos, as buscas que uma vez que poderia demorar várias horas ou dias para ser concluído.
No entanto, esta tecnologia não funcionar bem em documentos de qualidade mais velhas ou pobres que continham fontes mistas ou combinações de textos e gráficos. Até agora!
Devido a vários avanços tecnológicos recentes, é agora possível obter seis sigma precisão personagem nível destes tipos de coleções de documentos.
Embora seja importante ter em mente que a qualidade ea condição de os documentos em papel ainda são fatores-chave na conversão OCR sucesso, resultados dramaticamente melhorados podem ser obtidas através do reforço da qualidade da imagem digitalizada antes do processamento.
Remoção de ruído das fronteiras, mosqueado e distorce são agora comuns na scanners de documentos mais avançados.
Além disso, tecnologias avançadas de cor filtro pode ser usado para reduzir todas as cores de fundo da página, em conjunto com multi-luz de tecnologias de captura de imagem para remover quaisquer sombras de vincos página que poderiam afetar a qualidade da imagem ou precisão do reconhecimento.
Uma vez que a digitalização de documentos e processamento são completos, uma camada de texto OCR pode realmente ser adicionados e escondido por trás de cada imagem. Um filtro de orientação adicional pode ser usado para garantir que a melhor imagem é apresentada para os motores de OCR.
Para alcançar a maior precisão possível conversão, os caracteres na imagem podem ser processados usando tecnologias de multi-motor de OCR voto que a classificação de cada personagem para determinar o melhor ajuste de reconhecimento de texto. Então uma vez que uma palavra é gerado, ele vai ser filtrada através de um léxico de propriedade para garantir os resultados mais alta qualidade.
os mais avançados scanners de documentos.Além disso, tecnologias avançadas de cor filtro pode ser usado para reduzir todas as cores de fundo da página, em conjunto com multi-luz de tecnologias de captura de imagem para remover quaisquer sombras de vincos página que poderiam afetar a qualidade da imagem ou precisão do reconhecimento.
Uma vez que a digitalização de documentos e processamento são completos, uma camada de texto OCR pode realmente ser adicionados e escondido por trás de cada imagem. Um filtro de orientação adicional pode ser usado para garantir que a melhor imagem é apresentada para os motores de OCR.
Para alcançar a maior precisão possível conversão, os caracteres na imagem podem ser processados usando tecnologias de multi-motor de OCR voto que a classificação de cada personagem para determinar o melhor ajuste de reconhecimento de texto. Então uma vez que uma palavra é gerado, ele vai ser filtrada através de um léxico de propriedade para garantir os resultados mais alta qualidade.
No comments:
Post a Comment