Guilherme Pavarin, de INFO Online
SÃO PAULO – O Google tornou público
ontem o novo sistema de busca que
reconhece letras e números de
documentos escaneados na internet.
A responsável por isso é a
tecnologia Optical Character
Recognition (OCR), capaz de
converter uma imagem com partes
escritas em caracteres
convencionais.
Agora, documentos como os de formato
PDF poderão ter todo seu conteúdo
incluso nas buscas. A medida deverá
ser um adianto para quem quiser
encontrar comunicados oficiais
governamentais e artigos acadêmicos.
Como nem tudo é perfeito, um dos
problemas que podem ser encontrados
nas pesquisas, segundo Evin Levey,
gerente de produtos do Google, é a
confusão de caracteres: “Para as
pessoas que lêem esses documentos
escaneados, a distinção entre
palavras e figuras faz pouca
diferença, mas para um computador a
imagem é quase ininteligível.
Imagine um círculo. Deveria ser um
zero, a letra ‘O’, somente um
círculo ou a marca de copo de meu
café? Os computadores estão
propensos a errar”.