ArchivistaBox 2008/IX: el primer reconocimiento de texto de código abierto con archivos PDF para búsqueda


22 de Septiembre de 2008

Con el lanzamiento de su ArchivistaBox 2008/IX, Archivista, una compañía suiza de software de código abierto, ha publicado el único software de reconocimiento de texto de código abierto mundial que crea archivos PDF con opción de búsqueda.

PFAFFHAUSEN, Suiza, September 21 /PRNewswire/ -- Con el lanzamiento de su ArchivistaBox 2008/IX, Archivista, una compañía
suiza de software de código abierto, ha publicado el único software de reconocimiento de texto de código abierto mundial que crea archivos PDF conopción de búsqueda.

La mayoría del reconocimiento de texto actual o programas OCR
(reconocimiento de caracteres ópticos) opera sólo en sistemas Windows y puede adquirirse a precios de unos 100 euros en adelante. Sin embargo, cuando tienen que procesarse miles o millones de páginas, se requieren costosaslicencias por volumen que se basan en el precio por página escaneada.

ArchivistaBox es un sistema de gestión de documentos (DMS) web, que puede instalarse en cada equipo disponible comercialmente. Según el hardwareutilizado, el volumen de páginas procesado puede variar entre varios miles avarios millones de páginas al día.

El lanzamiento de 2008/IX marca el lanzamiento del primer sistema de reconocimiento de texto de código abierto que es capaz de generar archivos PDF procedentes de páginas escaneadas con opción de búsqueda. Más de 20idiomas están disponibles y la calidad de reconocimiento es comparable con lade los sistemas comerciales (>99 por ciento).

Los archivos PDF generados con ArchivistaBox se almacenan en una base de datos de Archivista y se indexan automáticamente, permitiendo la consulta de todo el documento completo. Los documentos escaneados pueden recuperarse con un navegador web en cualquier momento. Los datos sensibles pueden encriptarse antes de estar disponibles. Si es necesario, archivistaBox puede crearpublicaciones en DVD completas.

El 100 % del código fuente utilizado en ArchivistaBox viene dentro de la licencia GPLv2. Los motores OCR de Tesseract (incluyendo reconocimiento de fractura/letra negra) y el puerto Linux de Cuneiform (licencia BSD) se utilizan para el reconocimiento de texto. El módulo hocr2pdf (consultahttp://www.exactcode.de) se utiliza para generar archivos PDF con opciones de búsqueda.

Noticia en Bols@manía