Filtros Externos

Los filtros externos pueden ser cualquier programa que acepte como parámetro en path absoluto al archivo a indexar y entreguen en el STDOUT el texto extraído de éstos.

A continuación, algunos ejemplos de filtros externos utilizados frecuentemente.

Filtro para indexar archivos PDF

Para este filtro se utiliza la herramienta pdftotext, disponible en sistemas *NIX

#!/bin/sh
# El primer argumento es el path del archivo a convertir.
# Mediante el parametro -l se limita la conversion a las primeras 10 paginas.
# La salida es a STDOUT.

/usr/X11R6/bin/pdftotext -l 10 $1 -

Filtro para indexar archivos DOC

Para este filtro se utiliza la herramienta catdoc, disponible en sistemas *NIX y Window.

#!/bin/sh

/usr/bin/catdoc $1

Filtro para indexar archivos XLS

Para este filtro se utiliza la herramienta xls2csv contenida en el paquete catdoc, disponible en sistemas *NIX y Windows. La idea es convertirlo a csv y luego quitarle los caracteres: " y ,

#!/bin/sh

/usr/bin/xls2csv $1 | sed -e 's/[","|",|,"]/ /g'