Filtros Externos
Los filtros externos pueden ser cualquier programa que acepte como parámetro en path absoluto al archivo a indexar y entreguen en el STDOUT el texto extraído de éstos.
A continuación, algunos ejemplos de filtros externos utilizados frecuentemente.
Para este filtro se utiliza la herramienta pdftotext, disponible en sistemas *NIX
#!/bin/sh
# El primer argumento es el path del archivo a convertir.
# Mediante el parametro -l se limita la conversion a las primeras 10 paginas.
# La salida es a STDOUT.
/usr/X11R6/bin/pdftotext -l 10 $1 -
Para este filtro se utiliza la herramienta catdoc, disponible en sistemas *NIX y Window.
#!/bin/sh
/usr/bin/catdoc $1
Para este filtro se utiliza la herramienta xls2csv contenida en el paquete catdoc, disponible en sistemas *NIX y Windows. La idea es convertirlo a csv y luego quitarle los caracteres: " y ,
#!/bin/sh
/usr/bin/xls2csv $1 | sed -e 's/[","|",|,"]/ /g'