Estructura de Directorios

Los directorios donde se alojan las componentes del Buscador Prontus son los siguientes:

  • Programas

/cgi-bin # Directorio cgi público de Prontus (puede ser cgi-b10.14, etc)

prontus_search.cgi # CGI para realizar búsquedas.

/cgi-cpn # Directorio cgi privado de Prontus (puede ser cgi-p10.14, etc)

prontus_indexer.cgi # Programa de indexación.

lib_search.pm # Biblioteca de rutinas del Buscador Prontus

# (debe incluirse si el código no es compilado).

  • Archivo de Configuración

/<directorio prontus>/cpan/buscador_prontus.cfg (Ver explicación en punto 7.5)

  • Indices

/<directorio prontus>/cpan/data/search

raw/0000 # Indice de archivos arbitrarios.

url/0000 # Indice de archivos obtenidos vía spider.

<dir prontus>/aaaa # Indice del año aaaa del prontus <dir prontus>.

...

Se crea un nuevo índice cada año para evitar que éste crezca en forma descontrolada. Para sitios con mucho contenido (20.000 artículos al año) indexar un año completo puede requerir hasta 100 MB disponibles en RAM.

  • Archivo Semáforo

/<directorio prontus>/cpan/data/search

semaforo.txt # Archivo semáforo.

El semáforo impide la ejecución de más de una copia del indexador para una misma instancia de Prontus, sin embargo, si el archivo es más antiguo que 12 horas, entonces es descartado. Así se impide un deadlock en caso de que la ejecución del indexador sea abortada por alguna razón y no se alcance a borrar el archivo semáforo.

  • Plantillas

/<directorio prontus>/plantillas/extra/search/pags

search.html # Plantilla por defecto.

<nombre>.html # Otra plantilla.

...

La plantilla a utilizar se especifica dentro de los parámetros de invocación del buscador. Puede haber tantas plantillas como sea necesario.

  • Páginas de resultado

/<directorio prontus>/site/cache/search/pags

search.html # Plantilla por defecto.

<nombre>.html # Otra plantilla.

La página de resultado se escriben en este directorio y el browser del usuario se dirige para leerla desde ahí mediante un header Location.
Los nombres de estos archivos tienen la forma:

'search' . <tiempo Unix (segundos)> . <número de proceso> . <extension>

La extensión es la misma que la plantilla.
Cada vez que se hace una búsqueda, se borran de este directorio los archivos con más de 5 minutos de antigüedad.