Archivo de Configuración

 

El archivo de configuración del Buscador Prontus (buscador_prontus.cfg) se encuentra dentro del directorio cpan (panel de control) y en él se definen los siguientes parámetros:

PRONTUS_DIR_i

Directorios de otros Prontus a Indexar (i = 1, 2, 3,...), aparte del directorio de la instancia de Prontus donde el buscador ha sido activado.

Ejemplo

PRONTUS_DIR_1 = /prontus_reportajes

PRONTUS_DIR_2 = /prontus_noticias

RAW_DIR_i

Directorios arbitrarios a indexar (i = 1, 2, 3,...). Estos directorios serán indexados dentro de un mismo índice, denominado "RAW".

Ejemplo

RAW_DIR_1 = /historia

RAW_DIR_2 = /planetas/tierra

RAW_FILETYPES

Tipos de archivos arbitrarios a indexar, separados por espacios.

Ejemplo

RAW_FILETYPES = htm html shtml asp php

URL_FILETYPES

Tipos de URLs a Indexar en modalidad spider, separados por espacios.

Ademas de éstos, se indexan los directorios (/) y urls que terminan en un string sin puntos.

Ejemplo

URL_FILETYPES = html htm shtml php asp jsp

 

URL_MAXPAGS

Máximo de páginas a indexar en modalidad spider.

Este límite es importante, porque en modalidad spider podría intentarse indexar un sitio demasiado grande.
Ejemplo

URL_MAXPAGS = 100

 

URL_DIR_i

URLs a indexar en modalidad spider. Estos son los "puntos de partida" para el robot que recorrerá el sitio externo.
Ejemplo

URL_DIR_1 = http://www.nic.cl/

 

URL_SCOPE_i

Límite asociado al punto de partida "i".
Esto permite acotar la búsqueda a subdirectorios dentro del URL inicial, para indexar sólo una parte del sitio web.

Ejemplo

URL_SCOPE_1 = http://www.nic.cl/

 

FIDS

Tipos de FID que serán consideradas validos para ser indexados, separados por espacios. Valor por defecto: fid_general (van sin extensión)

Ejemplo

FIDS = fid_general fid_reportaje fid_galeria

RESUMEN

Numero de caracteres a almacenar como resumen. Es recomendable que el número de caracteres no sea mayor que 200 para evitar que la base de datos del índice ocupe mucho espacio en el disco. Valor por defecto: 100.

Ejemplo

RESUMEN = 150

MAXCARS

Tamaño máximo de la data a indexar. El texto encontrado en los archivos a indexar será limitado a esta cantidad de caracteres antes de buscar palabras dentro de él. Valor por defecto: 10000.

Ejemplo

MAXCARS = 20000

RATIO

Limite para palabras irrelevantes (%). Las palabras que se encuentren dentro de un porcentaje de archivos mayor que éste serán descartadas. Esto permite descartar automáticamente artículos y otras palabras irrelevantes (ej: el, de, un,...). Para no descartar ninguna palabra, usar el valor 100. Valor por defecto: 50.

Ejemplo

RATIO = 70

MINTEXT

Limite de caracteres para considerar que el texto es significativo. Si el texto de un archivo tiene menos de esta cantidad de caracteres, entonces es ignorado y no se indexa. Valor por defecto: 20.

Ejemplo

MINTEXT = 5

 

TITLEVAR

Variable Prontus que sera considerada como el titular. Para el índice RAW, se toma el tag < title > de la página web a indexar.

Ejemplo

TITLEVAR = _TXT_TITULAR

 

TEXTVARS

Variables Prontus sobre las que se buscara, separadas por espacios. Este parámetro no tiene efecto para el índice RAW. No es necesario repetir el titular dentro de esta variable.

Ejemplo

TEXTVARS = _TXT_bajada VTXT_CUERPO VTXT_RECUADRO

 

RESPERPAG

Resultados a desplegar por página. Este valor puede ser redefinido por el formulario de búsqueda.

Ejemplo

RESPERPAG = 50

 

MAXPAGS

Máximo de páginas de resultado a mostrar. Este valor puede ser redefinido por el formulario de búsqueda.

Ejemplo

MAXPAGS = 20

USEFRIENDLYURLS

Si es 1, los resultados adoptarán la estructura de Friendly URLs. Si es 0, no. Valor por defecto = 0.

Ejemplo

USEFRIENDLYURLS = 1

PRONTUS_VER

Versión de Prontus (9, 10 o 11). De acuerdo a este parámetro, la búsqueda de variables se realiza sobre los artículos HTML (9) o sobre los archivos XML (10).

Ejemplo

PRONTUS_VER = 11

SEARCH_MAXEXEC

Máximo de instancias del buscador (buscador; no indexador) permitidas. Esto protege al servidor contra ataques de denegación de servicio, sólo válido para plataforma UNIX. Valor por defecto: 5.

Ejemplo

SEARCH_MAXEXEC = 5

METAi

Variables "META", usadas para perfilación de contenidos u otra clasificación (pueden ser usadas en los queries). Variables válidas: META1 META2 y META3

Ejemplo

META1 = RDO_ROL

META2 = RDO_AREA

METADATAi

Variables "META" usadas para almacenar información a desplegar dentro de los resultados (no pueden ser usadas en los queries). Variables válidas: METADATA1 .. METADATA10

Desde la release 11.2.71 se puede usar la marca reservada _prontus_id en estas variables.

Desde la release 11.2.74 se puede usar la marca reservada _ts (el timestamp único de cada artículo) en estas variables.

Ejemplo

METADATA1 = alerta

METADATA2 = ranking

METADATA3 = _prontus_id

FILEFILTERi

Filtros externos para archivos adjuntos. Se indica la extensión, seguida del path al ejecutable, relativo a la raíz del servidor web, separados por espacios.
Ejemplo
FILEFILTER1 = pdf /cgi-cpn/pdftotext.sh

FILEFILTER2 = doc /cgi-cpn/doctotext.sh

FILEFILTER3 = xls /cgi-cpn/xlstotext.sh

FILEFILTER4 = swf /cgi-cpn/swftotext.sh

 

SEARCH_LOGFILE

Path al archivo de bitácora usado para registrar las consultas al buscador, relativo a la raíz del sitio web.

Ejemplo

SEARCH_LOGFILE = /est/searchlog/search.log

 

SEARCH_TIPO_PAGINACION

Permite definir si se debe usar la paginación estándar (lista con todas las páginas disponibles) o la paginación breve (lista con enlaces a la página inicial, X páginas alrededor de la página actual, y la página final). El número de enlaces a páginas alrededor de la actual se define en la variable SEARCH_PAGCORTA_MAXPAGS.

Valor por defecto.
SEARCH_TIPO_PAGINACION = '0'

Posibles valores.
SEARCH_TIPO_PAGINACION = '0'
, paginación estándar.
SEARCH_TIPO_PAGINACION = '1', paginación breve.

Ejemplo.
SEARCH_TIPO_PAGINACION = '0', valor por defecto.

SEARCH_PAGCORTA_MAXPAGS

Si SEARCH_TIPO_PAGINACION está configurada a 1, esta variable indica el número de enlaces a páginas a mostrar alrededor de la página actual.

Valor por defecto.
SEARCH_PAGCORTA_MAXPAGS = '5'

Posibles valores.
SEARCH_PAGCORTA_MAXPAGS = '6'

SEARCH_PAGCORTA_MAXPAGS = '2'

Ejemplo.
SEARCH_PAGCORTA_MAXPAGS = '5', valor por defecto.

SEARCHTIPS_MAXRESULT

Máximo de resultados que entregará la CGI de búsqueda con sugerencias. Disponible desde la release 11.2.71.

Valor por defecto.
SEARCHTIPS_MAXRESULT = '5'

Posibles valores.
SEARCHTIPS_MAXRESULT = '6'

SEARCHTIPS_MAXRESULT = '2'

Ejemplo.
SEARCHTIPS_MAXRESULT = '5', valor por defecto.

SEARCHTIPS_MINLEN

Largo mínimo que debe tener la palabra tipeada para que la CGI de búsqueda con sugerencias devuelva resultados. Disponible desde la release 11.2.71.

Valor por defecto.
SEARCHTIPS_MINLEN = '1'

Posibles valores.
SEARCHTIPS_MINLEN = '6'

SEARCHTIPS_MINLEN = '2'

Ejemplo.
SEARCHTIPS_MINLEN = '1', valor por defecto.

SEARCHTIPS_DURACION_CACHE

Número de segundos que durará el cache de búsqueda de tips. Disponible desde la release 11.2.71.

Valor por defecto.
SEARCHTIPS_DURACION_CACHE = '300'

Posibles valores.
SEARCHTIPS_DURACION_CACHE = '100'

SEARCHTIPS_DURACION_CACHE = '1000'

Ejemplo.
SEARCHTIPS_DURACION_CACHE = '300', valor por defecto.

SEARCHTIPS_MAXREQUESTXIP

Especifica el máximo de peticiones por IP a la CGI de búsqueda por sugerencias. Disponible desde la release 11.2.71.

Valor por defecto.
SEARCHTIPS_MAXREQUESTXIP = '500'

Posibles valores.
SEARCHTIPS_MAXREQUESTXIP = '600'

SEARCHTIPS_MAXREQUESTXIP = '200'

Ejemplo.
SEARCHTIPS_MAXREQUESTXIP = '500', valor por defecto.

 

Ejemplo de archivo de configuración

# Directorios Prontus a Indexar (i = 1, 2, 3,...) aparte del directorio de este Prontus.
PRONTUS_DIR_1 = /prontus_noticias
PRONTUS_DIR_2 = /prontus_legales

# Directorios Arbitrarios a Indexar (i = 1, 2, 3,...).
RAW_DIR_1 = /vocales/alfa
RAW_DIR_2 = /vocales/beta

# Tipos de Archivos Arbitrarios a Indexar.
RAW_FILETYPES = html htm shtml php asp

# URLs a indexar en modalidad spider.
URL_DIR_1 = http://www.nic.cl/

# Limite asociado al punto de partida "i".
# Esto permite acotar la busqueda a subdirectorios dentro del URL inicial,
# para indexar solo una parte del sitio web.
URL_SCOPE_1 = http://www.nic.cl/

# Tipos de URLs a Indexar en modalidad spider.
# Ademas de estos, se indexan los directorios (/) y urls que terminan en
# un string sin puntos.
URL_FILETYPES = html htm shtml php asp jsp

# Maximo de paginas a indexar.
URL_MAXPAGS = 100

# Tipos de FID que seran consideradas validos para ser indexados.
FIDS = fid_galeria.html fid_general.html

# Numero de caracteres a almacenar como resumen.
RESUMEN = 100

# Tamano maximo de la data a indexar.
MAXCARS = 100000

# Limite para palabras irrelevantes (%).
RATIO = 98

# Limite de caracteres para considerar que el texto es significativo.
MINTEXT = 5

# Variable Prontus que sera considerada el titular.
TITLEVAR = _TXT_TITULAR

# Variables Prontus sobre las que se buscara.
TEXTVARS = _TXT_bajada VTXT_CUERPO

# Resultados por pagina.
RESPERPAG = 50

# Maximo de paginas a mostrar.
MAXPAGS = 20

# Usa friendly urls (1) o no (0).
USEFRIENDLYURLS = 1
# Version de Prontus (9 o 10).
PRONTUS_VER = 10

# Maximo de instancias permitidas (Unix).
SEARCH_MAXEXEC = 5

# Variables "META", usadas para perfilacion de contenidos u otra clasificacion.
# Variables validas: META1 META2 y META3
META1 = RDO_ROL
META2 = RDO_AREA

# Variables "META" adicionales, usadas para perfilacion de contenidos u otra clasificacion.
# Variables validas: METADATA1 .. METADATA10
METADATA1 = alerta
METADATA2 = imagen

# Filtro para archivos adjuntos.
# FILEFILTERi < extension > < path al ejecutable >
# Si se especifica, indexara los archivos adjuntos de esa extension.
FILEFILTER1 = pdf /cgi-cpn/pdftotext.sh

# Archivo de bitacora de busquedas (path relativo a document root).

SEARCH_LOGFILE = /est/searchlog/search.log

# Paginacion
# Nuevo estilo de paginacion, con 4 paginas enlazadas alrededor de la actual.
SEARCH_TIPO_PAGINACION = '1'
SEARCH_PAGCORTA_MAXPAGS = '4'

# Parametros para busqueda con sugerencias
SEARCHTIPS_MAXRESULT = '10'
SEARCHTIPS_MINLEN = '4'
SEARCHTIPS_DURACION_CACHE = '200'
SEARCHTIPS_MAXREQUESTXIP = '100'