Archivo de Configuración
El archivo de configuración del Buscador Prontus (buscador_prontus.cfg) se encuentra dentro del directorio cpan (panel de control) y en él se definen los siguientes parámetros:
PRONTUS_DIR_i |
Directorios de otros Prontus a Indexar (i = 1, 2, 3,...), aparte del directorio de la instancia de Prontus donde el buscador ha sido activado. Ejemplo PRONTUS_DIR_1 = /prontus_reportajes PRONTUS_DIR_2 = /prontus_noticias |
RAW_DIR_i |
Directorios arbitrarios a indexar (i = 1, 2, 3,...). Estos directorios serán indexados dentro de un mismo índice, denominado "RAW". Ejemplo RAW_DIR_1 = /historia RAW_DIR_2 = /planetas/tierra |
RAW_FILETYPES |
Tipos de archivos arbitrarios a indexar, separados por espacios. Ejemplo RAW_FILETYPES = htm html shtml asp php |
URL_FILETYPES |
Tipos de URLs a Indexar en modalidad spider, separados por espacios. Ademas de éstos, se indexan los directorios (/) y urls que terminan en un string sin puntos. Ejemplo URL_FILETYPES = html htm shtml php asp jsp
|
URL_MAXPAGS |
Máximo de páginas a indexar en modalidad spider. Este límite es importante, porque en modalidad spider podría intentarse indexar un sitio demasiado grande. URL_MAXPAGS = 100
|
URL_DIR_i |
URLs a indexar en modalidad spider. Estos son los "puntos de partida" para el robot que recorrerá el sitio externo. URL_DIR_1 = http://www.nic.cl/
|
URL_SCOPE_i |
Límite asociado al punto de partida "i". Ejemplo URL_SCOPE_1 = http://www.nic.cl/
|
FIDS |
Tipos de FID que serán consideradas validos para ser indexados, separados por espacios. Valor por defecto: fid_general (van sin extensión) Ejemplo FIDS = fid_general fid_reportaje fid_galeria |
RESUMEN |
Numero de caracteres a almacenar como resumen. Es recomendable que el número de caracteres no sea mayor que 200 para evitar que la base de datos del índice ocupe mucho espacio en el disco. Valor por defecto: 100. Ejemplo RESUMEN = 150 |
MAXCARS |
Tamaño máximo de la data a indexar. El texto encontrado en los archivos a indexar será limitado a esta cantidad de caracteres antes de buscar palabras dentro de él. Valor por defecto: 10000. Ejemplo MAXCARS = 20000 |
RATIO |
Limite para palabras irrelevantes (%). Las palabras que se encuentren dentro de un porcentaje de archivos mayor que éste serán descartadas. Esto permite descartar automáticamente artículos y otras palabras irrelevantes (ej: el, de, un,...). Para no descartar ninguna palabra, usar el valor 100. Valor por defecto: 50. Ejemplo RATIO = 70 |
MINTEXT |
Limite de caracteres para considerar que el texto es significativo. Si el texto de un archivo tiene menos de esta cantidad de caracteres, entonces es ignorado y no se indexa. Valor por defecto: 20. Ejemplo MINTEXT = 5
|
TITLEVAR |
Variable Prontus que sera considerada como el titular. Para el índice RAW, se toma el tag < title > de la página web a indexar. Ejemplo TITLEVAR = _TXT_TITULAR
|
TEXTVARS |
Variables Prontus sobre las que se buscara, separadas por espacios. Este parámetro no tiene efecto para el índice RAW. No es necesario repetir el titular dentro de esta variable. Ejemplo TEXTVARS = _TXT_bajada VTXT_CUERPO VTXT_RECUADRO
|
RESPERPAG |
Resultados a desplegar por página. Este valor puede ser redefinido por el formulario de búsqueda. Ejemplo RESPERPAG = 50
|
MAXPAGS |
Máximo de páginas de resultado a mostrar. Este valor puede ser redefinido por el formulario de búsqueda. Ejemplo MAXPAGS = 20 |
USEFRIENDLYURLS |
Si es 1, los resultados adoptarán la estructura de Friendly URLs. Si es 0, no. Valor por defecto = 0. Ejemplo USEFRIENDLYURLS = 1 |
PRONTUS_VER |
Versión de Prontus (9, 10 o 11). De acuerdo a este parámetro, la búsqueda de variables se realiza sobre los artículos HTML (9) o sobre los archivos XML (10). Ejemplo PRONTUS_VER = 11 |
SEARCH_MAXEXEC |
Máximo de instancias del buscador (buscador; no indexador) permitidas. Esto protege al servidor contra ataques de denegación de servicio, sólo válido para plataforma UNIX. Valor por defecto: 5. Ejemplo SEARCH_MAXEXEC = 5 |
METAi |
Variables "META", usadas para perfilación de contenidos u otra clasificación (pueden ser usadas en los queries). Variables válidas: META1 META2 y META3 Ejemplo META1 = RDO_ROL META2 = RDO_AREA |
METADATAi |
Variables "META" usadas para almacenar información a desplegar dentro de los resultados (no pueden ser usadas en los queries). Variables válidas: METADATA1 .. METADATA10 Desde la release 11.2.71 se puede usar la marca reservada _prontus_id en estas variables. Desde la release 11.2.74 se puede usar la marca reservada _ts (el timestamp único de cada artículo) en estas variables. Ejemplo METADATA1 = alerta METADATA2 = ranking METADATA3 = _prontus_id |
FILEFILTERi |
Filtros externos para archivos adjuntos. Se indica la extensión, seguida del path al ejecutable, relativo a la raíz del servidor web, separados por espacios. FILEFILTER2 = doc /cgi-cpn/doctotext.sh FILEFILTER3 = xls /cgi-cpn/xlstotext.sh FILEFILTER4 = swf /cgi-cpn/swftotext.sh
|
SEARCH_LOGFILE |
Path al archivo de bitácora usado para registrar las consultas al buscador, relativo a la raíz del sitio web. Ejemplo SEARCH_LOGFILE = /est/searchlog/search.log
|
SEARCH_TIPO_PAGINACION |
Permite definir si se debe usar la paginación estándar (lista con todas las páginas disponibles) o la paginación breve (lista con enlaces a la página inicial, X páginas alrededor de la página actual, y la página final). El número de enlaces a páginas alrededor de la actual se define en la variable SEARCH_PAGCORTA_MAXPAGS. Valor por defecto. Posibles valores. Ejemplo. |
SEARCH_PAGCORTA_MAXPAGS |
Si SEARCH_TIPO_PAGINACION está configurada a 1, esta variable indica el número de enlaces a páginas a mostrar alrededor de la página actual. Valor por defecto. Posibles valores. Ejemplo. |
SEARCHTIPS_MAXRESULT |
Máximo de resultados que entregará la CGI de búsqueda con sugerencias. Disponible desde la release 11.2.71. Valor por defecto. Posibles valores. Ejemplo. |
SEARCHTIPS_MINLEN |
Largo mínimo que debe tener la palabra tipeada para que la CGI de búsqueda con sugerencias devuelva resultados. Disponible desde la release 11.2.71. Valor por defecto. Posibles valores. Ejemplo. |
SEARCHTIPS_DURACION_CACHE |
Número de segundos que durará el cache de búsqueda de tips. Disponible desde la release 11.2.71. Valor por defecto. Posibles valores. Ejemplo. |
SEARCHTIPS_MAXREQUESTXIP |
Especifica el máximo de peticiones por IP a la CGI de búsqueda por sugerencias. Disponible desde la release 11.2.71. Valor por defecto. Posibles valores. Ejemplo. |
# Directorios Prontus a Indexar (i = 1, 2, 3,...) aparte del directorio de este Prontus.
PRONTUS_DIR_1 = /prontus_noticias
PRONTUS_DIR_2 = /prontus_legales
# Directorios Arbitrarios a Indexar (i = 1, 2, 3,...).
RAW_DIR_1 = /vocales/alfa
RAW_DIR_2 = /vocales/beta
# Tipos de Archivos Arbitrarios a Indexar.
RAW_FILETYPES = html htm shtml php asp
# URLs a indexar en modalidad spider.
URL_DIR_1 = http://www.nic.cl/
# Limite asociado al punto de partida "i".
# Esto permite acotar la busqueda a subdirectorios dentro del URL inicial,
# para indexar solo una parte del sitio web.
URL_SCOPE_1 = http://www.nic.cl/
# Tipos de URLs a Indexar en modalidad spider.
# Ademas de estos, se indexan los directorios (/) y urls que terminan en
# un string sin puntos.
URL_FILETYPES = html htm shtml php asp jsp
# Maximo de paginas a indexar.
URL_MAXPAGS = 100
# Tipos de FID que seran consideradas validos para ser indexados.
FIDS = fid_galeria.html fid_general.html
# Numero de caracteres a almacenar como resumen.
RESUMEN = 100
# Tamano maximo de la data a indexar.
MAXCARS = 100000
# Limite para palabras irrelevantes (%).
RATIO = 98
# Limite de caracteres para considerar que el texto es significativo.
MINTEXT = 5
# Variable Prontus que sera considerada el titular.
TITLEVAR = _TXT_TITULAR
# Variables Prontus sobre las que se buscara.
TEXTVARS = _TXT_bajada VTXT_CUERPO
# Resultados por pagina.
RESPERPAG = 50
# Maximo de paginas a mostrar.
MAXPAGS = 20
# Usa friendly urls (1) o no (0).
USEFRIENDLYURLS = 1
# Version de Prontus (9 o 10).
PRONTUS_VER = 10
# Maximo de instancias permitidas (Unix).
SEARCH_MAXEXEC = 5
# Variables "META", usadas para perfilacion de contenidos u otra clasificacion.
# Variables validas: META1 META2 y META3
META1 = RDO_ROL
META2 = RDO_AREA
# Variables "META" adicionales, usadas para perfilacion de contenidos u otra clasificacion.
# Variables validas: METADATA1 .. METADATA10
METADATA1 = alerta
METADATA2 = imagen
# Filtro para archivos adjuntos.
# FILEFILTERi < extension > < path al ejecutable >
# Si se especifica, indexara los archivos adjuntos de esa extension.
FILEFILTER1 = pdf /cgi-cpn/pdftotext.sh
# Archivo de bitacora de busquedas (path relativo a document root).
SEARCH_LOGFILE = /est/searchlog/search.log
# Paginacion
# Nuevo estilo de paginacion, con 4 paginas enlazadas alrededor de la actual.
SEARCH_TIPO_PAGINACION = '1'
SEARCH_PAGCORTA_MAXPAGS = '4'
# Parametros para busqueda con sugerencias
SEARCHTIPS_MAXRESULT = '10'
SEARCHTIPS_MINLEN = '4'
SEARCHTIPS_DURACION_CACHE = '200'
SEARCHTIPS_MAXREQUESTXIP = '100'