Configuración del buscador Prontus: buscador_prontus.cfg

Este archivo de configuración contiene las variables que manejan el funcionamiento del buscador Prontus.

Publicado: Viernes 12 de octubre de 2018 por Adriano Varoli Piazza
Última modificación: Jueves 19 de marzo de 2020

Nota general: la configuración del buscador funciona de manera distinta al resto del Prontus. Por ejemplo, el nombre del archivo es "buscador_prontus.cfg", no "[nombre del prontus]-buscador.cfg" siguiendo el patrón de los demás. Otra diferencia importante es que los valores de cada variable de configuración no van encerrados con ''.

Directorios y archivos a indexar

PRONTUS_DIR_i

Directorios de otros Prontus a Indexar (i = 1, 2, 3,...), aparte del directorio de la instancia de Prontus donde el buscador ha sido activado.

Ejemplo

PRONTUS_DIR_1 = /prontus_reportajes
PRONTUS_DIR_2 = /prontus_noticias

RAW_DIR_i

Directorios arbitrarios a indexar (i = 1, 2, 3,...). Estos directorios serán indexados dentro de un mismo índice, denominado "RAW". Se asume que estos directorios no contienen instancias Prontus.

Ejemplo

RAW_DIR_1 = /historia
RAW_DIR_2 = /planetas/tierra

RAW_FILETYPES

Tipos de archivos arbitrarios a indexar, separados por espacios.

Ejemplo

RAW_FILETYPES = htm html shtml asp php

URL_FILETYPES

Tipos de URLs a indexar en modalidad spider, separados por espacios.

Ademas de éstos, se indexan los directorios (/) y las URL que terminen en un string sin puntos.

Ejemplo

URL_FILETYPES = html htm shtml php asp jsp

FIDS

Tipos de FID a indexar, sin extensión, separados por espacios. Hace posible excluir de la indexación FIDs auxiliares (como fid_link, fid_rotulo, etc.)

Valor por defecto:

FIDS = fid_general

Ejemplo

FIDS = fid_general fid_reportaje fid_galeria
Indexación y despliegue de resultados

RESUMEN

Numero de caracteres a almacenar como resumen. Es recomendable que el número de caracteres no sea mayor que 200 para evitar que la base de datos del índice ocupe mucho espacio en el disco. Valor por defecto: 100.

Ejemplo

RESUMEN = 150

MAXCARS

Tamaño máximo de la data a indexar. El texto encontrado en los archivos a indexar será limitado a esta cantidad de caracteres antes de buscar palabras dentro de él. Valor por defecto: 10000.

Ejemplo

MAXCARS = 20000

RATIO

Limite para palabras irrelevantes (%). Las palabras que se encuentren dentro de un porcentaje de archivos mayor que éste serán descartadas. Esto permite descartar automáticamente artículos y otras palabras irrelevantes (ej: el, de, un,...). Para no descartar ninguna palabra, usar el valor 100.

Valor por defecto

RATIO = 50

Ejemplo

RATIO = 70

MINTEXT

Limite de caracteres para considerar que el texto es significativo. Si el texto de un archivo tiene menos de esta cantidad de caracteres, entonces es ignorado y no se indexa. Valor por defecto: 20.

Ejemplo

MINTEXT = 5

TITLEVAR

Variable Prontus que sera considerada como el titular de la página indexada. Para el índice RAW, se toma la etiqueta <title> de la página web a indexar.

Ejemplo

TITLEVAR = _TXT_TITULAR

TEXTVARS

Variables Prontus sobre las que se buscará, separadas por espacios. Este parámetro no tiene efecto para el índice RAW. No es necesario repetir el titular dentro de esta variable.

Ejemplo

TEXTVARS = _TXT_bajada VTXT_CUERPO VTXT_RECUADRO

RESPERPAG

Resultados a desplegar por página. Este valor también puede ser redefinido en el formulario de búsqueda.

Ejemplo

RESPERPAG = 50

MAXPAGS

Máximo de páginas de resultado a mostrar. Este valor también puede ser definido en el formulario de búsqueda.

Ejemplo

MAXPAGS = 20

USEFRIENDLYURLS

Si es 1, los resultados adoptarán la estructura de Friendly URLs. Si es 0, no.

Valor por defecto

USEFRIENDLYURLS = 0

Ejemplo

USEFRIENDLYURLS = 1

PRONTUS_VER

Versión de Prontus (9; 10 o mayor). De acuerdo a este parámetro, la búsqueda de variables se realiza sobre los artículos HTML (9), sobre los archivos XML (10 o mayor). Si no estás absolutamente seguro de lo que haces, no configures esta variable a 9.

Valor por defecto

PRONTUS_VER = 10

Ejemplo

PRONTUS_VER = 12

SEARCH_MAXEXEC

Máximo de instancias del buscador (buscador; no indexador) permitidas. Esto protege al servidor contra ataques de denegación de servicio.

Valor por defecto

SEARCH_MAXEXEC = 5

Ejemplo

SEARCH_MAXEXEC = 8

METAi

Variables "META", usadas para perfilación de contenidos u otra clasificación (pueden ser usadas en los queries).

Variables válidas: META1 META2 y META3

Ejemplo

META1 = RDO_ROL
META2 = RDO_AREA

METADATAi

Variables "META" usadas para almacenar información a desplegar dentro de los resultados (no pueden ser usadas como términos de búsqueda). Variables válidas: METADATA1 .. METADATA10

Se pueden usar las marcas reservadas _prontus_id y _ts en estas variables.

Ejemplo

METADATA1 = alerta
METADATA2 = ranking
METADATA3 = _prontus_id

FILEFILTERi

Filtros externos para  procesar archivos adjuntos. Se indica la extensión, seguida del path al ejecutable, relativo a la raíz del servidor web, separados por espacios.
Ejemplo

FILEFILTER1 = pdf /cgi-cpn/pdftotext.sh
FILEFILTER2 = doc /cgi-cpn/doctotext.sh
FILEFILTER3 = xls /cgi-cpn/xlstotext.sh

SEARCH_LOGFILE

Path al archivo de bitácora usado para registrar las consultas al buscador, relativo a la raíz del sitio web.

Ejemplo

SEARCH_LOGFILE = /est/searchlog/search.log

SEARCH_TIPO_PAGINACION

Permite definir si se debe usar la paginación estándar (lista con todas las páginas disponibles) o la paginación breve (lista con enlaces a la página inicial, X páginas alrededor de la página actual, y la página final). El número de enlaces a páginas alrededor de la actual se define en la variable SEARCH_PAGCORTA_MAXPAGS.

Valor por defecto

SEARCH_TIPO_PAGINACION = 0

Posibles valores

SEARCH_TIPO_PAGINACION = 0 # paginación estándar
SEARCH_TIPO_PAGINACION = 1 # paginación breve

SEARCH_PAGCORTA_MAXPAGS

Si SEARCH_TIPO_PAGINACION está configurada a 1, esta variable indica el número de enlaces a páginas a mostrar alrededor de la página actual.

Valor por defecto

SEARCH_PAGCORTA_MAXPAGS = 5

Ejemplo

SEARCH_PAGCORTA_MAXPAGS = 6
Búsqueda con sugerencias

SEARCHTIPS_MAXRESULT

Máximo de resultados que entregará la CGI de búsqueda con sugerencias.

Valor por defecto

SEARCHTIPS_MAXRESULT = 5

Ejemplo

SEARCHTIPS_MAXRESULT = 6

SEARCHTIPS_MINLEN

Largo mínimo que debe tener la palabra tipeada para que la CGI de búsqueda con sugerencias devuelva resultados.

Valor por defecto

SEARCHTIPS_MINLEN = 1

Ejemplo

SEARCHTIPS_MINLEN = 6

SEARCHTIPS_DURACION_CACHE

Número de segundos que durará el cache de búsqueda de tips.

Valor por defecto

SEARCHTIPS_DURACION_CACHE = 300

Ejemplo

SEARCHTIPS_DURACION_CACHE = 1000

SEARCHTIPS_MAXREQUESTXIP

Especifica el máximo de peticiones posibles por dirección IP a la CGI de búsqueda por sugerencias.

Valor por defecto

SEARCHTIPS_MAXREQUESTXIP = 500

Ejemplo

SEARCHTIPS_MAXREQUESTXIP = 600