El fichero de configuración de webalizer no recoge muchas cadenas de buscadores, como las versiones regionales de Google y MSN. Explicamos cómo incluirlos. Otros buscadores regionales como Terra tampoco aparecen en la lista. Este defecto puede corregirse con facilidad si se dispone de acceso al servidor.
Webalizer es un programa que lee los registros de Apache y crea una estadística de visitas a una página web. Está muy extendido. Por ejemplo, viene de serie con todos los paneles de control Plesk y Cpanel, y mucha gente lo tiene en su servidor de forma independiente. Un simple pantallazo reducido permite reconocerlo por su inconfundible combinación de colores (que pueden cambiarse, pero casi nadie lo hace). Aunque es robusto y fiable, no se actualiza desde 2002, y su archivo de configuración predeterminada no recoge determinados cambios en Internet, por lo que algunos apartados del informe se dejan cosas en el tintero, como las visitas originadas en versiones regionales de Google y MSN, o de buscadores de fuerte implantación local como Terra. Pero este defecto puede corregirse si se dispone de acceso al servidor.
Qué hacer
El fichero de configuración suele estar en /etc/webalizer.conf.
Edítalo y localiza este apartado (hacia la línea 518).
SearchEngine yahoo.com p=
SearchEngine altavista.com q=
SearchEngine google.com q=
SearchEngine eureka.com q=
SearchEngine lycos.com query=
SearchEngine hotbot.com MT=
SearchEngine msn.com MT=
SearchEngine infoseek.com qt=
SearchEngine webcrawler searchText=
SearchEngine excite search=
SearchEngine netscape.com search=
Searc'hEngine mamma.com query=
SearchEngine alltheweb.com query=
SearchEngine northernlight.com qr=
Esta configuración ignora los buscadores regionales como google.es y msn.fr. Para corregirlo, cambia las líneas respectivas eliminando el dominio de primer nivel de esta manera:
SearchEngine google.com q=
por SearchEngine google. q=
SearchEngine msn.com MT=
por SearchEngine msn. q=
Es conveniente señalar que esta combinación puede dar por buenos referers originados en páginas no asociadas al buscador. Por ejemplo, una visita originada en google.dirson.com puede entrar en la primera condición, aunque la variable ( q=
) no aparezca en el referer. Aquí el comportamiento es impredecible, pero entiendo que el margen de error provocado es despreciable.
Añade también tus buscadores favoritos. Por ejemplo, buscando en Terra la palabra "simbiontes", el enlace de la página de resultados es:
http://buscador.terra.es/default.asp?ca=s&query=simbiontes
Localiza el término de búsqueda, que vendrá precedido por &loquesea=. En este caso es &query=. Descarta el ampersand (&) y quédate con la variable (query). Añade esta línea:
SearchEngine terra. query=
Pon cuidado en NO colocar el dominio de primer nivel, ya que de esa manera tendrías que hacer una línea por cada variante regional (com.ar, mx, etc).
Caché y traducciones
Con un afán completista, puedes añadir las visitas originadas por páginas cacheadas o tratadas por un traductor automático. Son opciones disponibles en buscadores que generan unas cuantas visitas, especialmente la caché, ya que resalta los términos de búsqueda y muchas veces son una ayuda para la persona que está buscando. El problema de estos referers es que suelen estar originados sin dominio, usando una dirección IP en su lugar. Por ejemplo:
http://66.102.7.104/search?q=cache:H_fa3ozS_JgJ:
www.simbiontes.com
/+Bruce+Culver&hl=es&lr=lang_es
El primer término indica a Webalizer indica qué cadena debe buscar en el referer, y la segunda dónde empiezan los términos de búsqueda. Teniendo esto en cuenta, puedes añadir lo siguiente:
SearchEngine search?q=cache: q=cache:
No es tan limpio como los términos de búsqueda, pero puede funcionar.
Para las visitas originadas en traducciones automáticas el ejemplo es parecido:
http://translate.google.com/translate?hl=es&sl=en&u=
http://www.warplanner.com/recentrolls.aspx
&prev=/search%3Fq%3Dacidonitrix%26hl%3Des%26lr%3D%26sa%3DG
Añade:
SearchEngine translate?hl prev=
El resultado ofrece una pista de solicitudes de traducción. Los términos de búsqueda están enmascarados, pero es posible obtenerlos en el informe y detectar su aparición. Si la frecuencia llama tu atención, puedes analizar los logs con detenimiento y realizar una extracción de términos más elaborada.
Listas completas
Hay montones de buscadores. Si te pierde el afán completista, puedes encontrar una lista de cadenas para Webalizer aquí: More Webalizer.conf hacking.
Cómo funciona
Uno de los parámetros más interesantes para seguir el ritmo de visitas de una web es conocer qué consultas en un buscador terminan en una visita. Esto requiere que se proporcione el "referer", es decir, el enlace desde el que se llega. No todos los proveedores de acceso lo dan siempre, ya que no es un requisito, y por tanto se pierde mucha información, pero la que llega es muy abundante.
Si se dispone del referer de una visita, es posible analizarlo y verificar el origen de una visita. Por ejemplo, si el referer es http://www.google.es/search?q=vicio+duro&hl=es&lr=&start=10&sa=N, es posible trocearlo en varias partes:
La parte de los parámetros contiene información sobre el idioma, el paginado (cuando los resultados del buscador van de diez en diez, por ejemplo) y otra información relativa. La más interesante es la del término de búsqueda: q=vicio+duro. Algunas personas han llegado hasta simbiontes de esa forma (ya que aparecemos como el resultado 19 de la búsqueda).
Webalizer puede reconocer entonces qué términos de búsqueda originan una visita. En este caso, Google cree que en Simbiontes hablamos de "vicio duro" porque nuestro lema es "vicio y subcultura" y hablamos amenudo de disco duro (concretamente de la unidad virtual para que Gmail actúe de disco duro).
Mola! Ahora mismo voy a meter mano a mi Webalizer! :)
por cierto, para los referrers, lo mejor, http://www.textism.com/tools/refer/
Un saludo!
Una página colectiva y ecléctica para comentar y apuntar cosas.
Estás viendo los archivos de Marzo de 2005. Visita la portada para ver las últimas notas.
Si quieres curiosear, puedes consultar:
http://tira.escomposlinux.org
La tira ecol ha vuelto.