Sobre Webalizer

Webalizer es una aplicación que produce páginas web de análisis, desde los registros de acceso y de uso, es decir. es un software de análisis de los registros web. Es una de las herramientas más comunmente usadas de administración de un servidor web. Se inició por Bradford L. Barrett in 1997. Las estadísticas comunmente presentadas por Webalizer incluyen: peticiones al servidor (hits); visitas; referentes (referrers); paises del visitante y la cantidad de datos descargados. Estas estadísticas pueden ser visualizadas gráficamente y mostradas para diferentes periodos de tiempo, tal como por día, hora o mes.

Visión general

El análisis de tráfico de una web se realiza por la agrupación y agregación de los diversos datos capturados por el servidor web en forma de archivos de registro, mientras que el visitante de la web se encuentra navegando por ella. Algunos de los términos de análisis de tráfico de webs más utilizados son los siguientes:

URL

Un localizador uniforme de recursos (URL) identifica de forma única el recurso solicitado por el navegador del usuario.

Hit (Petición al servidor)

Cada petición HTTP enviada por el navegador se cuenta como un 'hit' (una petición al servidor). Tenga en cuenta que las peticiones HTTP se pueden realizar por contenido no existente, en cuyo caso aún serán contadas. Por ejemplo, si uno de los cinco archivos de imagen de una web no se encuentra, el servidor web seguirá contando seis peticiones HTTP, pero en este caso, cinco serán marcados como correctas (un archivo HTML y cuatro imágenes) y una como solicitud con error (la imagen que falta).

Página

Una página es una petición correcta HTTP de un recurso que constituye el contenido primario de la web. Las páginas normalmente se identifican por la extensión del nombre del fichero, (por ejemplo .html, .php, .asp, etc.) o por la extensión no existente, en cuyo caso el motivo de la petición HTTP se cosidera un directorio y se envia la página por defecto del directorio.

Archivo

Cada petición HTTP correcta se cuenta como un archivo.

Visitante

Un visitante es la persona real que navega por la web. El servidor típico de una web sirve contenido a visitantes anónimos y no puede asociar los visitantes con las personas reales que navegan la web. La identificación del visitante se puede basar en su dirección IP o en una 'cookie' HTTP. La primera forma es fácil de realizar, pero da como resultado que todos los visitantes navegando por la misma web de detrás de un 'firewall' cuentan como un solo visitante. La última forma requiere una configuración especial del servidor web (por ejemplo, para registrar 'cookies' HTTP) y es más costosa de implementar. Tenga en cuenta que ninguna forma identifica a la persona real que navega por la web y que ninguno da el 100% de precisión en determinar que el mismo visitante ha navegado de nuevo por la web.

Visita

Una visita es un conjunto de peticiones HTTP enviadas por un visitante, con el tiempo máximo entre peticiones no excediendo una cierta cantidad configurada por el 'webmaster', que típicamente se pone a 30 minutos. Por ejemplo, si un visitante solicita la página A y diez minutos después la página B, y luego, 40 minutos después la página C, entonces ese visitante ha generado dos visitas, una cuando se solicitaron las páginas A y B y otra cuando se solicitó la página C.

Host (Anfitrión)

En general, un 'host' es el ordenador del visitante que ejecuta el programa navegador de Internet. Estos ordenadores se identifican comunmente por su dirección IP o nombre de dominio. Las herramientas de análisis del tráfico web que usan la dirección IP para identificar a los visitantes, emplean indistintamente las palabras: 'host', nombre de dominio y dirección IP.

User Agent (Agente de usuario)

El agente de usuario es un sinonimo de navegador web.

A fin de entender las diferencias entre peticiones (hits), páginas y archivos, vamos a considerar a un usuario que solicita un fichero HTML en el que se hace referencia a cinco imágenes, una de las cuales no se encuentra. En este caso el servidor web registrará seis peticiones (esto es, una correcta del fichero HTML  y cuatro las imágenes obtenidas correctamente y una más por la imagen no obtenida), cinco archivos (esto es, cinco peticiones correctas HTML) y una página (esto es, el fichero HTML).

Tipos de ficheros de registro

La aplicación Webalizer analiza los ficheros de registros del servidor y extrae elementos como la dirección IP del cliente, las rutas URL los tiempos de procesamiento, los agentes de los usuarios, los referentes (referrers), etc. y los agrupa para producir informes HTML.

Los servidores web registran el tráfico HTTP usando diferetes formatos de archivo. Los formatos de archivo más populares son CLF, el Formato de Registro de Apache y el Formato de Registro Extendido W3C. Debajo se muestra un ejemplo de una línea de registro CLF.

192.168.1.20 - - [26/Dec/2006:03:09:16 -0500] "GET  HTTP/ 1.1" 200 1774

El Formato de Registro de Apache se puede personalizar para registrar la mayoría de los parámetros HTTP, incluyendo el tiempo de proceso de una petición y el tamaño de la petición en si misma. El formato de un registro de cliente se controla por la línea de formato. Debajo se muestra una configuración típica de Formato de Registro de Apache.

LogFormat "%a %l \"%u\" %t %m \"%U\" \"%q\" %p %>s %b %D \"%{Referer}i\" \"%{User-Agent}i\"" my_custom_log
CustomLog logs/access_log my_custom_log

Línea de comando

Webalizer es una aplicación de línea de comando y se envia mediante el intérprete de comandos del sistema operativo. debajo se muestra una línea típica de comando.

webalizer -p -F clf -n web.ictea.com -o reports logfiles/access_log

Este comando instruye a Webalizer a que analice el fichero de registros access_log, se ejecuta en modo incremental (-p), interpreta el registro como un fichero CLF log file (-F), usa el nombre de dominio web.ictea.com para los informes de enlaces (-n) y genera el subdirectorio de salida del directorio actual.

Use la opción -h para ver la lista completa de opciones de línea de comandos.

Configuración

Además de las opciones de línea de comandos, Webalizer se puede configurar a través de los parámetros de un archivo de configuración. Por defecto, Webalizer lee el fichero webalizer.conf e interpreta cada línea como una instrucción de procesamiento. Alternativamente, se puede suministrar un fichero especificado por el usuario usando la opción -c.

Por ejemplo, si el webmaster desea ignorar todas las solicitudes realizadas por un determinado grupo de 'hosts', puede usar el parámetro IgnoreSite para descartar todos los registros que la dirección IP cumpla con el patrón indicado:

IgnoreSite        192.168.0.*

Hay más de un centenar de parámetros de configuración disponibles, que hacen de Webalizer una aplicación de análisis de tráfico web muy configurable. Para obtener una lista completa de parámetros de configuración, por favor, consulte el archivo README incluido con cada distribución fuente o binaria.

Informes

Por defecto, Webalizer produce dos tipos de informes: un informe de resumen anual y un informe mensual detallado, una por cada mes analizado.

El informe de resumen anual proporciona información tal como el número de peticiones de archivos y de páginas, los 'hosts' y las visitas, así como la media diaria de estos contadores para cada mes. El informe se acompaña de un gráfico de resumen anual.

Cada uno de los informes mensuales se genera como una página HTML que contiene un informe de resumen mensual (que lista el número total de 'hits', peticiones de fichero y página. visitas, 'hosts', etc.), un informe diario (que agrupa estos contadores para cada uno de los días del mes), un informe horario agregado (que agrupa estos contadores para la misma hora del día), un informe de URL (que agrupa la información colectada por URL), un informe de 'host' (por dirección IP), informe de páginas de entrada y salida de la web (que muestra la primera y última URLs), un informe de referentes (que agrupa las terceras partes referentes que llevan a la web bajo análisis), un informe de cadenas de búsqueda (que agrupa los elementos por términos de búsqueda usados por los buscadores como Google), un informe de agente de usuario (que agrupa por el tipo de navegador) y un informe de países (que agrupa por el país de origen del ´host).

Cada uno de los informes HTML estándar descritas anteriormente lista sólo las mejores entradas para cada elemento (por ejemplo, las 20 URLs principales). El número real de líneas para cada uno de los informes es controlado por la configuración. Webalizer también puede ser configurado para producir un informe separado para cada uno de los elementos, que enumerará cada elemento, como todos los visitantes de la web, todas las URL solicitadas, etc.

Además de los informes HTML, Webalizer puede ser configurado para producir archivos de volcado delimitados por comas, que listan de todos los datos del informe en un archivo de texto sin formato. Los archivos de volcado se pueden importar a aplicaciones de hojas de cálculo y bases de datos para su posterior análisiss.

Internacionalización

Los informes HTML se pueden producir informes en más de 30 idiomas, incluido el catalán, croata, checo, danés, holandés, Inglés, estonio, finés, francés, gallego, alemán, griego, japonés húngaro, islandés, indonesio, italiano, coreano, letón, malayo, noruego, polaco, portugués, portugués (Brasil), rumano, ruso, serbio, chino simplificado, eslovaco, esloveno, ucraniano, español, sueco, turco,.

Para generar informes en un idioma alternativo se requiere un webalizer separado compilado específicamente para ese idioma.

Crítica

  • Las estadísticas generadas no diferencian entre los visitantes humanos y los robots. En consecuencia las métricas reportadas son superiores a las debidas sólo a personas. Muchos webmasters afirman que webalizer produce cifras muy poco realistas de visitas, que a veces son 200-900% más alto que los datos producidos por las estadísticas web de javascript basado como Google Analytics o StatCounter.
  • Los 'hits' reportados son demasiado altos para los gestores de descarga con descargas segmentadas, cada mensaje tipo 206 (Partial Content) se presenta como un 'hit'.
  • Ningún análisis de cadena de consulta. Las webs generadas dinámicamente no se pueden enumerar por separado (por ejemplo, las páginas web PHP con argumentos).

 

Glosario

Principales encabezamientos


Peticiones (Hits) representar el número total de solicitudes realizadas al servidor durante el período de tiempo determinado (mes, día, hora, etc).

Archivos (Files) representar el número total de 'hits' (peticiones) que resultan en algo real que se envía al usuario. No todos los 'hits' envían datos, tales como las peticiones que producen mensajes 404 (File Not Found) y las peticiones de páginas  que ya se encuentran en la memória temporal del navegador.

Consejo: Al observar la diferencia entre hits y archivos, puede obtener una indicación aproximada de visitantes que repiten, ya que cuanto mayor sea la diferencia entre las dos, más personas están solicitando páginas que ya se han almacenado en la memória temporal del navegador (ya han sido vistas).

Procedencias (Sites) es el número de direcciones IP únicas/nombres de 'host' que realizan peticiones al servidor. Se debe tener cuidado cuando se utiliza este indicador para nada más que eso. Muchos usuarios pueden parecer venir de un solo sitio, y también pueden parecer venir de muchas direcciones IP por lo que debe ser utilizado simplemente como una medida aproximada en cuanto al número de visitantes a su servidor.

Las Visitas se producen cuando algún sitio remoto hace una petición de una página en el servidor por primera vez. Siempre y cuando el mismo sitio sigue haciendo peticiones en un plazo de tiempo de espera determinado, todas serán consideradas como parte de la misma VisitaSi el sitio remoto hace una petición a su servidor, y el tiempo transcurrido desde la última solicitud es mayor que el tiempo de espera especificado (por defecto es de 30 minutos), se comienza y cuenta una nueva Visita, y la misma secuencia se repite. Dado que sólo las páginas desencadenarán una visita, no se contarán en el total de visitas, los sitios remotos que enlazan con gráficos y otras URL no de páginas, lo que reduce el número de falsas visitas.

Páginas son aquellas URLs que sólo consideran la página real que se solicita, y no todos los elementos individuales que la componen (como gráficos y clips de audio). Algunos las denominan páginas vistas o impresiones de página, y por defecto es cualquier URL que tiene una extensión de .htm, .html o .cgi.

Un KByte (KB) son 1024 bytes (1 Kilobyte). Se utiliza para mostrar la cantidad de datos que se transfieren entre el servidor y el ordenador remoto, en base a los datos que se encuentran en el registro del servidor.

 

Definiciones comunes


Un Site es un ordenador remoto que realiza peticiones a su servidor, y se basa Dirección IP/Nombre del Host de la máquina remota.

URL - (Uniform Resource Locator). Todas las peticiones realizadas a un servidor web necesitan pedir algo. Una URL es ese algo y representa un elemento que se encuentra en su servidor, y que accesible al usuario remoto o da como resultado un error (por ejemplo, el mensaje de error 404 - File not found). Las URLs pueden ser de cualquier tipo (HTML, Audio, Graphics, etc).

Referentes son aquellas URLs que hacen que un usuario visite su web o que hacen que su navegador pida algo de su servidor. La mayoría de las peticiones se realizan por sus propias URLs, ya que la mayoría de las páginas HTML contienen enlaces a otros elementos tales como ficheros gráficos. Si una de sus páginas HTML contiene enlaces a 10 imágenes, entonces cada petición de la página HTML producirá 10 'hits' más con el referente especificado como la URL de su propia página HTML.

Las Cadenas de Búsqueda se obtienen a partir de examinar la cadena de referencia y en busca de patrones conocidos de diversos motores de búsqueda. Los motores de búsqueda y los patrones a buscar pueden ser especificados por el usuario en un fichero de configuraciónEl valor por defecto recogerá a los principales.

Nota: Sólo está disponible si esa información está contenida en los registros del servidor.

Agentes del Usuario es un nombre para los navegadores de Internet. Internet Explorer, Opera, FireFox, etc. son todos Agentes de Usuario, y cada uno informará de una manera única a su servidor. Tenga en cuenta sin embargo, que muchos de los navegadores permiten al usuario cambiar su nombre reportado, por lo que es posible que vea algunos obvios falsos nombres en el listado.

Nota: Sólo está disponible si esa información está contenida en los registros del servidor.

Las páginas de Entrada/Salida son aqullas páginas que han sido las primeras solicitadas (Entrada) o las últimas pedidas (Salida) en una visita. Estas páginas se calculan usando la lógica Visitas indicada anteriormente. Cuando se produce una visita por primera vez, la página solicitada se contabiliza como página de Entrada y cualquiera que sea la última URL solicitada, se cuenta como la página de Salida.

Los Países se determinan por el dominio de nivel superior (TLD - top level domain) de donde procede la petición. Esto es algo cuestionable sin embargo, ya que hoy en día, no hay un estricto control de los dominios como lo hubo en el pasado. Un dominio .COM puede residir en EE.UU., o en cualquier otro lugar. Un dominio .IL puede realmente estar en Isreal, sin embargo, puede estar localizado en los EE.UU. o en cualquier otro lugar. Los dominios más comunmemnte vistos son .COM (US Commercial), .NET (Network), .ORG (Non-profit Organization) y .EDU (Educational). Un gran porcentaje pueden también aparecer como No resuelto/Desconocido, ya que un porcentaje bastante grande de acceso telefónico y otros puntos de acceso no acuerdan su nombre y se quedan como una dirección.

Los Códigos de Respuesta se definen como parte del protocolo HTTP/1.1 (RFC 2068; Chapter 10). Estos códigos son generados por el servidor web e indican el estado de finalización de cada petición que se le hace.

VOLVER

  • 1 Los Usuarios han Encontrado Esto Útil
¿Fue útil la respuesta?

Artículos Relacionados

Análisis Estadístico de un Servidor Web

¡Bienvenido al maravilloso mundo del análisis de uso de un servidor web! Este documento tiene el...

Powered by WHMCompleteSolution