WDF*IDF: ¿qué puede hacer realmente esta fórmula milagrosa de SEO?
Durante muchos años la lucha por conseguir las mejores posiciones en los resultados de búsqueda de Google y compañía se ha basado en incluir tantas palabras clave como fuera posible en los diversos textos de una página web. Sin embargo, esta técnica ya no es conveniente y pueden penalizarse por malas prácticas SEO. Ya sea en la página de inicio o en una subpágina, en fichas de producto o en categorías: el contenido exclusivo y relevante que aporta información útil e interesante para los usuarios sienta las bases para desbancarse de la competencia y lograr clasificaciones en la primera página de los resultados de búsquedas. Un término que se utiliza cada vez más en este contexto es el llamado análisis o fórmula WDF*IDF.
¿Qué es WDF*IDF?
WDF*IDF es un método de análisis que se puede utilizar en el campo de la optimización en motores de búsqueda para determinar palabras clave y términos que aumentan de forma sostenible la relevancia de los textos publicados y, por tanto, de toda la página web. Es una fórmula en la que los dos valores WDF (Within Document Frequency) e IDF (Inverse Document Frequency) se multiplican entre sí. El resultado es la frecuencia relativa del término (también "ponderación del término") de un documento en relación con todos los demás documentos web, que también contienen la palabra clave considerada en el análisis. Antes de poder llevar a cabo el análisis WDF*IDF, se deben determinar los dos factores mencionados.
Determinar el valor Within Document Frequency (WDF)
El valor Within Document Frequency describe la frecuencia con la que un determinado término aparece en un documento en comparación con todos los demás términos que contiene el texto completo. Para aumentar el significado del valor determinado, la fórmula se basa en un logaritmo que evita que se sobreponga el término central. El término se mencionó por primera vez en 1992 en el trabajo de Donna Harman y en su artículo "Algoritmos de Ranking" lo describe entre otras cosas como una posibilidad de dar a las palabras de un documento un determinado valor de ponderación utilizable para la ciencia de la información. En la optimización de páginas web, el valor WDF se utiliza desde hace tiempo como alternativa al valor de la densidad de palabras clave, que es menos flexible y solo representa la frecuencia relativa de una palabra clave.
La fórmula para determinar el valor Within Document Frecquency es la siguiente:
Los componentes individuales de la ecuación se pueden explicar de la siguiente manera:
i | Período de validez para el que se debe determinar la frecuencia de documentos internos |
j | Documento que analizar |
Lj | Número total de palabras en el documento "j" |
Freq(i,j) | Frecuencia de una palabra "i" en el documento "j" |
log2 | Logaritmo del número x a la base 2 |
El valor WDF para un término "i" en el documento "j" se determina sumando la frecuencia del término a "1" y dividiéndolo por el número total de palabras de este documento. El logaritmo " log2" se aplica a ambos valores, lo que garantiza que se obtienen resultados más significativos para la relevancia del término que cuando se determina la densidad de palabras clave pura o la frecuencia relativa. Un ejemplo ilustrativo para entender mejor esta fórmula:
Un término examinado que aparece 50 veces en un documento de 1000 palabras tiene un valor WDF de 0,57. En este caso, la frecuencia relativa es del 5 %. Si aumenta la frecuencia del término a 500, por ejemplo, por razones de optimización, obtendrá un valor WDF de 0,9 (redondeado), un valor que es aproximadamente 1,5 veces superior al del texto original. Si, por otro lado, se utiliza como base el valor relativo, que ha subido hasta el 50 %, el aumento es 10 veces mayor que el valor original.
Determinar el valor Inverse Document Frequency (IDF)
El valor Inverse Document Frequency (IDF) es un valor que mide el significado de un término no por su frecuencia en un documento determinado, sino por su distribución y uso en el cuerpo del texto: cuanto mayor sea el potencial de un término, mayor será el IDF. El caso ideal es que un término aparezca con mucha frecuencia en unos pocos documentos. Las palabras que aparecen en casi todos los documentos o en casi ninguno, son las que menos importancia tienen. Por ejemplo, la palabra "Aviso legal" alcanza un valor IDF muy bajo porque se utiliza en casi todas las páginas web.
Para calcular el valor Inverse Document Frequency, se requiere la siguiente fórmula, que también utiliza un logaritmo para regular los resultados:
Los componentes individuales de la ecuación se pueden explicar de la siguiente manera:
i | Término para el que se debe definir el IDF |
log | Logaritmo del número x a la base 10 o a cualquier base b |
ND | Número de todos los documentos en el corpus de documentos (que contiene términos relevantes) |
fi | Número de todos los documentos que contienen el término i |
Para determinar el valor IDF de un término "i", el número total de todos los documentos contenidos (y relevantes) en el corpus se divide por el número de documentos que contienen el término y, a continuación, se añade el número 1 y se toma el logaritmo "log" del resultado de este cálculo.
¿Cómo se calcula el número de todos los documentos relevantes en el corpus?
Con ND la fórmula del valor Inverse Document Frequency contiene un componente que no puede determinarse de manera uniforme. Es más bien el resultado de la frecuencia de todas las palabras significativas en el documento examinado, así como del número de documentos. Sin embargo, cuando se analizan documentos web para fines SEO, el número total potencial es enorme, ya que entran en juego todas las páginas indexadas por Google (u otros motores de búsqueda). Para obtener un valor concreto, se determina y se suma el número de resultados de búsqueda de todos los términos relevantes del documento. Por ejemplo, en un documento muy simplificado que solo contenga las dos palabras "optimización para los motores de búsqueda" (10.100.000 resultados de búsqueda, julio de 2018) y "herramientas para realizar páginas web" (28.900.000 resultados de búsqueda, julio de 2018), ND tiene el valor 39.000.000.
WDF*IDF: la combinación de ambas fórmulas
Dado que el WDF representa la relevancia de un término dentro de un documento en particular y el IDF puede reflejar el papel de un término en relación con todos los documentos de un corpus, la combinación de ambos valores proporciona una visión profunda de la frecuencia real del término y el potencial de la palabra correspondiente para optimizar el contenido de texto existente. Para este propósito, solo es necesario multiplicar ambos valores entre sí, lo que resulta en la siguiente fórmula global para el análisis WDF*IDF y la determinación de una frecuencia de término que sea lo más exacta y utilizable posible:
En principio, todos los componentes importantes se combinan para determinar el valor de los términos utilizados en los textos web. Por supuesto, cuanto mayor sea la base de datos, más significativos serán los resultados. Para que el análisis WDF*IDF sea realmente útil para la optimización en los motores de búsqueda, debe realizarse para todas las palabras significativas dentro de un documento. Realizar este proceso de forma manual requeriría demasiado esfuerzo, por lo que es indispensable utilizar herramientas de análisis WDF*IDF apropiadas para calcular la ponderación del término. Estos programas (véanse más abajo) te ayudarán a analizar los textos de forma rápida y eficiente. Por otra parte, también proporcionan información sobre los términos de los que carece un documento para que sea lo más único y relevante posible.
La frecuencia de un término "i" en el documento "j" puede determinarse multiplicando el WDF del término "i" en el documento "j" por IDF del término "i" en todo el corpus del documento.
Las ventajas del análisis WDF*IDF para la optimización en los motores de búsqueda
Las ventajas de un análisis completo WDF*IDF son evidentes: los valores obtenidos para la ponderación de los términos centrales sirven como puntos de referencia perfectos para componer textos de manera que:
- tengan una gran relevancia para los motores de búsqueda,
- se cubran áreas temáticas de baja competencia,
- no haya ninguna palabra clave spam,
- y sean tan únicos como sea posible.
Si no estás satisfecho con el ranking de tus páginas web y estás tratando de optimizarlas, tienes aliados poderosos con los valores WDF*IDF. Sobre la base de los datos de análisis, los redactores pueden recibir directrices muy específicas para revisar el contenido, que van más allá de aumentar la densidad de palabras clave o a incorporar otras palabras clave en el texto.
Aunque un análisis WDF*IDF es significativo, nunca debes olvidar que el contenido está escrito principalmente para los lectores, no para los motores de búsqueda. Dado que estos últimos también están mejorando cada vez más la comprensión semántica de textos, no hay forma de evitar que las palabras clave jueguen un papel cada vez menos importante a largo plazo, mientras que la calidad de los textos está adquiriendo cada vez una mayor importancia.
¿Cuáles son las debilidades del análisis WDF*IDF?
Aunque el valor WDF*IDF proporciona información muy valiosa para la optimización de la página web, todavía hay algunos puntos que deben considerarse antes del análisis y la posterior evaluación de los resultados. Un problema básico es que un análisis WDF*IDF siempre incluye todos los elementos de texto de un documento, independientemente de si se trata de titulares, descripciones de categorías, productos o leyendas de imágenes. Los componentes individuales no se diferencian. Si un determinado párrafo contiene demasiadas palabras clave o muy pocos términos elementales, el método de análisis no proporciona una respuesta satisfactoria, ya que la ponderación de frecuencia se evalúa siempre para todo el documento.
Antes de considerar un análisis WDF*IDF para tu página web propia, debes comprobar cuidadosamente si el contenido es adecuado para el procedimiento de análisis de frecuencia de términos. Además, los resultados obtenidos deben ser revisados exhaustivamente para evitar posibles conclusiones erróneas, por ejemplo, debido a una base de datos demasiado pequeña.
Otra debilidad de la fórmula WDF*IDF es que solo es realmente útil si el volumen de palabras es muy alto. Para pasajes de texto más cortos, como descripciones de productos, entradas de blog más pequeñas o artículos de noticias, el análisis no proporciona resultados significativos y útiles, por lo que a menudo no es adecuado para ciertos proyectos web como tiendas online o portales de noticias. Para páginas web como esta última, basadas en el trabajo editorial, la desventaja es que el análisis WDF*IDF es difícil de integrar en el proceso de trabajo. Dado que los tiempos de respuesta rápidos y la actualidad de las noticias son particularmente importantes en este caso, solo sería viable una optimización posterior de los textos publicados, tarea que resultaría muy compleja.
Ventajas y desventajas del análisis WDF*IDF en un resumen tabular
Ventajas del análisis WDF*IDF | Desventajas del análisis WDF*IDF |
Proporciona una gran oportunidad para descubrir las posibles palabras clave spam en los textos | Examina siempre el contenido del texto completo de un documento |
Destaca la importancia y la singularidad como criterios decisivos para la ponderación de frecuencias | No proporciona información sobre párrafos o pasajes especiales que puedan necesitar optimización |
Califica los términos con menor competencia mejor que aquellos muy disputados | No apto para textos cortos con pocas palabras |
Combina las disciplinas de análisis de documentos específicos y de análisis de documentos cruzados | Difícil de clasificar en los procesos de trabajo en los que se requiere puntualidad y capacidad de respuesta |
Utiliza logaritmos para lograr resultados más significativos | Es difícil determinar el número exacto de todos los documentos pertinentes |
¿Qué herramientas WDF*IDF están disponibles?
Existen varias herramientas que pueden utilizarse para realizar un análisis WDF*IDF. Hay que hacer una distinción fundamental entre las aplicaciones que forman parte exclusivamente de una suite de SEO y las que también están disponibles como soluciones independientes. Para proporcionarte una visión general de la variedad de aplicaciones, hemos recopilado algunas de las mejores herramientas WDF*IDF en la siguiente lista:
- OnpageDoc: si deseas analizar y optimizar el estado SEO de tu página web, OnpageDoc, el paquete completo de SAC Solutions GmbH de Colonia, te proporciona todas las herramientas necesarias. Al escoger una suscripción mensual, tendrás disponibles varias funciones para comprobar y mejorar palabras clave, meta tags, backlinks y aspectos similares. Esta solución SEO también incluye una herramienta WDF*IDF para el análisis de ponderación programada y de comparación competitiva dirigida. Si no deseas acceder a la suite completa, también puedes utilizar la herramienta de forma gratuita en wdfidf-tool.com. Sin embargo, el número de consultas posibles está limitado a 100 por hora (para todos los usuarios en total).
- SEOlyze: los análisis semánticos y las búsquedas basadas en el principio WDF*IDF también se pueden realizar fácilmente con el módulo de análisis de contenido de pago de SEOlyze. Este producto, de la empresa austriaca Helminger GmbH, se centra en las posibilidades de perfeccionar el contenido de una página web y ofrece diversas herramientas para ello, como por ejemplo, un cuestionario de preguntas en W para la investigación de objetivos, un verificador de contenido duplicado o análisis de legibilidad. Entre sus diversas herramientas, encontrarás también una función muy completa de análisis WDF*IDF, cuyos resultados pueden implementarse directamente en la interfaz de SEOlyze gracias al editor integrado. Además de la herramienta WDF*IDF, la suite SEO incluye varias características de seguimiento de rankings y varias otras herramientas para la optimización general de una página (análisis de palabras clave, metadatos, imágenes, enlaces, etc.).
- XOVI: XOVI GmbH, con sede en Colonia, que forma parte de la compañía de software global Plesk desde 2017, ofrece a sus clientes una suite SEO que no tiene nada que envidiar a otras soluciones del mercado. El kit de herramientas de XOVI, que está disponible en tres modelos de suscripción diferentes (Pro, Business y Enterprise), incluye herramientas para realizar seguimiento de anuncios, tráfico, palabras clave, backlinks y posts en redes sociales. XOVI TextOptimizer también incluye una herramienta de texto WDF*IDF que no solo calcula la relevancia de los términos utilizados y sugiere otros términos basados en las primeras diez páginas de resultados de búsqueda de Google, sino que también permite la edición directa.
- Seobility: La empresa Seobility GmbH de Núremberg ofrece varias herramientas SEO de uso gratuito en su página web: entre ellas, una simple herramienta WDF*IDF. La aplicación web permite analizar la ponderación de un término en base a la fórmula WDF*IDF. Además, la herramienta analiza otros valores (incluyendo el valor de frecuencia) que coinciden con la palabra buscada. El acceso al programa Seobility está limitado a cinco usos por día y usuario. Los usuarios que crean una cuenta pueden realizar ajustes de búsqueda avanzada y, por ejemplo, ajustar la base del logaritmo, aumentar el número de resultados de búsqueda para analizar o seleccionar la plataforma (escritorio/móvil) para la que se requiere optimización.