TF-IDF Herramientas para la relevancia de palabra clave

5
(1)

TF-IDF es otro de esos vocablos que utilizamos los SEO, el cual entiendo que no te suene o si lo conoces, quizás no sepas todo lo que aquí te voy a contar.

En este artículo quiero, y pretendo, explicarte qué es el TF-IDF, cómo funciona, su relevancia, qué tiene que ver con el SEO, qué opino de uso con respecto al SEO. Quiero que veamos algún ejemplo, ver qué dice Google sobre esta fórmula matemática, y para terminar te diré las mejores herramientas TF-IDF y cómo utilizarlas.

Herramientas TF-IDF

¿Qué es el TF-IDF?

TF-IDF, también conocido como TFIDF, TF*IDF, TF IDF, es un término compuesto de dos conjuntos de siglas. Por un lado TF que son las siglas, en inglés, Term Frequency. En español Frecuencia de Término. Y por otro lado, las siglas IDF que vienen del inglés Inverse Document Frequency. Traducido al español Frecuencia de documento inversa o Frecuencia inversa de documento.

Dicho así, te sonará a chino, pero déjame que ahonde más en la definición.

TF-IDF es una estadística numérica que permite conocer cuánto de relevante es un término en una colección de documentos dados.

TF-IDF es el producto de dos estadísticas: Frecuencia de término y Frecuencia inversa de documento.

Referido al SEO o posicionamiento en buscadores, TF-IDF se define como la fórmula que permite conocer la importancia de una palabra clave o frase dentro de un documento o una página web.

Historia sobre TF-IDF

Estas fórmulas no son un invento nuevo, sino que ya vienen utilizándose desde hace muchos años en la ciencia de Recuperación de Información (Information Retrieval IR), como factor de ponderación en las búsquedas.

La Recuperación de Información en informática y ciencias de la información es el proceso de obtener recursos de un sistema de información que son relevantes para una necesidad de información a partir de una colección de esos recursos.

Karen Spärck Jones, pionera científica británica, fue responsable, en 1972, del concepto IDF (Inverse Document Frequency). Esta tecnología, es uno de los hilos en los que se basan los actuales motores de búsqueda.

Por su parte el científico Gerard Salton, en 1975, fue quién introdujo el concepto de TF-IDF term-frequency-inverse-document-frequency. Un modelo en el que la puntuación de un término en un documento, es la proporción del número de términos en ese documento dividido por la frecuencia del número de documentos en los que aparece ese término.

Las aportaciones de ambos han sido muy importantes en el campo de la Recuperación de Información (Information Retrieval IR) y en el Procesamiento natural del lenguaje (Natural language processing NLP).

TF-IDF Matemáticamente hablando

Si no te gustan las matemáticas, mejor que te saltes este apartado ;-).

Frecuencia de término

Como ya te he comentado más arriba, la frecuencia de término es relativa a la frecuencia de un término en un documento. Se utiliza como factor de ponderación o peso.

El peso de un término que aparece en un documento es proporcional a la frecuencia del término.

Utilizando distintos esquemas de ponderación, obtenemos las siguientes variantes de peso del término de frecuencia.

Variantes de peso del término de frecuencia
Variantes de peso del término de frecuencia. Fuente: Wikipedia.

Frecuencia inversa de documento

La frecuencia inversa de documentos mide cuánta información provee una palabra. Es decir, ¿es relevante la palabra para la clasificación que estamos haciendo? ¿Es común o no dicha palabra en el conjunto de documentos?

Dependiendo del resultado, su peso será mayor o menor. Aquí tienes su tabla de variantes según el sistema de ponderación.

Variantes de la frecuencia inversa de documento según el sistema de ponderación
Variantes de la frecuencia inversa de documento según el sistema de ponderación. Fuente: Wikipedia.

Frecuencia de término * Frecuencia inversa de documento

La fórmula TD*IDF alcanza un alto peso o valor de ponderación cuando un término tiene una alta frecuencia de ocurrencia en un documento dado, además de una baja frecuencia del mismo en la colección de todos los documentos.

Variantes de peso TF*IDF
Variantes de peso TF*IDF. Fuente: Wikipedia.

¿Cómo funciona la fórmula TF-IDF?

La fórmula TF-IDF se compone de dos partes que se multiplican la una por la otra. Es decir, por un lado tienes TF que es el cálculo de la frecuencia con la que un término aparece en un documento. Su número de ocurrencias, por simplificar.

Por otro lado, el cálculo logarítmico de IDF nos indica si una palabra es común o raramente aparece en un conjunto de documentos.

Para la frecuencia de término, a mayor número de ocurrencias, mayor será su frecuencia de término. Por el contrario, la fórmula IDF lo que provoca es que aquellos términos que aparecen más comúnmente en la colección de documentos, son disminuidos en peso, por aquellos que sí tienen mayor relevancia pero aparecen en menor medida.

La multiplicación o producto de ambas fórmulas provoca que aquellos términos con una mayor frecuencia pero que raramente aparecen en el conjunto de documentos, son aquellos que ganan más peso. Son las palabras más relevantes.

¿Lo has pillado? Mejor lo vemos con un ejemplo.

Imagina que tienes una colección de documentos, los cuales quieres clasificar para la frase «el coche rojo»

La manera más fácil de empezar es desechando aquellos documentos que no contengan las 3 palabras «el», «coche», «rojo».

Pero esto dejará aún muchos documentos para clasificar.

El siguiente paso que podrías hacer es decir, bueno, ya tenemos solo aquellos documentos que contienen las 3 palabras. Voy a contar el número de ocurrencias (frecuencia de término) de cada una de las palabras en esos documentos.

El problema es que no es muy fiable ese conteo. Depende de la cantidad de documentos, la longitud de los mismos.

Hay que ir más allá.

Y aquí es donde entra la magia de la frecuencia inversa de documento.

Palabras como «el» aparecerán mucho en la clasificación de los documentos. Son palabras que no son relevantes y distorsionan los resultados si tiene demasiado peso.

Análisis TF*IDF de Seobility
Análisis TF*IDF de la herramienta Seobility

La fórmula IDF consigue distinguir aquellas palabras relevantes de las que no son, por lo que palabras como «coche» y «rojo» tendrán un mayor peso y por tanto una mayor relevancia.

Puedes verlo en la gráfica de arriba. Per ¡ojo!, también tienes que utilizar la lógica, ya que el algoritmo no entiende de semántica. Y como puedes ver en la gráfica, aparece la palabra «cookies», la cual, como comprenderás, no tiene mucha relación con «el coche rojo». Esto se debe a que dicha palabra sí es relevante para el algoritmo TF-IDF ya que aparece con bastante peso en la colección de documentos, pero a nivel semántico, no es una palabra que interese.

Tabla de valores TF-IDF de Seobility
Tabla de valores TF-IDF de Seobility

TF-IDF y el SEO

Espero que no te hayas aburrido mucho leyendo toda la primera parte del artículo, donde te explico la parte más sesuda sobre TF-IDF.

Ahora toca ir al grano. ¿Qué tiene que ver el concepto TF-IDF con el SEO?

Mucho.

Imagina que has publicado un artículo sobre «la saturación de oxígeno en sangre» que no termina de posicionarse en las primeras posiciones.

Evidentemente, son muchos factores que aplican al ejemplo para intentar posicionar el artículo en primera posición, pero me voy a centrar en lo que sí puedes hacer trabajando el TF-IDF del artículo.

Una posible mejora u optimización que deberías hacer con el artículo es comprobar si estás utilizando aquellos términos más relevantes para la temática que estás tratando.

Si utilizas las definiciones de TF-IDF que te he enseñado más arriba, tu artículo deberá contener cierto número de ocurrencias de palabras basado en la colección de páginas web que ya están posicionadas en el Top10 para la consulta «saturación de oxígeno en sangre».

¿Cómo puedes saber esas palabras y sus ocurrencias?

No te estoy hablando de densidad de palabra clave. Te estoy hablando de TF-IDF.

Puedes utilizar herramientas como Seobility, Dinorank o Seolyze entre otras.

Estas herramientas realizan el cálculo TF-IDF por ti. Así que lo tienes fácil. Lo único que vas a necesitar es añadir la palabra clave que quieres optimizar, la URL que quieres optimizar y la herramienta hará el resto. Es más, la URL tampoco es obligatorio añadirla.

Términos más usados según la fórmula TF IDF
Términos más usados según la fórmula TF IDF

Esta gráfica representa, el ejemplo que te estoy comentando, hecho con Seobility. Si te fijas, el artículo tiene buena pinta porque para la mayoría de los términos que aparecen en el gráfico, la línea amarilla aparece algo por encima de la media, pero sin superar el máximo.

Pero sí hay términos que se pueden optimizar, como, por ejemplo, «hemoglobina», el cual parece no estar utilizándose en el contenido.

Es más, herramientas como Seobility tiene un apartado donde te indica qué palabras exactamente deberías aumentar su ocurrencias.

Palabras para aumentar sus ocurrencias
Palabras para aumentar sus ocurrencias

Como ves, palabras como «cuerpo», «datos», etc. deberían ser utilizadas más a menudo en el contenido. Ahí aparece también «hemoglobina». Hay otras como, por ejemplo, «health» o «mayo» que no tiene sentido añadir ocurrencias de ellas, ya que el ejemplo es un contenido en español y la palabra «mayo» se refiere, en este contexto a Mayo Clinic, sitio web de referencia en el sector salud.

Google y TF-IDF

Aquí entramos en debate: ¿Utiliza Google la fórmula TF-IDF de alguna manera en sus algoritmos de clasificación?

Esto es algo que solo Google lo sabe. He intentado encontrar respuestas.

Por un lado, he encontrado un artículo de Search Engine Journal, que más de una vez me recuerda al Marca, todo sea dicho de paso, comentando que John Mueller, voz con autoridad en Google, habló sobre TF-IDF en un directo cuando le preguntaron sobre el tema.

Según el artículo, John Mueller dijo: «Es una métrica bastante antigua y las cosas han evolucionado bastante a lo largo de los años. También hay muchas otras métricas.»

¿Significa eso que Google no utiliza técnicas como TF-IDF en sus algoritmos? Probablemente no, tal y como te lo he planteado en este artículo. Pero sí como base de otros modelos mucho más avanzados y evolucionados.

También he encontrado respuesta por parte del gran Bill Slawski, quien en este artículo comenta sobre las patentes de Google que hablan de TF-IDF. No son pocas. Las más nuevas se enfocan en obtener las propiedades de entidades.

Tienes que tener en cuenta que las herramientas con las que contamos no tienen el potencial de Google ni tampoco cuentan con la ingente cantidad de información que ellos manejan.

Pero entre no hacer nada y tener la capacidad de proceso de Google, hay un trecho y es así donde las herramientas que te he comentado, pueden ayudarte.

A continuación, voy a optimizar un contenido utilizando TF IDF con un caso práctico.

Optimizar contenidos con TF-IDF: caso práctico paso a paso

Hace mucho tiempo, escribí un artículo dando una serie de consejos SEO directos y al grano, los cuales considero te pueden resultar útiles. Con este artículo llegué a estar en posición 1 para la búsqueda «consejos SEO». De eso hace ya mucho.

Evolución de posiciones de la keyword
Evolución de posiciones de la keyword

No haber seguido trabajando el posicionamiento del artículo, ha hecho que, en los últimos meses, haya perdido fuelle y actualmente esté sobre la posición 15.

¿Qué puedo hacer ahora para recuperar posiciones? Se puede hacer mucho, pero una tarea que siempre me suele funcionar es revisar las ocurrencias de palabras que he utilizado en el post. Y para esto, aunque existen otras herramientas que luego te contaré, voy a trabajar con Seobility. 

Lo primero es abrir la herramienta. Puedes hacerlo aquí o simplemente buscar en Google «tf idf seobility» y ahí la tienes.

Es posible que te salga en inglés, pero no te preocupes, que en la parte superior tienes para cambiar a idioma español. Verás algo como muestro en el siguiente pantallazo.

Herramienta TF IDF gratuita de Seobility
Herramienta TF IDF gratuita de Seobility

Si te fijas, en la parte inferior te indica que te quedan 3 checks diarios aún por utilizar.

Nota: Aunque actualmente tengo acceso a Seobility, estoy planteando el ejemplo como si no tuviera acceso para que veas que la herramienta TF IDF es completamente funcional siendo gratuita.

Sigo con el ejemplo. 

En el cajetín de palabra clave añado «consejos SEO». Y en la URL añado mi post (aunque esto es opcional, si no tienes una URL, puedes usar esta herramienta como inspiración para crear tus contenidos). El país no tengo que hacer nada porque ya me pone Google.es. Pulso el botón Analizar TF-IDF.

Analizar TF-IDF
Analizar TF-IDF

Pero antes de pulsar el botón, voy a descubrirte otra joya escondida que tiene esta herramienta: las opciones avanzadas.

Opciones avanzadas del algoritmo
Opciones avanzadas del algoritmo

Puedes acceder a ellas mediante el enlace que tienes más abajo del botón. Al pulsar, se expanden más opciones:

  1. El valor del logaritmo base que va a utilizar la herramienta para hacer el cálculo TF IDF, el cual no voy a cambiar.
  2. El dispositivo, que te permite cambiar entre Desktop y Mobile. Muy útil porque ya sabes que no siempre Google muestra los mismos resultados en uno u otro. Yo lo voy a dejar en Desktop porque me interesa optimizar para escritorio. 
  3. Los resultados de búsqueda, que te permite compararte con desde 3 a 20 resultados. Esto también es muy interesante porque si tienes claro que tus competidores están en el Top3, puedes ceñirte a que el algoritmo te calcule sólo en base a esos 3 resultados.
  4. Y por último, la opción de añadir una geolocalización. También es muy útil si tu resultado depende de ella, pero en mi caso toda España y google.es están bien.

Pulso el botón de analizar TF-IDF y aparece una gráfica parecida a esta.

Gráfica con los términos más utilizados según el algoritmo TF IDF
Gráfica con los términos más utilizados según el algoritmo TF IDF

La gráfica te indica un listado de palabras con su valor medio y máximo según el cálculo TF-IDF. Y además, una línea que representa cómo están dichas palabras en mi texto.

¿Cómo tienes que leerlo?

La línea amarilla representa el uso actual de keywords de la URL que quiero mejorar, con relación a «consejos seo», mientras que la zona roja representa el uso máximo y la azul, el total. 

Lo ideal aquí es que tus contenidos o tu web se sitúen entre el campo rojo y el azul. Esto quiere decir que tu página está optimizada pero NO sobreoptimizada. Si te pasas del rojo, tienes que reducir la cantidad de esa palabra clave. 

En mi caso, la herramienta me está indicando que las keywords «consejos», «seo» y «google» están bien optimizadas. Sin embargo, todavía podría aumentar las ocurrencias de palabras como «web», «contenido», «palabras», «clave», «posicionamiento», etc. Fíjate que tienes un scroll horizontal con muchas más palabras por descubrir.

Si continuas hacia abajo, también puedes consultar más información valiosa.

Resultados de búsqueda y sus keywords TF IDF
Resultados de búsqueda y sus keywords TF IDF

Lo primero que verás es un listado con las webs mejor posicionadas para las keywords que acabamos de ver (las relacionadas con «consejos seo») y qué keywords exactamente utiliza cada web, en qué cantidad relativa TF*IDF y con qué frecuencia (TF).

Por ejemplo, como quiero optimizar mi página, me puedo inspirar en las ideas de estos competidores para mejorar mis contenidos. En este caso, prefiero tomar la primera web como referencia:

Palabras y backlinks de la competencia
Palabras y backlinks de la competencia

¿Por qué? Porque si te fijas, está en primer lugar, el texto es más corto (menos trabajo de edición) y además, tiene tan solo 1 backlink a diferencia del segundo resultado (8 backlinks). Todo esto me está indicando, de entrada, que sus contenidos son mejores para la keyword «consejos seo», aunque habría que ver también otros valores como su DR. 

En la siguiente pestaña encontrarás las mismas palabras clave de la gráfica pero organizadas en una Tabla de valores y ordenadas por su relevancia.

Tabla de valores ordenados por relevancia
Tabla de valores ordenados por relevancia

Y para rematar, en la tercera pestaña tienes el Editor de texto o Wizard que contiene una información muy práctica.

Por un lado, verás el texto plano de tu URL y podrás modificarlo directamente como quieras. 

Por otro lado, a la derecha, la herramienta te va indicando exactamente qué palabras tienes que optimizar y cuáles tienes ya optimizadas.

Yo por ejemplo, veo que todavía puedo utilizar keywords como «blog», «marketing» y «posicionamiento» así que voy a ir editando el texto y añadiéndolas donde tenga sentido, siempre y cuando no me cargue la legibilidad de la página ni suene forzado.

Editor de texto en tiempo real
Editor de texto en tiempo real

Para ir viendo si las modificaciones que haces están mejorando tu texto, pulsa el botón Volver a analizar. Repite el proceso hasta que todas las keywords estén en verde, perfectamente optimizadas. ¿Qué te parece?

Herramientas TF-IDF

Por suerte, tienes herramientas en el mercado para elegir hacer tus análisis TF-IDF.

Te comento que aunque algunas ponga WDF-IDF realmente estamos hablando de fórmulas similares. WDF viene de los términos Within Document Frequency.

A continuación te hablo de algunas de ellas. Las que he utilizado y utilizo en la actualidad.

Herramienta TF*IDF de Seobility

Seobility
Seobility

La herramienta TF*IDF de Seobility es una herramienta que he descubierto hace relativamente poco y tiene una pinta fantástica.

No solo es una herramienta TF*IDF, sino que es una completa suite con múltiples funcionalidades para trabajar el SEO de tu sitio web.

Te permite hacer auditorías SEO, con análisis on page y análisis de backlinks. Es un Rank Tracker en toda regla, donde monitorizar las posiciones de tus palabras clave.

Y por si fuera poco, cuenta con una serie de mini SEO tools, como ellos las llaman, porque de «mini» tienen poco, que son gratuitas y dan mucho juego.

Herramientas gratuitas que ofrece Seobility
Herramientas gratuitas que ofrece Seobility

Y es en esas herramientas gratuitas donde puedes encontrar la herramienta TF IDF de Seobility.

Más fácil imposible: sin registro ni nada porque permite hasta 3 análisis gratuitos diarios. Seguramente, más que suficiente, pero si necesitas, solo es cuestión de registrarte.

Además, su funcionamiento es muy sencillo: añades la palabra clave, la URL que quieres posicionar (opcional) y el país al que te diriges.

Ventajas

  • Es una herramienta muy intuitiva y fácil de utilizar.
  • De manera gratuita ofrece 3 análisis TF-IDF al día, pero si te registras, tienes hasta 50 al día.
  • Ofrece información extra sobre las URLs que están posicionando como el número de palabras que utilizan, backlinks que tienen, etc.
  • Me gusta la opción del editor de texto en tiempo real donde puedes comprobar en cada momento cómo va la optimización de palabras.

Desventajas

  • Echo en falta que solo analice keywords formadas por una sola palabra.
  • También sería muy útil que no solo indicase los valores que devuelve el algoritmo sino algo más sencillo de interpretar como: aumenta X veces esta keyword.

Herramienta TF*IDF de Seolyze

Seolyze

Cuando aprendí lo que era esto del TF-IDF, la primera herramienta que utilicé fue Seolyze.

Es una herramienta alemana que la verdad es que me salvó la vida en más de una ocasión.

SEOlyze no es solo una herramienta TF-IDF sino que tiene muchas funcionalidades.

Ventajas

  • Permite probar la herramienta durante 30 días.
  • Está en español.
  • Proporciona no solo información TF y WDF sino también información sobre headings y número de palabras.

Desventajas

  • Su precio parte de 40€/mes.
  • No analiza palabras clave de más de un término.

Herramienta TF*IDF de Dinorank

Dinorank
Dinorank

Es una suite española con numerosas herramientas. Entre ellas la de análisis TF*IDF y prominencia de palabras clave.

La herramienta funciona con proyectos, por lo que primero debes crear un proyecto con la URL del sitio web que vas a trabajar y después ya puedes utilizar la herramienta TF*IDF.

Basta con meter la palabra clave que quieras conocer su frecuencia de términos. Además puedes añadir la URL que estás intentando posicionar.

Ventajas

  • Su precio es bastante asequible ya que además de la herramienta TF*IDF tienes una suite entera de SEO por ese precio
  • Es una herramienta en español, hecha por españoles
  • Cuenta con una característica que me gusta mucho: te analiza al TF*IDF no solo de keywords de una sola palabra sino de palabras clave formadas por 2 y 3 palabras. Desde mi punto de vista, esto aumenta la semántica del texto.
  • Además, tiene otra característica muy cómoda: te indica exactamente cuántas veces tienes que añadir o disminuir las ocurrencias de palabras clave.

Desventajas

  • El algoritmo se podría afinar algo más ya que los intervalos o rangos para aumentar el número de ocurrencias, quizás se podría ajustar más.
  • Se cuelan muchas palabras que no tiene sentido añadirlas a tu contenido, sobre todo relacionadas con el texto del consentimiento de cookies y demás.

Conclusión

Considero que para Google, la tecnología para TF-IDF es como ir en bicicleta en vez de ir en un Tesla último modelo.

Entiendo que deben estar a años luz de lo que supuso TF-IDF para la clasificación de documentos en el campo de la Recuperación de Información.

De hecho, se sospecha de otras técnicas más avanzadas como Okapi BM25, que según parece es utilizado por los motores de búsqueda.

La cuestión es que no pretendas emular a Google, sino, dentro de tus capacidades, intentes optimizar los contenidos con orden y criterio.

¿Puedes mejorar la relevancia de palabra clave aplicando TF-IDF? Depende de lo que entiendas por relevancia de palabra clave. ¿Y la intención de búsqueda? ¿Y la semántica? ¿Dónde te dejas todo eso?

No. TF-IDF no es la panacea, pero sí es una manera sencilla de detectar carencias de ciertas palabras que has dejado de utilizar para aclarar el contexto de tu contenido dentro de un todo. Un todo que, normalmente, con las herramientas se reduce a los 10 o 20 primeros resultados de búsqueda. Es decir, un grano de arena en el desierto de Google.

Ahora bien. Una cosa no quita la otra. Y sí es cierto que genero tareas para aumentar ocurrencias de palabras clave en mis proyectos y proyectos de clientes. Con el paso de los años, he demostrado que la primera versión de un artículo publicado, no suele ir en consonancia con todos los términos que utilizan aquellos que ya están posicionados dentro del Top10.

¿Te ha resultado útil?

¡Haz clic en las estrellas para puntuarla!

Puntuación media 5 / 5. Recuento: 1

¡No hay valoraciones hasta ahora! Sé el primero en calificar esta publicación.

Te puede interesar:  Herramientas y plugins para optimizar imágenes en WordPress

¡Muchas gracias por compartir!

Facebook
Twitter
LinkedIn
WhatsApp
Telegram

¿Te ha gustado el artículo?

Contrata mis servicios de Consultoría SEO.

¿Necesitas algo concreto?

Buscar

Te puede interesar...

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¿Te resulta complicado posicionar en Google?

Contrata mis servicios de Consultoría SEO.

Scroll al inicio

Suscríbete ahora y llévate mi Master Class gratuita para mejorar el posicionamiento de tus artículos.

Responsable: Rafael C. Labrador Villanueva Finalidad: envío de mis publicaciones y algunos correos comerciales. Legitimación: consentimiento del interesado. Destinatarios: tus datos estarán alojados en la plataforma de email marketing Active Campaign suscrita al acuerdo Privacy Shield, Derechos: podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos. Tienes más info en: https://rafalabrador.com/politica-de-privacidad/.

Master Class gratuita: Descubre cómo mejorar el posicionamiento de tus artículos y obtén resultados en 30 días.

Responsable: Rafael C. Labrador Villanueva Finalidad: envío de mis publicaciones y algunos correos comerciales. Legitimación: consentimiento del interesado. Destinatarios: tus datos estarán alojados en la plataforma de email marketing Active Campaign suscrita al acuerdo Privacy Shield, Derechos: podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos. Tienes más info en: https://rafalabrador.com/politica-de-privacidad/.