Estudio SEMrush ranking factors 2017 — Desmitificando metodologías

En la segunda edición del estudio SEMrush ranking factors 2017, hemos incluido 5 nuevos factores relacionados con los backlinks, para poder comparar la fuerza de su influencia en una determinada URL frente al dominio.

Como ya es tradición, antes de pasar a desvelar el contenido del estudio, queremos ofrecerte una profunda mirada a la metodología que empleamos.

En el mes de junio, cuando publicamos la primera edición de este estudio, fueron muchos los que arquearon sus cejas a la vista de los resultados.

Se supone que las visitas a la web son el resultado de una buena posición en los resultados de búsqueda y no al revés.

Y, precisamente, esa fue la conclusión que quedó confirmada como el factor de posicionamiento más importante que utiliza Google de todos los que analizamos, tanto en el primero, como en el segundo estudio realizados.


Además, la metodología que hemos utilizado en ambos estudios es pionera en este sector: sustituimos el análisis de correlación por el algoritmo de aprendizaje automático Random Forest.

Como el objetivo final de nuestro estudio es ayudar a los profesionales SEO a priorizar las tareas a realizar y que su trabajo sea así más efectivo, nos gustaría desvelar los detalles de la metodología utilizada, desmitificando así conceptos erróneos muy populares y que puedas confiar en las conclusiones de nuestros estudios.

Estudio SEMrush Ranking Factors - Infografía

Hablando en serio, este post está dirigido a auténticos frikis, así que este es un pequeño resumen de lo que verás:

  • Árbol de decisiones

Para clasificar tareas, se suele utilizar una estructura tipo árbol que representa un algoritmo de aprendizaje automático.

Esta estructura permite dividir un conjunto de datos en grupos o subconjuntos homogéneos en función del atributo más destacado.

  • Aprendizaje automático supervisado

Además, te mostraremos cómo se crea un algoritmo de aprendizaje automático que encuentra patrones de relación entre una variable entrante (variable A) y una de salida (valor objetivo, B): B = f (A).

El objetivo de este algoritmo es probar este modelo en una muestra de datos, de forma que cuando se aplique a una muestra real, sea capaz de predecir el valor de manera precisa, en función de las características ofrecidas.

La supervisión de este proceso finaliza cuando el algoritmo desempeña su función de forma aceptable de forma autónoma.

  • Característica (atributo o variable de entrada)

De cada dato utilizado en este análisis, se extrae una característica separada.

Para la realización del estudio hemos seleccionado como característica los factores de posicionamiento.

  • Clasificación binaria

Es decir, un tipo de tareas de clasificación que recae en el aprendizaje supervisado.

El objetivo de esta tarea es predecir un valor objetivo (= clase) para cada entrada de datos, y como se trata de una clasificación binaria, solo puede ser de 1 o 0.

Utilizando el algoritmo Random Forest en el estudio de factores de clasificación

El algoritmo Random Forest fue desarrollado por Leo Breiman y Adele Cutler en los años 90.

No ha sufrido grandes cambios desde entonces, lo que prueba su gran calidad y su universalidad: es utilizado para clasificar, realizar regresiones, analizar clústeres, destacar selecciones y otras tareas.

A pesar de que el algoritmo Random Forest no es muy conocido para el público en general, lo hemos seleccionado por un buen número de buenas razones:

  • Es uno de los algoritmos más utilizados en aprendizaje automático porque destaca por su excelente precisión. Su primera y principal aplicación es clasificar la importancia de las variables (lo que lo hace perfecto para esta tarea, como veremos más adelante en este artículo) por lo que parecía una opción obvia.
  • El algoritmo es capaz de tratar los datos de una forma que ayuda a minimizar los errores:
    1. El método de subespacio aleatorio ofrece solo algunas de las características de la muestra, no todas y de forma aleatoria. Esto garantiza que el alumno no se centre demasiado en un conjunto predefinido de características y no tome decisiones sesgadas sobre un conjunto de datos fuera de muestra.
    2. El método de agregación del conjunto de herramientas también mejora la precisión. Su objetivo principal es ofrecer no un conjunto de datos completo, sino muestras aleatorias de datos.

Dado que no tenemos un solo árbol de decisión, sino todo un bosque con cientos de árboles, podemos estar seguros de que cada característica y cada par de dominios se analizarán aproximadamente la misma cantidad de veces.

Por lo tanto, el método Random Forest es estable y opera con errores mínimos.

El enfoque por pares (Pairwise): preprocesamiento de datos entrantes

Decidimos basar nuestro estudio en un conjunto de 600.000 palabras clave de la base de datos mundial (Estados Unidos, España, Francia, Italia, Alemania y otros países), la posición de la URLs de los primeros 20 resultados de búsqueda y una lista de supuestos factores de clasificación.

Como no vamos a utilizar el análisis correlativo, tuvimos que realizar una primera clasificación binaria antes de aplicar el algoritmo de aprendizaje automático.

Esta tarea se implementó con el enfoque de Pairwise: uno de los métodos de clasificación más populares en aprendizaje automático, utilizado, entre otros, por Microsoft en sus proyectos de investigación.

El enfoque Pairwise implica que en lugar de examinar un conjunto de datos completo, cada resultado de búsqueda se estudia individualmente.

Comparamos todos los pares posibles de URLs (el primer resultado en la página con el quinto, el séptimo resultado con el segundo, etc.) con respecto a cada característica definida.

A cada par se le asigna un conjunto de valores absolutos, donde cada valor es un cociente resultante de dividir el valor de la característica para la primera URL por el valor de la característica de la segunda.

Además de eso, a cada par se le asigna un valor objetivo que indica si la primera URL está posicionada más alta que la segunda en los resultados (valor objetivo = 1) o por debajo (valor objetivo = 0).

Resultados del procedimiento empleado:

  1. Cada par de URLs recibe un conjunto de cocientes para cada característica y un valor objetivo de 1 o 0. Esta variable se utilizará como un conjunto de datos para los árboles de decisión.
  2. Como consecuencia, podemos hacer observaciones estadísticas de que ciertos valores de características y sus combinaciones tienden a dar como resultado una posición en los resultados de búsqueda más alta para una URL. Esto nos permite construir una hipótesis sobre la importancia de ciertas características y hacer un pronóstico sobre si un cierto conjunto de valores de características dará lugar a posiciones más altas.

Construyendo el árbol de decisión: aprendizaje supervisado

El conjunto de datos que hemos obtenido después del paso anterior es universal y se puede usar con cualquier algoritmo de aprendizaje automático.

Nosotros, elegimos Random Forest, un conjunto de árboles de decisión.

Antes de que estos árboles de decisión puedan realizar su labor de forma razonable, es necesario que aprendan.

Por eso, se lleva a cabo el aprendizaje automático supervisado.

Para asegurarse de que la capacitación se realiza correctamente y se toman decisiones imparciales sobre el conjunto principal de datos, se utilizan los métodos de empaquetado y subespacio.

El primero de los métodos mencionados, el empaquetado, es el proceso de crear un conjunto de datos mediante un muestreo con reemplazo.

Pongamos que tenemos X líneas de datos.

De acuerdo con los principios del método de empaquetado, vamos a crear un conjunto de datos para cada árbol de decisión y este conjunto tendrá el mismo número de líneas X.

Sin embargo, como estos conjuntos de muestras se asignan al azar y con reemplazo, se incluirán aproximadamente dos tercios de las líneas X originales, por lo que habrá valores duplicados.

Aproximadamente, un tercio de los valores originales permanecen intactos y se

usarán una vez que el aprendizaje supervisado haya terminado.

Hicimos lo mismo para las características utilizando el método de subespacio aleatorio: los árboles de decisión fueron completados con muestras aleatorias de características en lugar de con un conjunto completo de las mismas.

Ningún árbol usa el conjunto de datos completo y toda la lista de características seleccionadas.

Pero tener un bosque de árboles múltiples nos permite decir que cada valor y cada característica es muy probable que se usen aproximadamente la misma cantidad de veces.

Haciendo crecer el bosque

Cada uno de los árboles de decisión que hemos creado con este sistema divide el conjunto de datos de la muestra en función de la variable más importante, hasta que cada subconjunto conste de entradas de datos homogéneas.

El árbol escanea todo el conjunto de datos y elige la característica más importante y su valor preciso, que se convierten en una especie de punto de pivote (nodo) y divide los datos en dos grupos.

Para el grupo uno, la condición elegida arriba es verdadera; para el otro, falsa (se crean así ramas SÍ y NO).

Todos los subgrupos finales reciben un valor objetivo promedio basado en los valores objetivo de los pares de URLs que se colocaron en un determinado subgrupo.

Como los árboles usan el conjunto de datos de muestra para crecer, aprenden mientras crecen.

Consideramos que el aprendizaje es de alta calidad cuando se alcanza un porcentaje objetivo aceptable de valores correctamente adivinados.

Una vez que se ha cultivado y entrenado todo el conjunto de árboles, comienza la magia: ahora los árboles pueden procesar los datos fuera de la muestra, aproximadamente un tercio del conjunto de datos original.

Se ofrece un par de URLs a un árbol solo si no ha encontrado el mismo par durante el proceso de aprendizaje.

Esto significa que no se ofrece un par de URLs al 100 por ciento de los árboles.

Luego, se lleva a cabo la votación: para cada par de URLs, un árbol da su veredicto, es decir, la probabilidad de que una URL ocupe una posición más alta en los resultados de búsqueda en comparación con el segundo.

Todos los demás árboles que cumplen el requisito de “no haber visto este par de URLs antes” realizan la misma acción y, al final, cada par de URLs obtiene un conjunto de valores de probabilidad.

Luego se promedian todas las probabilidades recibidas.

Entonces y sólo entonces, hay suficientes datos para avanzar hacia el siguiente paso.

La importancia de la estimación del atributo del algoritmo Random Forest

Uno de los aspectos más destacados del algoritmo Random Forest es que produce resultados extremadamente creíbles cuando se trata de atribuir la importancia de un determinado atributo.

La evaluación se realiza de la siguiente manera:

  1. Los valores de los atributos se mezclan entre todos los pares de URLs y estos conjuntos de valores actualizados son procesados por el algoritmo.
  2. Cualquier cambio en la calidad o estabilidad del algoritmo es medible (si el porcentaje de valores objetivo correctamente adivinados permanece igual o no).
  3. Después, en función de los valores recibidos, se pueden extraer conclusiones como las siguientes:
  • Si la calidad del algoritmo disminuye significativamente, el atributo es importante, de forma que cuanto más importante es el bajón en la calidad, más importante es el atributo.
  • Si la calidad del algoritmo sigue siendo la misma, entonces el atributo es de menor importancia.

Este procedimiento se repite para todos los atributos.

Como resultado, se obtiene una calificación de los factores de clasificación más importantes.

¿Por qué pensamos que un análisis de correlación es malo para los estudios de ranking factors?

Hemos abandonado intencionadamente la práctica generalizada de utilizar los análisis de correlación, a los que muchos han respondido con comentarios del estilo “correlación no significa causalidad” o “esos no parecen factores de posicionamiento, si no más bien correlaciones”.

Por este tipo de comentarios consideramos que este punto merece una aclaración.

En primer lugar, nos gustaría señalar de nuevo que el conjunto de datos inicial utilizado para el estudio que nos ocupa forma un conjunto de valores altamente modificables.

Solo para poner este argumento en contexto, recordar que no utilizamos un solo resultado, sino 600.000.

Cada resultado se caracteriza por su propio valor de atributo promedio y esta singularidad se descarta cuando llevamos a cabo el proceso de análisis de correlación.

En cualquier caso, creemos que cuando una SERP se trata de forma individual se deben respetar sus características originales.

El análisis de correlación brinda resultados fiables solo cuando se examina la relación entre dos variables, por ejemplo, el impacto del número de backlinks en un resultado de búsqueda.

¿Influye este factor en particular en la posición?

Es posible responder con bastante precisión a esta pregunta, ya que hay una única variable involucrada.

Pero, ¿estamos en condiciones de estudiar cada factor de forma aislada?

Lo más probable es que no, ya que todos sabemos que hay un montón de factores que influyen en la posición que ocupa una URL en los resultados de búsqueda.

Otro criterio para decidir la calidad del análisis de correlación es la variedad de las relaciones recibidas.

Por ejemplo, si hay una línea de relaciones de correlación como (-1, 0.3 y 0.8), es bastante lógico decir que hay un parámetro que es más importante que otro.

Cuanto más cerca esté el valor absoluto de la relación a uno, más fuerte será la correlación.

Si el módulo de la relación es inferior a 0.3, tal correlación puede descartarse: la dependencia entre las dos variables, en este caso, es demasiado débil para llegar a conclusiones fiables.

Para todos los factores que analizamos en el estudio, la relación de correlación era inferior a 0.3, por lo que tuvimos que descartar este método.

Una razón más para descartar este método de análisis fue la alta sensibilidad del valor de correlación con los valores atípicos, y los datos procedentes de muchas palabras clave reflejan muchos de estos valores atípicos.

Si se agrega una entrada con datos adicionales al conjunto, la relación de correlación cambia inmediatamente.

Por lo tanto, esta métrica no puede ser viable en el caso de múltiples variables, como por ejemplo, en un estudio de factores de clasificación, donde incluso puede conducir a deducciones incorrectas.

Al final, resulta difícil creer que existan solo uno o dos factores con un módulo de relación de correlación tan cercano a uno: si fuera cierto, cualquiera podría piratear fácilmente los algoritmos de Google, ¡y todos estaríamos en la posición 1!

Preguntas frecuentes

Aunque tratamos de responder a la mayoría de las preguntas planteadas que surgen entre los profesionales del sector con los datos que te hemos ofrecido en los puntos anteriores, aquí encontrarás algunas respuestas para los lectores más curiosos.

¿Por qué no utilizamos redes neuronales artificiales?

A pesar de que las redes neuronales artificiales son perfectas para manejar un amplio número de variables, como por ejemplo, el reconocimiento de imágenes (porque cada pixel es una variable), arrojan resultados difíciles de interpretar que no nos permiten comparar el peso de cada factor.

Además, este tipo de redes requieren una enorme cantidad de datos y una gran cantidad de características para obtener resultados fiables y los datos que habíamos recopilado no encajaban en esta situación.

A diferencia de Random Forest, donde cada árbol de decisión vota de forma independiente y, por lo tanto, se garantiza un alto nivel de confiabilidad, las redes neuronales procesan los datos destino.

No hay nada que indique que el uso de redes neuronales artificiales para este estudio diera como resultado datos más precisos.

Nuestros requisitos para encontrar el método de análisis adecuado eran la estabilidad y la habilidad del mismo para encontrar la importancia de los diferentes factores.

Por lo tanto, Random Forest era el método perfecto para nuestra tarea, ya que provee de numerosos factores de posicionamiento de naturaleza similar.

¿Por qué son las visitas el factor de posicionamiento más importante para Google?

Baja la mano, que te vamos a responder.

Este es probablemente el punto más controvertido de todo el estudio.

Cuando vimos los resultados nosotros también nos sorprendimos.

Al mismo tiempo, nuestro algoritmo estaba entrenado en un conjunto sólido de datos, por lo que decidimos verificar los hechos.

Para ello, se excluyeron los datos de búsqueda orgánica y de pago, así como el tráfico social y de referencia, y se tuvo en cuenta sólo el tráfico directo.

Los resultados fueron prácticamente los mismos: la distribución de las posiciones permaneció sin cambios (los gráficos en las páginas 40-41 del estudio ilustran este punto).

Para nosotros, estos resultados tienen todo el sentido y confirman que Google prioriza los dominios con mayor autoridad, como ha sido descrito en su documento Search Quality Evaluator Guidelines.

A pesar de que pudiera parecer que la autoridad de dominio es solo una leve excusa y un concepto vago y efímero, en dicho documento queda completamente desmentida esta idea.

No en vano ya en 2015 Google publicó este libro de cabecera para ayudar a aquellos que buscan la calidad de sus proyectos y que reflejaba “que Google piensa en lo que los usuarios quieren”.

Dicho libro de cabecera enuncia tres principios: Experiencia, Autoridad y Confiabilidad como los valores más indicativos de la calidad de una web.

La calidad y cantidad del contenido principal de la web, la información del sitio web (es decir, quién es el responsable de la misma) y la reputación, influyen en estos tres principios de Experiencia, Autoridad y Confiabilidad.

Te sugerimos que pienses en ello de la siguiente manera: si una URL se posiciona entre los primeros 10 resultados es porque posee contenido relevante para una búsqueda.

Sin embargo, para determinar qué posición ocupan esas URLs entre estos primeros diez puestos, Google cuenta con parámetros adicionales.

Todos sabemos que hay un equipo de personas llamados evaluadores de calidad entre bastidores y que son los responsables de entrenar a los algoritmos de búsqueda de Google y de mejorar la relevancia de los resultados.

Según lo recomendado por las Directrices para los Evaluadores de Calidad de Google, deberían dar prioridad a las páginas de alta calidad y también enseñar a los algoritmos a hacerlo.

Por eso, sabemos que el algoritmo de clasificación está entrenado para asignar una posición más alta a las páginas que pertenecen a dominios de confianza y creemos que esta puede ser la razón que se esconde detrás de los datos que recibimos sobre el tráfico directo.

Para obtener más información, consulta nuestro  artículo EAT and YMYL: New Google Search Guidelines Acronyms of Quality Content.

Estudio SEMrush Ranking Factors 2017 - Páginas de alta calidad

Y aún hay más: en la reciente conferencia SMX East, Gary Illyes, de Google, afirmó que “la forma en la que la gente percibe tu web afecta a tu negocio”.

Y aunque esto, según Illyes, no afecta necesariamente a la clasificación que Google hace de tu web, sí parece lógico invertir en ganarse la lealtad de los usuarios porque “usuarios felices = Google feliz”.

Estudio SEMrush Ranking Factors 2017 - Tuit algoritmo Google

Una vez más, ¿qué significa esto para ti?

Que la visibilidad de marca (estimada, entre otras muchas cosas cosas, por el número de visitas directas a tu web) afecta de forma directa a tus resultados de búsqueda y merece la pena que te esfuerces en ello junto con el SEO.

Diferencia entre el impacto de las branded keywords vs las non-branded keywords en los factores de posicionamiento

Como habrás visto, cada gráfico de nuestro estudio presenta un pico notable en la segunda posición.

Prometimos desde la primera edición de nuestro estudio en el mes de junio estudiar más de cerca esta desviación y así, agregar una nueva dimensión.

La segunda edición cubre el impacto de los 3 factores más importantes (visitas directas al sitio web, tiempo de permanencia en el sitio y número de dominios de referencia) en las clasificaciones de una URL en particular, en lugar de solo en el dominio donde reside.

Uno supondría que las webs en el primer puesto son las más optimizadas y, sin embargo, hemos detectado que cada línea de tendencia tuvo una caída en la primera posición.

Conectamos esta desviación con las consultas de búsquedas por palabra clave de una determinada marca.

Así, lo más probable es que un dominio ocupe la primera posición en los resultados de búsqueda para cualquier consulta que contenga su marca dentro de la palabra clave.

Y a pesar de lo bien que se optimice una web, siempre ocupará el número uno de todos modos, por lo que no tiene nada que ver con los esfuerzos de SEO.

Esto explica por qué los factores de clasificación afectan a la segunda posición más que a la primera.

Para probar esta teoría, decidimos analizar nuestros datos desde un nuevo ángulo: investigamos cómo los factores de clasificación afectan a las URLs únicas que aparecen en los SERPs.

Para cada factor, creamos gráficos separados que muestran la distribución de las URLs y los dominios en las primeras 10 posiciones (consulta las páginas 50-54 de nuestro estudio).

Aunque hemos incluido los gráficos solo para los 3 factores más influyentes, la tendencia que descubrimos persiste también en los otros factores.

¿Qué significa esto para ti?

Cuando un dominio consigue una buena posición con una branded keyword, muchos otros factores de posicionamiento pierden su influencia en dicha posición.

Sin embargo, cuando optimices una página para una palabra clave que no contenga el nombre de tu marca, ten en cuenta que los factores de posicionamiento analizados tienen más influencia en las posiciones de la URL única que en el dominio en el que reside.

Eso significa que una página en particular es más sensible a la optimización, a los esfuerzos de link building y a otras técnicas de optimización.

Conclusión: ¿cómo utilizar el estudio de ranking factors?

No hay garantías de que si mejoran las métricas de tu sitio web para cualquiera de los factores anteriores, tus páginas comenzarán a estar mejor posicionadas en los resultados de búsqueda.

Hemos llevado a cabo un estudio muy completo que nos ha permitido llegar a conclusiones fiables sobre la importancia de estos 17 factores para obtener una clasificación más alta en los SERPs de Google.

Sin embargo, nuestro estudio no representa más que un trabajo de ingeniería inversa bien hecho, no es una guía para seguir a rajatabla, pues nadie más que Google conoce todos los secretos.

Dicho lo cual, te recomendamos el siguiente flujo de trabajo para utilizar el estudio:

  • Paso 1

Entender las palabras clave por las que estás posicionando.

¿Pertenecen a grupos de volúmenes de búsquedas bajos, medios o altos?

  • Paso 2

Analízate frente a tu competencia: examina los métodos que hemos utilizado para alcanzar los 10 primeros puestos y sus métricas.

¿Tienen un gran volumen de backlinks?

¿Tienen esos dominios instados certificados de seguridad HTTPS?

  • Paso 3

Utiliza el estudio y comienza a implementar técnicas de optimización que te ofrecerán mejores resultados basados en tus palabras clave y el nivel de posicionamiento de los resultados de búsqueda.

Una vez más, te animamos a que leas con atención nuestro estudio, reconsideres el concepto de Experiencia, Autoridad y Confiabilidad y ¡te regales una buena estrategia SEO!

Read more “Estudio SEMrush ranking factors 2017 — Desmitificando metodologías”

BITCOIN Y BLOCKCHAIN

Bitcoin usa tecnología peer-to-peer o entre pares para operar sin una autoridad central o bancos; la gestión de las transacciones y la emisión de bitcoins es llevada a cabo de forma colectiva por la red. Bitcoin es de código abierto; su diseño es público, nadie es dueño o controla Bitcoin y todo el mundo puede participar. Por medio de sus muchas propiedades únicas, Bitcoin permite usos interesantes no contemplados por ningún sistema de pagos anterior.

Mentiras, grandes mentiras y postverdad

Diarios de referencia de diferentes países reflexionan sobre el valor de la verdad a raíz del éxito de campañas políticas basadas –por lo menos, en parte– en mentiras flagrantes. De esta forma, los medios profundizan en su propia crisis más allá de la disrupción tecnológica y de los cambios en los modelos de negocio. Lo que está en juego no es la forma sino el fondo: la misma sustancia de las sociedades democráticas.
Read more “Mentiras, grandes mentiras y postverdad”

Google RankBrain ¿Que es? ¿Que hace?

En octubre pasado se publicó una entrevista de la Pubcon 2016 en la que Eric Enge (@stontemple) consulta al Googler Gary Illyes (@methode) acerca de varios temas dentro de los cuales estuvo RankBrain.

Este artículo resume parte de los dichos de Gary en esa entrevista e intenta dar un marco simple y práctico de ¿que es? ¿como funciona? y si podemos o no optimizar nuestro SEO para RankBrain. Read more “Google RankBrain ¿Que es? ¿Que hace?”