Orígenes del Link Building y Machine Learning

Orígenes del Link Building y Machine Learning

Orígenes del Link Building

El origen del link building, se desarrolló como un modelo algorítmico, conocido como Page Rank. Fue creado por los fundadores de Google (Larry Page y Sergey Brin) en 1996.

Link Building y Machine Learning

El SEO no es data science ni machine learning, y esto es algo que las agencias de posicionamiento web y agencias de desarrollo web en Valladolid, conocen,  pero desde luego ayuda y estás lo utilizan a su favor, de hecho, puedes ir aquí y leer sobre este tema donde argumento de forma lógica todo esto en profundidad o a este otro artículo de estrategias de linkbuilding. Dentro del mundo del machine learning existen varios tipos de algoritmos, según los casos de uso: –ClasificaciónRegresiónClusteringDetección de AnomalíasNLP (procesamiento del lenguaje natural). Vale pues vamos a ver que procesos y validaciones matemáticas y estadísticas muy básicas han de llevarse a cabo antes de implementar modelo algorítmico con varias dimensiones (en el caso de este estudio y para una mejor compresión hablaremos de métricas SEO). El objeto de esta investigación no es otra que determinar si es necesario usar cuantas más métricas mejor, o si por el contrario podemos reducir estas dimensiones y con un Nº determinado de características (Métricas SEO) tendremos suficiente información. Veamos el proceso a continuación.

Obtención de datos

Descargarnos un listado de backlinks (vía api, csv,excel etc) y conseguimos todas las métricas objeto del estudio (DR, UR, CF, TF, DA y PA)

Importación de Datos y Librerías

Importamos la fuente de datos (csv, json, api etc) a un dataframe, en mi caso Jupyter Notebook e instalamos las librerías necesarias que vamos a utilizar: Pandas, Numpy y Matplotlib.

Objetivo del Estudio

Determinar si podemos desechar algunas de estas características Off Page (DR-UR-TF-CF-DA-PA). Por ello intencionadamente y antes de empezar el modelado de datos o data wrangling, debemos tener en cuenta estas y solo estas ya que son métricas o modelos formulados por terceros que pueden ser más o menos acertados y aportarán más o menos información en el conjunto de datos (perfil de enlaces). Nota: nos centramos exclusivamente en estas para conocer cual aporta más información y cuales debemos eliminar, por que la finalidad de este estudio es determinar la calidad y/o cantidad de información que aportan cada una de las métricas de estas tools.

Eliminación de Características que no son Objeto del Estudio

Evidentemente en un modelo algorítmico de clustering, habríamos de tener en cuenta muchas más características como: keywords posicionadas de cada backlink, trafico, referring domains, external links, anchor de cada backlink y una larguísimo etc. Pero este no es el objetivo de este estudio. Hacemos drop a todas las columnas innecesarias, quedándonos sólo con aquellas que nos interesan para el estudio.

Visualización de los datos

Visualizamos con .head() los datos y nos aseguramos que hemos eliminado todas las características que no necesitamos

Normalización de los Datos

Consiste en estandarizar o homogeneizar cada uno de los valores y para cada una de las dimensiones (métricas) para que tengan la misma escala o rango. Existen varios métodos, los más conocidos son: Minmax (Escala y traduce cada característica individualmente de tal manera que está en el rango de 0 – 1) Maxabs (Escala y traduce cada característica individualmente de tal manera que el valor absoluto máximo de cada característica será 1.0. No desplaza el centro los datos, y por lo tanto no elimina ninguna dispersión.) Robust (Escala y traduce cada característica según el rango intercuartílico. Cuando el conjunto de datos contiene outliers, este escalador suele dar mejores resultados.) Para este estudio emplearemos el más estándar de todos ellos Minmax.

Reducción de la Dimensionalidad

Probablemente algunas de estas métricas SEO de estas herramientas, nos dan la misma información. Es decir, tendremos que demostrar si éstas tienen o no una correlación lineal directa u otro tipo de correlación. En base a ello y dependiendo de si lo que nos interesa es la información a nivel dominio o la información a nivel URL tomaremos las decisiones oportunas, pero siguiendo un modelo matemático y científico bastante conocido “La Reducción de la Dimensionalidad”

Pearson

Calculamos el Coeficiente de Correlación según Pearson r=∑zxzyN−1 Representamos una matriz con el cálculo y visualizamos la Correlación entre Variables.

Matriz de Correlación de Variables
Matriz de Correlación de Variables

Si este coeficiente es igual a 1 o -1 (o cercano a estos valores) significa que una variable es fruto de una transformación lineal de la otra. Por tanto, cuando el valor sea de 1 o muy próximo a 1 existe una correlación lineal directa (es decir cuando una variable aumenta, la otra también), por otro lado existirá una relación inversa cuando los valores sean -1 o próximos a -1 (es decir cuando una variable aumenta la otra disminuye). Mientras que, Si r = 0 (o cercano a este valor) no existe relación lineal, aunque puede existir algún otro tipo de relación no lineal y de hecho en SEO ocurre.

Ploteado de Matriz

Ploteamos la matriz para facilitar la interpretación visual de la correlación entre variables.

Plot de Matriz de Correlación

Ploteamos los pares de variables que según la matriz tienen una correlación lineal clara

Gráficos Métricas SEO

Nota: Obsérvese que existen outliers y además Pearson es sensible a estos, pero existe sin lugar a dudas correlación para cada par de variables. En este caso positivas, es decir cuanto más alto es el Domain Rating más alto es el URL Rating y cuanto más alto es el Citation Flow más alto es el Trust Flow. Coeficiente de correlación entre Variables para el DR y UR = 0.764402 Coeficiente de correlación entre Variables para el CF y TF = 0.847765

Ploteamos los pares de variables que según la matriz NO tienen una correlación lineal clara pero su valor está próximo a 0

Gráficos Métricas SEO II

Nota: Obsérvese que de nuevo también existen outliers, pero es que en este caso concreto el valor o coeficiente de correlación para este par de variables según Pearson es muy próximo a 0 y por tanto según definición no existe relación lineal, pero como SEOS si sabemos que existe una relación clara y muy similar a las que acabamos de comentar, veamos cuál es su valor. Coeficiente de correlación entre Variables del DA y PA = 0.016899

Conclusiones según Pearson

Teníamos 6 variables DR-UR-CF-TF-DA-PA de tres herramientas diferentes Ahrefs, Majestic y MOZ. Gracias al data science ósea, a seguir un modelo científico y en el caso concreto que nos ocupa gracias al Coeficiente de Correlación entre Variables de Pearson, ahora SABEMOS QUE PODEMOS Y DEBEMOS REDUCIR ESTAS DIMENSIONES. Pero antes de proceder a eliminar 3 de estas características siguiendo al pie de la letra la metodología empleada, debemos valorar que cantidad de información sustancial perderemos al hacerlo ¿Cómo? Vamos con ello.

PCA o Análisis de Componente Principales

Es un viejo conocido dentro de los algoritmos de machine learning y entre los data scientist, nos va a servir para determinar si eliminamos 1, 2 o incluso 3 de las métricas y el porcentaje de información que tendremos o perderemos en cada caso. Veamos como Lo primero que habría que hacer es visualizar los datos de nuevo, después y dado que anteriormente hemos visto que el conjunto de datos tenía outliers deberíamos llevar a cabo otro método de normalización. En este caso “robust” (que recuerdo era menos sensible a outliers). Pero para no liar más aun el tema y agilizar todo esto un poco utilizaremos lo siguiente:

Importamos la librería Sklearn y de ella PCA y StandardScaler

Código oculto lee hasta el final

Normalizamos de nuevo los datos esta vez directamente con

Código oculto lee hasta el final

Calculamos la media para poder hacer la transformación

Código oculto lee hasta el final

Escalamos los datos y los transformamos

Código oculto lee hasta el final

Instanciamos el objeto PCA y aplicamos el Número de Componentes

Código oculto lee hasta el final

Obtenemos los componentes principales

Código oculto lee hasta el final

Convertimos nuestros datos con las nuevas dimensiones de PCA

X_pca=pca.transform(X_scaled) Ahora le decimos que tenga en cuenta solo 5 variables y no las 6 que teníamos inicialmente para ver la cantidad de información que tendremos y por tanto la que perderíamos. Además, nos dirá cuanta información de forma exacta contiene cada variable(métrica) para este conjunto de backlinks dado. Código oculto lee hasta el final Resultado shape of X_pca (429, 6) [0.44473356 0.31959611 0.13659222 0.0471021 0.02883971 0.02313629] suma: 0.9768637136335769

Interpretación de PCA

La componente de la primera Variable o DR contiene cerca del 44% de la información La componente de la segunda Variable o UR contiene cerca del 31% de la información La componente de la tercera Variable o CF contiene cerca del 13% de la información La componente de la cuarta Variable o TF contiene cerca del 0.047% de la información La componente de la quinta Variable o DA contiene cerca del 0.028% de la información La componente de la sexta Variable o PA contiene cerca del 0.02% de la información Por tanto, con 5 variables tenemos el 97% de la Información aprox. Por tanto, con 4 variables tenemos el 94% de la Información aprox. Por tanto, con 3 variables tenemos el 90% de la Información aprox.

Graficamos el acumulado de varianza explicada en las nuevas dimensiones para que la interpretación visual sea más clara

Gráfico PCA

Podemos y hemos demostrado que con 3 variables tendremos suficiente cantidad de información y es absurdo utilizar más variables no tiene ningún sentido creer que vamos a realizar mejores análisis si usamos estas 6 métricas para cada uno de nuestros backlinks. Básicamente si eres un SEO intermedio o avanzado ya sabías esto de antemano, las seis dicen cosas muy parecidas o similares unas a nivel URL y otras a nivel Dominio y además como he demostrado están correlacionadas por pares algo también evidente teniendo en cuenta que cada par correlacionado pertenece a su propia herramienta. Pero ¿lo habías validado siguiendo un modelo científico? Desde hoy queda probado ¿no te parece? Pero… ¿cuáles debemos eliminar de cada par? Vamos con ello Como ahora sabemos que para un conjunto de backlinks, basta con tres dimensiones ya que tendremos un 90% aprox de la información, es hora de tomar una decisión basada en el conocimiento y/experiencia que tengamos del sector, en este caso el SEO. Esto es algo super importante y que muchas veces determina la calidad del proceso y de las conclusiones del estudio. Si quisiéramos analizar la fortaleza a nivel dominio de nuestros backlinks pues ya sabes cual tienes que escoger y cual desechar. Por el contrario, si quieres analizar la fortaleza a nivel URL de tus backlinks pues más de lo mismo.

Apreciaciones finales

El objeto de este estudio se ha llevado a cabo para: 1. Establecer si existe o no correlación entre cada par de variables/métricas para medir la autoridad de dominio y la autoridad de URL CONFIRMAMOS QUE, EXISTE CORRELACIÓN Y SON MÉTRICAS COHERENTES ENTRE CADA PAR, A PESAR DE QUE PARA PA Y DA NO ESTABA TAN CLARA LA COSA SEGUN PEARSON. DADA ESTA CORRELACIÓN LINEAL PODEMOS PLANTEARNOS ELIMNAR VARIABLES ¡Gracias Pearson! 2. Determinar que variables/métricas de cada herramienta (Ahrefs, Majestic y MOZ) aportan más información y cuáles menos para un determinado perfil de enlaces sin dejar margen a ningún tipo de dudas. CONFIRMAMOS QUE LAS 2 MÉTRICAS QUE MÁS INFORMACIÓN APORTAN DE ESTAS 6, LE PESE A QUIEN LE PESE, SON EL DR Y EL UR DE AHREFS. BIEN POR LA FORMLUACIÓN BASE DE ESTAS O BIEN POR EL TAMAÑO DE SU INDICE 5.02 BILLONES DE PAGINAS ETC. SERÍA INTERESANTE ANALIZAR ESTO EN PROFUNDIDAD… ¡Gracias PCA! 3. Arrojar algo de luz y metodología científica y aprender nuevas formas de medir las cosas. ¡EL SEO NO ES DATA SCIENCE NI MACHINE LEARNING, PERO NO VEAS COMO AYUDA PARA TENER UN CONOCIMIENTO MÁS PROFUNDO Y REAL SOBRE EL SECTOR! 4. Cerrar debate sobre si esta métrica o la otra es mejor o peor, es absurdo, ha quedado demostrado. Es bueno conocerlas, pero también es bueno contrastar y experimentar las cosas y no dar por hecho algo, por muy buena que parezca su teoría, su marketing o sus métricas SEO. 5. Pese a los resultados obtenidos en este estudio quiero dejar claro dos cosas: A) DR y UR no dejan de ser unas métricas inventadas o desarrolladas por un tercero con la finalidad de organizar en una escala de 0 al 100 la autoridad a nivel de dominio y url para cada página/web de su index. Pero todos sabemos que se pueden manipular, aunque cada vez menos. B) Personalmente debo confesar que prácticamente solo las utilizo para determinar ciertas tendencias o patrones dentro de un perfil de enlaces y que son con mucho las que menos me importan y donde menos tiempo empleo.

¡ESPERA NO TE VAYAS TE PROPONGO UN TRUEQUE!

Si este artículo te ha resultado útil e interesante me gustaría ver o comprobar hasta que punto el contenido de calidad (creo que este lo es) genera links follow hacia esta URL tal y como dice papi Google (aunque me imagino lo que ocurrirá…ni dios lo va a enlazar jajaja). Por esto si deseas que te envíe por email el dataframe de Jupyter Notebook con el estudio y el código completo sin ocultar que he comentado sobre métricas seo para que lo uses cada vez que tu quieras… TE PROPONGO ESTO: LINKAME CON FOLLOW en alguna de tus webs si esta sana y esta relacionada con el SEO, el marketing, la publicidad etc OJO con anchor de URL con o sin protocolo, pero de URL (no me la líes please) usa ALGUNO DE ESTOS ANCHORS para enlazarme: Anchor 1: https://seovalladolid.es/link-building Anchor 2: seovalladolid.es/link-building Envíame un email con el link que me hayas puesto a seovalladolid.es@gmail.com TE PROMETO QUE EN EL MOMENTO QUE TU LINK ESTE INDEXADO, ESE MISMO DÍA TENDRÁS EL DATAFRAME EN TU BANDEJA DE EMAIL PARA QUE PUEDAS DISFRUTARLO ¿Qué será lo próximo? Probablemente temas de scraping o machine learning todavía no lo he decidido. ¿Cuándo? Ni puta idea, cuando tenga tiempo espero en breve… ¿Algo más? SI MIS OBJETIVOS PARA ESTE 2024 a)Prometo seguir haciendo de vez en cuando mega posts como este, con contenidos, sobre los que no vas a encontrar ninguna información en internet. b)Prometo seguir siendo un cuarentón completamente irreverente, adolescente e impredecible. c)Prometo aportar mi granito de arena metiendo spam a Google para “darle por culo aunque represente un 0.0000000000002% del spam mundial (todos deberíamos contribuir a la causa jajaja) o ¿crees que Google es una empresa que apareció para universalizar y transmitir el conocimiento gratuitamente? d)Prometo no poner casi fotos en mis post aunque sólo sea por llevar la contraria (salvo casos absolutamente necesarios en los que entramos en modo I+D claro).