Indicizzazione
Come funziona l'indicizzazione sui motori di ricerca?
Definizione di indicizzazione
L'indicizzazione di un sito internet è la procedura che porta all'inserimento di un sito web negli archivi dei motori di ricerca. L'indicizzazione è dunque il passaggio che consente ai motori di riconoscere un sito ed inserirlo nelle pagine di risposta alle interrogazioni degli utenti.
Differenze tra indicizzazione e posizionamento
Altra cosa è invece il posizionamento, il cui obiettivo è invece il fare in modo che un determinato sito internet compaia il più in alto possibile nell'elenco dei risultati dei motori di ricerca.
L'attività dei motori di ricerca
I motori di ricerca setacciano la rete con i propri spider, software che funzionano come scandagli, noti anche come bot o robot. Questi spider visitano proprio come un utente le singole pagine già indicizzate alla ricerca di nuovi contenuti da inserire nei propri archivi. Consultano i vari collegamenti, navigano da una pagina all'altra, rimbalzando di sito in sito, proprio come un comune utente.
Terminata questa fase i motori classificano le varie pagine memorizzate e le posizionano in base a delle parole chiave che rispecchino il più possibile il sito.
Il PageRank di Google
Ogni motore utilizza algoritmi diversi e proprietari, come il
PageRank di
Google, che attribuisce ad una pagina una
importanza che viene misurata in base al
numero di collegamenti che puntano a tale pagina dagli altri siti internet.
Il PageRank è un algoritmo di pesatura che assegna un valore numerico ad ogni elemento con lo scopo di quantificare la sua importanza relativa all'interno della serie.
L'algoritmo per il calcolo del PageRank è stato sviluppato dai fondatori di Google: Sergey Brin e Larry Page (da cui deriva il nome di PageRank, o Rango di Page, e non della pagina...) ed è riconducibile alla seguente formula:
Dove:
- PR[A] è il valore di PageRank della pagina A che vogliamo calcolare.
- n è il numero di pagine che contengono almeno un link verso A. Pk rappresenta ognuna di tali pagine.
- PR[Pk] sono i valori di PageRank di ogni pagina Pk.
- C[Pk] sono il numero complessivo di link contenuti nella pagina che offre il link.
- d (damping factor) è un fattore deciso da Google e che nella documentazione originale assume valore 0,85. Può essere aggiustato da Google per decidere la quota di PageRank che deve "transitare" da una pagina all'altra e il valore di PageRank minimo attribuito ad ogni pagina in archivio.
La complessità della formula, che rappresenta comunque una semplificazione del reale algoritmo effettivamente utilizzato, rende una prima idea di quanto sia complesso ottenere un buon posizionamento sui motori.
L'interpretazione e la definizione della popolarità di un sito non sono però legate soltanto a queste votazioni, ma tengono conto anche della pertinenza del contenuto di una pagina, nonché delle pagine correlate, con i termini ed i criteri della ricerca effettuata.
Altro importante elemento che lega un sito alla sua popolarità è relativo alla diffusione, alla popolarità dell'argomento trattato in esso. Per argomenti poco richiesti i siti raggiungono facilmente le prime posizioni nelle ricerche, ma altrettanto verosimilmente posseggono e mantengono un page rank che potrebbe essere molto basso.
Fonti delle informazioni:
1. Sergey Brin; Larry Page The Anatomy of a Large-Scale Hypertextual Web Search Engine. Stanford University, 1998.
2. Wikipedia.
fabbricasiti.com