| |
 |
-
AUTHOR = Indica l'autore della
pagina, in genere identificato con l'"htmlizzatore" piuttosto
che con chi detiene la paternità intellettuale del suo contenuto.
[qui va approfondito se e come tenere ben distinti l'utente/autore
di un documento e la redazione del web che lo diffonde]
-
COPYRIGHT = Dichiarazione esplicita
e sintetica sui diritti relativi al documento, senza link a formulazioni
più articolate.
-
GENERATOR = Indica il software
utilizzato per creare il file HTML. Molti di tali software inseriscono
automaticamente il proprio nome nel file stesso senza neppure "avvertire"
l'utilizzatore. Evidenti le implicazioni pubblicitarie.
-
ROBOT = Indica ai software di
ricerca dei motori (chiamati "robot" o "spider"
) se e come tenere conto della pagina. Non tutti i robot sono però
rispettosi delle indicazioni ricevute.
-
TITLE = Il metatag più
importante. Non dovrebbe mai mancare in una pagina ben costruita e
dovrebbe includere alcune parole particolarmente significative per
individuare la risorsa a cui si riferisce. E' il metatag più
utilizzato e più "pesante" per i motori di ricerca,
che - fra l'altro - lo visualizzano in testa alle "schedine"
che si ottengono effettuando una interrogazione. Inoltre il TITLE,
che potrebbe essere definito come qualcosa a metà strada fra
il soggetto e il titolo uniforme, appare anche nei bookmark e in testa
alla finestra del browser. Alcuni motori permettono di limitare la
ricerca alle sole parole contenute in questo metatag.
-
DESCRIPTION = Breve descrizione
del contenuto della pagina, ovvero un mini-abstract che molti motori
visualizzano nel corpo delle loro "schedine". In caso di
assenza di questo metatag il motore si arrangia da solo, visualizzando
in genere le prime parole presenti nella parte visibile al browser
della pagina (BODY), con risultati talvolta efficaci ma più
spesso inutilizzabili.
-
KEYWORD = Ulteriori parole chiave
(oltre a quelle contenute in TITLE e DESCRIPTION) ritenute particolarmente
significative dall'autore della pagina per caratterizzarne il contenuto.
[qui entra in gioco il thesaurus]
Quando si effettua una ricerca su decine e decine di milioni di documenti
con tecniche di interrogazione non particolarmente sofisticate come
quelle in dotazione ai motori di ricerca web, ci si può facilmente
aspettare di ottenere una quantità esorbitante di risultati,
non sempre facilmente "raffinabili" con ulteriori interrogazioni.
Diventa allora di importanza capitale il criterio utilizzato dal motore
per effettuare l'ordinamento (ranking) dei risultati. Il criterio
più diffuso è quello che i motori stessi amano chiamare
"ordinamento in base alla rilevanza" (relevance ranking),
e che in realtà cela un complesso e mutevole mix (tenuto rigorosamente
segreto per motivi commerciali) di criteri puramente quantitativi e
statistici, fra cui i seguenti:
-
[1] Frequenza = numero di occorrenze
dei termini utilizzati per la ricerca all'interno della singola pagina
recuperata.
-
[2] Densità = rapporto
fra il numero di occorrenze dei termini all'interno della pagina e
il totale delle parole contenute nella pagina.
-
[3] Rarità = rapporto
inverso fra il numero di occorrenze dei termini utilizzati per la
ricerca all'interno del database del motore e il totale delle parole
contenute nel database stesso. Alcuni motori dispongono anche di una
lista di stopwords che vengono ignorate.
-
[4] Compresenza = presenza,
nella pagina, di più d'uno dei termini richiesti o addirittura
di tutti. In questo modo l'operatore booleano AND contribuisce, in
una certa misura, al risultato finale anche se nella ricerca iniziale,
come spesso avviene, è impostato di default l'OR.
-
[5] Prossimità = presenza,
nella pagina, di più d'uno dei termini richiesti - o addirittura
di tutti - nella medesima frase o comunque vicini fra loro.
-
[6] Priorità = ordine
in cui sono stati immessi i termini nel form di ricerca.
-
[7] Posizione = presenza dei
termini in particolari zone della pagina. Nella sezione visibile BODY
vengono tipicamente "premiate" le prime parole e quelle
contenute nei tag H e HREF (ovvero nei vari titoletti (heading)
e nei link). La sezione nascosta HEAD è complessivamente "premiata"
più di quella BODY. In particolare vengono considerati particolarmente
"pesanti" il TITLE e, in subordine, KEYWORD e DESCRIPTION.
-
[8] Aggiornamento = a parità
di requisiti, alcuni motori privilegiano le pagine più recenti
-
[9] Popolarità = numero
dei link "in entrata" provenienti da altre pagine contenute
nel database del motore e numero delle selezioni della pagina effettuate
dagli utenti a partire dalle schermate di risposta del motore. Si
tratta di un criterio di recente introduzione e ancora poco utilizzato.
-
[10] Tariffazione = Altavista
ha recentemente annunciato che sarà possibile, pagando, garantire
una posizione di rilievo alle proprie pagine nella schermata di risposta.
C'è chi sospetta che tale criterio sia già utilizzato
da vari motori senza dichiarazioni esplicite, almeno per quanto riguarda
pagine relative a prodotti propri o di aziende collegate.
Appare evidente, in questo contesto, l'importanza, ai fini del recupero
dell'informazione disponibile in rete, della presenza di appropriati
metatag nelle pagine web, che contribuirebbero in maniera determinante
a ridurre quell'information overload di cui molti si lamentano.
Un'altra opinione, per molti versi affascinante, è l'approccio
caotico alla ricerca e indicizzazione. C' è chi ne parla con
una proposta da non sottovalutare
(Pagina aggiornata il 23.06.2000)
|
|