Centro di Coordinamento degli Enti Territoriali Forum per la Società dell'Informazione Barra del titolo
 
Piano 2000
Documento 1999
 
Gruppo di lavoro
Segnalazioni stampa
Statistiche
 
   
 
  Mappa del sito

      Curiosità Novità  
   
 Piano 2000 - Attività per il 2000 - Motori di ricerca
 
  Barra lateraleCompetenze e referentiForma organizzativaObiettiviAttivitàBudget 2000Consuntivo 1999

 

Da un articolo di Riccardo Ridi, Metadata e metatag: l'indicizzazione a metà strada fra l'autore e il lettore, pubblicato il 29 settembre 1999 sul sito web di AIB, abbiamo estratto la parte relativa ai motori di ricerca, che qui riproponiamo.

I motori di ricerca [usano attualmente criteri e campi molto semplici e] prendono in considerazione una serie di "metatag" molto meno sofisticati [di quanto previsto dagli standard] ma ben più diffusi, fra cui i seguenti:

  • AUTHOR = Indica l'autore della pagina, in genere identificato con l'"htmlizzatore" piuttosto che con chi detiene la paternità intellettuale del suo contenuto. [qui va approfondito se e come tenere ben distinti l'utente/autore di un documento e la redazione del web che lo diffonde]

  • COPYRIGHT = Dichiarazione esplicita e sintetica sui diritti relativi al documento, senza link a formulazioni più articolate.

  • GENERATOR = Indica il software utilizzato per creare il file HTML. Molti di tali software inseriscono automaticamente il proprio nome nel file stesso senza neppure "avvertire" l'utilizzatore. Evidenti le implicazioni pubblicitarie.

  • ROBOT = Indica ai software di ricerca dei motori (chiamati "robot" o "spider" ) se e come tenere conto della pagina. Non tutti i robot sono però rispettosi delle indicazioni ricevute.

  • TITLE = Il metatag più importante. Non dovrebbe mai mancare in una pagina ben costruita e dovrebbe includere alcune parole particolarmente significative per individuare la risorsa a cui si riferisce. E' il metatag più utilizzato e più "pesante" per i motori di ricerca, che - fra l'altro - lo visualizzano in testa alle "schedine" che si ottengono effettuando una interrogazione. Inoltre il TITLE, che potrebbe essere definito come qualcosa a metà strada fra il soggetto e il titolo uniforme, appare anche nei bookmark e in testa alla finestra del browser. Alcuni motori permettono di limitare la ricerca alle sole parole contenute in questo metatag.

  • DESCRIPTION = Breve descrizione del contenuto della pagina, ovvero un mini-abstract che molti motori visualizzano nel corpo delle loro "schedine". In caso di assenza di questo metatag il motore si arrangia da solo, visualizzando in genere le prime parole presenti nella parte visibile al browser della pagina (BODY), con risultati talvolta efficaci ma più spesso inutilizzabili.

  • KEYWORD = Ulteriori parole chiave (oltre a quelle contenute in TITLE e DESCRIPTION) ritenute particolarmente significative dall'autore della pagina per caratterizzarne il contenuto. [qui entra in gioco il thesaurus]

Quando si effettua una ricerca su decine e decine di milioni di documenti con tecniche di interrogazione non particolarmente sofisticate come quelle in dotazione ai motori di ricerca web, ci si può facilmente aspettare di ottenere una quantità esorbitante di risultati, non sempre facilmente "raffinabili" con ulteriori interrogazioni. Diventa allora di importanza capitale il criterio utilizzato dal motore per effettuare l'ordinamento (ranking) dei risultati. Il criterio più diffuso è quello che i motori stessi amano chiamare "ordinamento in base alla rilevanza" (relevance ranking), e che in realtà cela un complesso e mutevole mix (tenuto rigorosamente segreto per motivi commerciali) di criteri puramente quantitativi e statistici, fra cui i seguenti:

  • [1] Frequenza = numero di occorrenze dei termini utilizzati per la ricerca all'interno della singola pagina recuperata.

  • [2] Densità = rapporto fra il numero di occorrenze dei termini all'interno della pagina e il totale delle parole contenute nella pagina.

  • [3] Rarità = rapporto inverso fra il numero di occorrenze dei termini utilizzati per la ricerca all'interno del database del motore e il totale delle parole contenute nel database stesso. Alcuni motori dispongono anche di una lista di stopwords che vengono ignorate.

  • [4] Compresenza = presenza, nella pagina, di più d'uno dei termini richiesti o addirittura di tutti. In questo modo l'operatore booleano AND contribuisce, in una certa misura, al risultato finale anche se nella ricerca iniziale, come spesso avviene, è impostato di default l'OR.

  • [5] Prossimità = presenza, nella pagina, di più d'uno dei termini richiesti - o addirittura di tutti - nella medesima frase o comunque vicini fra loro.

  • [6] Priorità = ordine in cui sono stati immessi i termini nel form di ricerca.

  • [7] Posizione = presenza dei termini in particolari zone della pagina. Nella sezione visibile BODY vengono tipicamente "premiate" le prime parole e quelle contenute nei tag H e HREF (ovvero nei vari titoletti (heading) e nei link). La sezione nascosta HEAD è complessivamente "premiata" più di quella BODY. In particolare vengono considerati particolarmente "pesanti" il TITLE e, in subordine, KEYWORD e DESCRIPTION.

  • [8] Aggiornamento = a parità di requisiti, alcuni motori privilegiano le pagine più recenti

  • [9] Popolarità = numero dei link "in entrata" provenienti da altre pagine contenute nel database del motore e numero delle selezioni della pagina effettuate dagli utenti a partire dalle schermate di risposta del motore. Si tratta di un criterio di recente introduzione e ancora poco utilizzato.

  • [10] Tariffazione = Altavista ha recentemente annunciato che sarà possibile, pagando, garantire una posizione di rilievo alle proprie pagine nella schermata di risposta. C'è chi sospetta che tale criterio sia già utilizzato da vari motori senza dichiarazioni esplicite, almeno per quanto riguarda pagine relative a prodotti propri o di aziende collegate.

Appare evidente, in questo contesto, l'importanza, ai fini del recupero dell'informazione disponibile in rete, della presenza di appropriati metatag nelle pagine web, che contribuirebbero in maniera determinante a ridurre quell'information overload di cui molti si lamentano.

Un'altra opinione, per molti versi affascinante, è l'approccio caotico alla ricerca e indicizzazione. C' è chi ne parla con una proposta da non sottovalutare

(Pagina aggiornata il 23.06.2000)

 
   
   
 
Cornice di chiusura