CARATTERISTICHE DEI MOTORI DI RICERCA E TECNICHE DI RICERCA
ProZ.com global directory of translation services
ProZ.com is home to the world's largest community of professional translators

ProZ.com Translation Article Knowledgebase

Articles about translation and interpreting

Article Categories
Search Articles


Advanced Search
About the Articles Knowledgebase
ProZ.com has created this section with the goals of:

Further enabling knowledge sharing among professionals
Providing resources for the education of clients and translators
Offering an additional channel for promotion of ProZ.com members (as authors)

We invite your participation and feedback concerning this new resource.

Article Options
Your Favorite Articles
View All Favorites
Recommended Articles
  1. Getting the most out of ProZ.com: A guide for translators and interpreters
  2. ProZ.com User Manual
  3. ProZ.com site glossary
  4. Seven easy (and free) ways to boost your profile traffic
  5. Prices, Service and Marketing
No recommended articles found.
Popular Authors
  1. Esteban Flamini
  2. Nicholas Pizzigati
  3. Tobi
  4. sylver
  5. Timur Narkuziev
No popular authors found.

 »  Articles Overview  »  Language Specific  »  Italian  »  CARATTERISTICHE DEI MOTORI DI RICERCA E TECNICHE DI RICERCA

CARATTERISTICHE DEI MOTORI DI RICERCA E TECNICHE DI RICERCA

By Maria Antonietta Ricagno | Published  12/13/2004 | Italian | Recommendation:
Contact the author
Quicklink: http://pol.proz.com/doc/109
Author: Maria Antonietta Ricagno
Włochy
angielski > włoski translator
Member since Sep 2 2004
 
View all articles by Maria Antonietta Ricagno

See this author's ProZ.com profile
CARATTERISTICHE DEI MOTORI DI RICERCA E TECNICHE DI RICERCA
Il problema più complesso da risolvere quando si usa un motore di ricerca è quello della mole di

risultati che si ottengono e della rilevanza da assegnare loro.
L'efficacia di un motore è, infatti, determinata principalmente dalla sua capacità di elencare in

modo ponderale le risposte alla nostra interrogazione.
Non solo, ma anche quella di interpretare la nostra interrogazione, aspetto questo estremamante
difficoltoso, dal momento che si tratta di un meccanismo automatico e non di una persona

intelligente.
Quando sottomettiamo una parola chiave ad un motore di ricerca, il povero 'server della gleba'

incaricato spulcia ogni rifermento possibile nel database ed estrae tutte le ricorrenze che
ci possono soddifare, quindi le ordina secondo un criterio che dipende dall'algoritmo di rilevanza

che caratterizza il motore scelto.
I motori principali hanno dei criteri che li diversificano e che sarebbe molto opportuno conoscere

per poterli sfruttare al meglio ,magari utilizzandoli in modo diversificato per soluzioni diverse.
Così come sarebbe necessario spesso utilizzare i metodi di ricerca avanzati, in alternativa alla

solita e semplice compilazione di una serie di parole.
Quello che ci proponiamo con questo articolo, è una'esplorazione un poco più puntuale delle forme

di utilizzo dei motori e di alcuni metamotori che riteniamo più precisi e utili.
Per tutti i motori la logica di rilevanza è ancora quella della frequenza di termini nei metatag

combinate con quelli che si trovano all'interno della pagina.
con il termine metatag si definisce una serie di descrittori della pagina web che vanno dal titolo,

alla descrizione (che resterà nascosta al browser), alle keyword ed a vari altri campi come autore

e lingua.

GOOGLE.
CRITERI DI RILEVANZA.
Senz'altro è quello che anche chi legge utilizza più spesso. In effetti, è l'URl più sottomesso e

da solo copre il 90% delle richieste fatte a tutti i motori.
La sua risoluzione della rilevanza dei risultati si basa su un algoritmo con un centinaio di

parametri.
Le linee guida, comunque, sono ben precise: viene data maggiore rilevanza alle pagine con più alta

LINK POPULARITY, a quelle con una frequenza accettabile di parole ricercate e una certa densità

delle stesse.
Il primo concetto significa che più relazioni esterne a quella pagina definiscono la sua

certificazione come significativa.
Il secondo concetto determina che se molte parole ricorrono all'interno della pagina allora

l'argomento di quella pagina è quello cercato.
Il terzo dice che le parole cercate che sono vicine sono effettivamente più significative di altre

che ricorrono nella pagina ma sono lontane tra loro.

Criteri di ricerca avanzata.
Stringhe e parole:
questi criteri permettono di ridurre notevolmente il numero di risultati e di averli più precisi

nei confronti delle effettive aspettative
se si vogliono cercare due o più parole che ricorrano insieme
ad esempio: software e localizzazione
software+localizzazione
una maggiore precisione e sfoltimento si ottiene citando la frase da cercare
"localizzazione software"
queste ricerche sono di tipo AND nella logica booleana, perchè si vuole ottenere la ricorrenza di

tutte le parole richieste.
Vi sono altri due criteri booleiani che possono essere utili:
- cercare una parola e un'altra alternativa (OR), per cui si cercano tutte le pagine che abbiano
il temine 'software' oppure il termine 'localizzazione'. In questo caso, si otterrà una somma dei

due criteri e quindi un maggior numero di risultati.

localizzazione OR software

- cercare pagine che non abbiano un termine, ovviamente se la ricerca venisse fatta per soddisfare

questo solo criterio otterremmo una lista talmente ridondante da risultare inutile.
Tale criterio,invece, diventa molto efficace se abbinato ad uno dei due altri criteri precedenti.
ad esempio, si potrebbe voler cercare pagine che contengano la frase "localizzazione software" ma

non la parola "Microsoft".
la ricerca sarà: http://www.google.com/search?as_q= "localizzazione software" - Microsoft

note:
Parole comuni come articoli e preposizioni non sono presi in considerazione nella ricerca:
se si vuole al contrario che rqppresentino il criterio di ricerca si deve mettere il simbolo

'+'.Esempio 'localizzazione+del+software'

Altri criteri che riducono l'insieme dei risultati sono:
Cercare documenti limitati ad una sola Lingua di redazione. Questo è un criterio rischioso, in

quanto non tutti i documenti riportano nei metatag la lingua di stesura. In ogni caso, chi lo

riportasse darebbe un peso ben determinato a questa proprietà e senz'altro sarebbe un criterio di

qualità.
l'indirizzo sarà:
http://www.google.com/search?as_q=localizzazione+software&lr=lang_it per cercare solo le pagine in

italiano

Cercare documenti in un certo formato file oppure escluderne uno dalla ricerca.
Utilizzare questo criterio non porta a nessun valore di ricerca di dati, ma può escludere i

documenti in formati che non possiamo acquisire o non intendiamo acquisire.

cercare i documenti con range di data.
Questo criterio permette di determinare a priori se la nostra ricerca ha delle scadenze o è

preferibile avere soltanto documenti recenti oppure no.
Con GOOGLE il criterio si limita a tre metagruppi (tutti, ultimi 3 mesi, ultimi 6 mesi, ultimo

anno).
per ecludere i pdf la frase da sottomettere sarà:
localizzazione software -filetype:pdf

cercare i termini localizzati in domini definiti (o in eclusione).
Se si volesse cercare nel mio sito pagine dedicate alla localizzazione software la frase sarebbe:
localizzazione software site:antotranslation.com
Con questo criterio, si cerca all'interno di un dominio o ragguppamenti di domini.
Ad esempio, tutti i domini della gerarchia italia (.it)

cercare i termini localizzati in parti precise del testo (o in eclusione).
Se volessimo dare importanza solo a quei documenti che abbiano il termine ricercato nel titolo, nel

testo, nell'indirizzo URL o nei link interni.
Quello del titolo può essere un criterio significativo, in quanto se un termine è presente nel

titolo è senz'altro più rilevante di un altro che sia presente solo nel testo, poichè probabilmente

è il titolo a dare la maggior definizione del contenuto documentale.
Da rilevare che per titolo il motore definisce i tag htm 'H' e le frasi con un corpo grafico oltre

lo standard.
per cercare la frase nel titolo
allintitle: localizzazione software

per cercare la frase nel corpo
allintext: localizzazione software

Anche la presenza del termine nel nome del dominio identifica con maggiore puntualità la rilevanza

di un argomento.
Se una pagina si chiama 'localizzazionesoftware.htm' molto probabilmente tratta di questo

argomento.
per cercare la frase nell'indirizzo web
allinurl: localizzazione software



YAHOO
CRITERI DI RILEVANZA.
il testo nella pagina, l'accuratezza del titolo e della descrizione, il suo indirizzo (URL), la

fonte, i link presenti nella pagina ed in altre pagine che la citano, e altre caratteristiche del

sito web.

Criteri di ricerca avanzata.
In Yahoo la ricerca avanzata copre molti dei criteri già visti per Google
Le sintassi per frase esatta, OR, AND ed esclusione sono del tutto simili.
La presenza della parola nel titolo
intitle:localizzazione+software
La presenza della parola nel dominio
inurl:localizzazione+soft
La presenza della parola nel titolo
intitle:"localizzazione software"
localizzazione OR software
Ricerca in dominio
http://it.search.yahoo.com/search?va=localizzazione+software&vs=www.antotranslation.com
Per tipo file
http://it.search.yahoo.com/search?va=localizzazione+software&vf=pdf
Lingua
http://it.search.yahoo.com/search?va=localizzazione+software&vl=lang_it

ICEROCKET
Criteri di ricerca avanzata.
frase esatta:
"localizzazione software"
OR
localizzazione OR software
esclusione
-localizzazione -software
dominio
localizzazione software site:antotranslation.com
Buona la ricerca tra le news, suddivise in 5 categorie

MSN
Criteri di ricerca avanzata.
frase esatta:
"localizzazione software"
OR
(localizzazione OR software)
esclusione
-(localizzazione software)
dominio
localizzazione software site:antotranslation.com
in dominio
link:antotranslation.com
paese di provenienza
(loc:IT OR loc:AU)
lingua:
language:it
Una particolarità di MSN search è la possibilità di calibrare la visibilità dei risultati con tre

barre a scorrimento nella ricerca avanzata, in modo visuale, o impostando dei valori da
0..100 nella stringa di comando.
I criteri sono:
corrispondenza esatta {mtch=50}
indice di popolarità (link popularity) {popl=50}
indice di aggiornamento della pagina {frsh=50}

ALLTHEWEB
Criteri di ricerca avanzata.
In ALLTHEWEB la ricerca avanzata copre molti dei criteri già visti per Google
Le sintassi per frase esatta, OR, AND ed esclusione sono del tutto simili.
La presenza della parola nel titolo
title:localizzazione+software
La presenza della parola nel dominio
url:localizzazione+soft
Ricerca in un web site
site:www.antotranslation.com
Ricerca in dominio
domain:.it
Per tipo file
http://it.search.yahoo.com/search?va=localizzazione+software&vf=pdf
Lingua
http://it.search.yahoo.com/search?va=localizzazione+software&vl=lang_it

HOTBOT
Criteri di ricerca avanzata.
Hotbot ha attualmente il più evoluto sistema di ricerca avanzata. Prevede tutte le caratteristiche

già viste per Google, inoltre ha un filtro temporale senza le limitazioni che hanno Google e

Yahoo,i formati di file sui quali si possono impostare le ricerche sono per numero e qualità

migliori.
Il filtro di definizione delle parole è più dettagliato e si possono operare combinazioni tra

posizione dei termini nel documento e inclusione/escusione dei termini stessi a livello di singolo

termine.
Ad esempio, si può cercare la parola software nel titolo e la parola localizzazione nel URL.
Infine questi criteri possono essere impostati da HOTBOT per interrogare direttamente la base dati

di GOOGLE (la più ampia in assoluto) e di ASK JEEVES

ALTAVISTA
Criteri di ricerca avanzata.
In ALTAVISTA la ricerca avanzata copre tutti i criteri già visti per Google e Yahoo.
Come in HotBot e ASK JEEVES il filtro temporale è molto più duttile potendo comporre una data

effettiva,inoltre è possibile definire un range per anno, mesi e settimane.
Infine, si può comporre una stringa di ricerca in stile SQL combiando gli elementi con le logiche

booleiane (per utenti esperti)

TEOMA
CRITERI DI RILEVANZA.
In Teoma è definita authority ed è molto simile alla link popularity di Google con in più la

garanzia di esclusione dei link a siti spam.
La caratteristiche di Teoma è la lista dei termini suggeriti in modo contestuale rispetto alle

parole ricercate.
Altro servizio legato ai termini ricercati è l'elenco di siti che presentano collezioni di link

correlati. Questa è una proprietà molto potente che permette di estendere le ricerche in modo molto

accurato.

Criteri di ricerca avanzata.
Sono molto simili a quelli utilizzati da HOTBOT, inoltre gestisce implicitamente i plurali delle

parole e le forme derivate.


GIGABLAST
Criteri di ricerca avanzata.
Tutti quelli relativi a terminologia,tipo di file, presenza dei termini in URL e nome della pagina.
Questi sono le sintassi da utlizzare
suburl:
site:
url:
title:
ip: (se si conosce soltanto l'indirizzo tcp/ip e si vuole vedere altre informazioni a riguardo)
link: -link:(per esclusione)
type:pdf type:doc type:xls type:ppt type:ps type:text
Nell'esposizione dei risultati saranno presentati in percentuale la frequenza delle parole che

ricorrono tra i risultati ottenuti. Queste sono a loro volta suggerimenti di termini alternativi.


ENTIREWEB
Criteri di ricerca avanzata.
Tutti quelli relativi a terminologia, lingua, geografici, presenza dei termini in URL e nome della

pagina.

LYCOS
Una delle caratteristiche di Lycos è la presenza tra le risorse correlate al motore di ricerca di

uno specializzato nella ricerca di risorse di discussione legati all'argomento cercato (forum,

mailing list, ecc). Ottimo anche il motore di ricerca delle news per parola chiave.
Criteri di ricerca avanzata.
Tutti quelli relativi a terminologia, range di data, lingua, presenza dei termini in URL e nome

della pagina.


METAMOTORI

MAMMA
Criteri di ricerca avanzata.
Tutti quelli relativi a terminologia, lingua, goegrafici, presenza dei termini in URL e nome della

pagina.
Questo metamotore permette di selezionare in quali directory effettuare le ricerche
-Open Directory
-Looksmart Directory
-Business.com
-About.com
-Mamma's Collection
e in quali search engine
-Teoma
-Google
-MSN
-Entireweb
-Gigablast

IXQUICK
Si Può usare il linguaggio naturale o complesse ricerche booleane che supporta frasi, wildcard

(meta-caratteri), termini omessi, termini obbligatori, parentesi ed altri modificatori come NEAR

(simile a) in quanto il metamotore conosce quali motori di ricerca possono far fronte a ricerche

complesse.
Vengono eliminati i duplicati ma vengono sommati per dare la maggiore rilevanza al risultato; per

cui, se lo stesso risultato è stato ottenuto in più motori, maggiore rilevanza verrà data alla

pagina.
I metacaratteri possono sostituire un carattere con qualsiasi altro.
Il comando NEAR permette di definire un termine correlato ad un altro.
Questa è la sintassi utilizzata:
+title:
+domain:
host:
immagine:
image:
url:
link:
text:
related:
Si possono selezionare i motori utilizzati a seconda della versione nazionale utilizzata.
Questo metamotore, infatti, utilizza un pool di search engine che comprende, oltre a quelli più

importanti, anche quelli a carattere nazionale.
Si possono fare delle domande in linguaggio discorsivo che verranno trasferite a quei motori di

ricerca che accettano le ricerche in linguaggio naturale.

CLUSTY
Nella finestra di risultato Clusty presenta un elenco di terminologie correlate al contesto della

ricerca richiesta. Questo permette di cercare in modo alternativo l'argomento iniziale.
Criteri di ricerca avanzata.
Tutti quelli relativi a terminologia,lingua, presenza dei termini in URL e dominio. La sintassi

utilizzata:
domain:
host:
selezione di ricerca tra:
GigaBlast
MSN
Lycos
Looksmart
Wisenut
Open Directory
Overture

WEBCRAWLER
Criteri di ricerca avanzata.
Tutti quelli relativi a terminologia,lingua, range di data, presenza dei termini in URL e dominio.

Comments on this article

Knowledgebase Contributions Related to this Article
  • No contributions found.
     
Want to contribute to the article knowledgebase? Join ProZ.com.


Articles are copyright © ProZ.com, 1999-2008, except where otherwise indicated. All rights reserved.
Content may not be republished without the consent of ProZ.com.