Mi è capitato, presso un cliente, di dover indicizzare un Web Site composto in prevalenza da pagine HTML statiche. Sulle prime ho pensato che il discorso fosse facile: Aggiunta di un nuovo Content Source di tipo Web Site e via di Full Crawl! al termine però ho notato, oltre al tempo eccessivo di indicizzazione, che nno tutte le pagine erano disponibili per la ricerca.
Per risolvere questo problema allora, ho cambiato strategia: invece di indicizzare il site come Web Site, l'ho indicizzato come File share puntando la directory in cui erano contenuti i file presentati da IIS. Risultato: Crwaling notevolmente più veloce, e tutte le pagine presenti in ricerca (se c'è un file su disco.. lo indicizzo, se non c'è.. non esiste una pagina web no?)
Fatto questo bisogna solo risolvere un piccolo problemino di URL: i risultati della ricerca, infatti portavano il path della directory e non il website rendendo quindi irraggiungibili le pagine. Ad esempio la pagine index.htm veniva riportata dai risultati del Search come file://nomeserver/website/index.htm e non come http://nomeserver/index.htm.
Per aggirare il problema occorre usare il SERVER NAME MAPPING: questa funzionalità permette di mappare un indirizzo diverso ad un contenuto risolvendo il nostro problema.
Attenzione!!! Non confondete il Server Name Mapping con L'Alternate Access Mapping! il primo si applica a livello di Content il secondo a livello di Web Application.