Den udvidede datafil

Om den udvidede datafil

Der stilles en udvidet datafil itcextwww-big.txt til rådighed. Denne fil er dannet på baggrund af de samme sider som itcwww-big.txt som man kan finde på hovedsiden for søgemaskineprojektet. Men den indeholder flere informationer om siderne. Formatet for den udvidede datafil kan illustreres ved følgende eksempel:

*PAGE:http://www.it-c.dk
*TITLE:IT-C's hjemmeside
*DIST:0
Her
refereres
til
en
anden
side
*REF:http://www.it-c.dk/andenside.html
hvorpå
der
står
noget
*PAGE:http://www.it-c.dk/tredjeside.html
*TITLE:En helt tredje side
*DIST:1
Her
står
noget
meget
+0vigtigt
og 
noget
+4knapt
så
vigtigt

Formatet er det samme som for de øvrige datafiler med følgende ændringer:

Mulige anvendelser

En oplagt anvendelse af den udvidede datafil ville være at præsentere brugeren for titlerne på de hjemmesider som det søgte ord forekommer på.

En anden anvendelse er at man kan forsøge at vise de mest relevante sider først. F.eks. benytter søgemaskinen google sig af hvordan forskellige sider referer til hinanden indbyrdes når den skal afgøre hvor relevante de forskellige sider er.