Práctica 8: Indexado de páginas
Objetivo:
Indexar páginas web en una base de datos.
Desarrollo:
Forma de trabajo:
- En equipo.
- Para esta práctica se utilizará la base de datos de páginas creada en la práctica anterior.
- A continuación se hará un programa que obtenga de esta base de datos la dirección de una página Web, que la descargue y analice.
- El análisis consistirá en quitar todas las etiquetas inecesarias, quitar palabras del texto (preposiciones, artículos, puntuaciones, etc) y sólo dejar los sustantivos.
- Contar cuáles son los 3 sustantivos que mas se repiten e indexarlos en una base de datos.
- En el indexado también se debe agregar el "Ranking", el cual es el número de veces que es llamada esta página desde otras páginas Web.
- Ahora el programa descarga otra página para analizarla y repetir nuevamente el proceso.
- El programa continúa mientras haya páginas por revisar.
Arquitectura del motor de búsqueda
Algoritmo de Análisis de una página Web
Software de Apoyo
Reporte del alumno (resultados):
- El Profesor revisará que se indexe adecuadamente cada página encontrada.
FECHA DE ENTREGA: viernes 25 de octubre
Portal de Tecnología desarrollado por: Rogelio Ferreira Escutia