§ ¿Qué es la Web Superficial?
La web "superficial" o "visible" es la dominada información
a la que podemos acceder cómodamente atrevas de los buscadores convencionales ya que esta
información puede ser indexada por los robots y arañas de búsqueda. Es la
información a la que normalmente accedemos la mayoría de los usuarios de la red.
La web superficial representa un
porcentaje muy pequeño de la información
disponible en Internet.
Esta se caracteriza por:
· La información, que no está contenida en una base de datos.
· Ser de acceso libre.
· No requerir que los usuarios se registren.
· Ser páginas web estáticas con una URL
fija, y acceso posible desde enlaces.
§ ¿Qué es la Web Profunda?
La web “profunda” o “invisible” es el término utilizado para describir toda la información disponible
en Internet que no se recupera interrogando a los buscadores convencionales.
Generalmente es información almacenada y accesible mediante bases de datos.
Parte de la información es "invisible" a los robots de los buscadores
convencionales, ya que los resultados se generan en la contestación a una
pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas
que no tienen una URL fija y que se construyen en el mismo instante
(temporales) desapareciendo una vez cerrada la consulta.
Se identifican cuatro tipos
de contenidos invisibles en la Web:
· La Web opaca está compuesta por archivos que, si bien podrían estar incluidos en los
índices de los buscadores, no lo están por:
Extensión de la indexación: no todas las páginas de un sitio son indexadas en los buscadores.
Frecuencia de la
indexación: los buscadores no poseen la capacidad de
indexar todas las páginas existentes.
Número máximo de resultados
visibles: aunque los motores de búsqueda limitan el
número de documentos que se muestran.
URL desconectadas: las generaciones más recientes de buscadores, presentan los documentos
por relevancia basada en el número de veces que aparecen referenciados en
otros. Si un documento no tiene un link a él, desde otro documento, será
imposible que la página sea encontrada.
· La Web
privada: consiste en las páginas Web que podrían
estar indexadas en los buscadores pero son excluidas deliberadamente ya que:
ü Las páginas están protegidas por contraseñas.
ü Contienen un archivo “robots.txt” para evitar ser indexadas.
ü Contienen un campo “noindex” para evitar que el buscador pueda indexar
la parte correspondiente al cuerpo de la página.
ü Contiene, en general, documentos excluidos deliberadamente por su falta
de utilidad.
· La Web propietaria: incluye
aquellas páginas en las que es necesario registrarse para tener acceso al
contenido, ya sea de forma gratuita o de pago.
· La Web realmente invisible: se compone de páginas que no pueden ser indexadas por limitaciones
técnicas de los buscadores, programas ejecutables y archivos comprimidos,
páginas generadas dinámicamente, es decir, que se generan a partir de datos que
introduce el usuario, información almacenada en bases de datos relacionales,
que no puede ser extraída a menos que se realice una petición específica.



No hay comentarios:
Publicar un comentario