sábado, 2 de abril de 2016

¿Que es la Deep Web?

Se conoce como internet profunda,1 internet invisible2 o internet oculta3 al contenido de internet que no es indexado por los motores de búsqueda convencionales, debido a diversos factores. El término se atribuye al informático Mike Bergman.4 Es el opuesto al Internet superficial.
La principal causa de la existencia de la internet profunda es la imposibilidad de los motores de búsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar gran parte de la información existente en internet. Si los buscadores tuvieran la capacidad para acceder a toda la información entonces la magnitud de la «internet profunda» se reduciría casi en su totalidad. No obstante, aunque los motores de búsqueda pudieran indexar la información de la internet profunda esto no significaría que esta dejará de existir, ya que siempre existirán las páginas privadas. Los motores de búsqueda no pueden acceder a la información de estas páginas y solo determinados usuarios, aquellos con contraseñas o códigos especiales, pueden hacerlo.
La internet profunda es un conjunto de sitios web y bases de datos que buscadores comunes no pueden encontrar ya que no están indexadas. El contenido que se puede hallar dentro de la internet profunda es muy amplio.5

Se estima que la internet profunda es 500 veces mayor6 que la internet superficial, siendo el 95 % de esta información públicamente inaccesible.

El internet se ve dividido en dos ramas, La internet profunda y la superficial. La internet superficial se compone de páginas estáticas o fijas, mientras que la web profunda está compuesta de páginas dinámicas. La páginas estáticas no dependen de una base de datos para desplegar su contenido sino que residen en un servidor en espera de ser recuperadas, y son básicamente archivos HTML cuyo contenido nunca cambia. Todos los cambios se realizan directamente en el código y la nueva versión de la página se carga en el servidor. Estas páginas son menos flexibles que las páginas dinámicas. Las páginas dinámicas se crean como resultado de una búsqueda de base de datos. El contenido se coloca en una base de datos y se proporciona solo cuando lo solicite el usuario.7

En 2010 se estimó que la información que se encuentra en la internet profunda es de 7500 terabytes, lo que equivale a aproximadamente 550 billones de documentos individuales. El contenido de la internet profunda es de 400 a 550 veces mayor de lo que se puede encontrar en la internet superficial. En comparación, se estima que la internet superficial contiene solo 19 terabytes de contenido y un billón de documentos individuales.

También en 2010 se estimó que existían más de 200 000 sitios en la internet profunda.8

Estimaciones basadas en la extrapolación de un estudio de la Universidad de California en Berkeley especula que actualmente la internet profunda debe tener unos 91 000 terabytes.9

La Association for Computing Machinery (ACM) publicó en 2007 que Google y Yahoo indexaban el 32 % de los objetos de la internet profunda, y MSN tenía la cobertura más pequeña con el 11 %. Sin embargo, la cobertura de los tres motores era de 37 %, lo que indicaba que estaban indexando casi los mismos objetos.10

Se prevé que alrededor del 95 % del internet es internet profunda, también le llaman invisible u oculta, la información que alberga no siempre está disponible para su uso. Por ello se han desarrollado herramientas como buscadores especializados para acceder a ella.11
Motivos por los que los motores de búsqueda no pueden indexar algunas páginas:

    Web contextual: páginas cuyo contenido varía dependiendo del contexto (por ejemplo, la dirección IP del cliente, de las visitas anteriores, etc.).
    Contenido dinámico: páginas dinámicas obtenidas como respuesta a parámetros, por ejemplo, datos enviados a través de un formulario.
    Contenido de acceso restringido: páginas protegidas con contraseña, contenido protegido por un Captcha, etc.
    Contenido No HTML: contenido textual en archivos multimedia, otras extensiones como exe, rar, zip, etc.
    Software: Contenido oculto intencionadamente, que requiere un programa o protocolo específico para poder acceder (ejemplos: Tor, I2P)
    Páginas no enlazadas: páginas que los buscadores no tienen referencia de su existencia, por ejemplo, páginas que no tienen enlaces desde otras páginas.
Son páginas de texto, archivos, o en ocasiones información a la cual se puede acceder por medio de la World Wide Web que los buscadores de uso general no pueden, debido a limitaciones o deliberadamente, agregar a sus índices de páginas web.

La Web profunda se refiere a la colección de sitios o bases de datos que un buscador común, como Google, no puede o quiere indexar. Es un lugar específico del internet que se distingue por el anonimato. Nada que se haga en esta zona puede ser asociado con la identidad de uno, a menos que uno lo desee.12

Bergman, en un artículo semanal sobre la Web profunda publicado en el Journal of Electronic Publishing, mencionó que Jill Ellsworth utilizó el término «Web invisible» en 1994 para referirse a los sitios web que no están registrados por algún motor de búsqueda.13

En su artículo, Bergman citó la entrevista que Frank García hizo a Ellsworth en 1996:14

    Sería un sitio que, posiblemente esté diseñado razonablemente, pero no se molestaron en registrarlo en alguno de los motores de búsqueda. ¡Por lo tanto, nadie puede encontrarlos! Estás oculto. Yo llamo a esto la Web invisible.

Otro uso temprano del término Web Invisible o web profunda fue por Bruce Monte y Mateo B. Koll de Personal Library Software, en una descripción de la herramienta @ 1 de web profunda, en un comunicado de prensa de diciembre de 1996.15

La importancia potencial de las bases de datos de búsqueda también se reflejó en el primer sitio de búsqueda dedicado a ellos, el motor AT1 que se anunció a bombo y platillo a principios de 1997. Sin embargo, PLS, propietario de AT1, fue adquirida por AOL en 1998, y poco después el servicio AT1 fue abandonado.13

El primer uso del término específico de web profunda, ahora generalmente aceptada, ocurrió en el estudio de Bergman de 2001 mencionado anteriormente.

Por otra parte, el término web invisible se dice que es inexacto porque:

    Muchos usuarios asumen que la única forma de acceder a la web es consultando un buscador.
    Alguna información puede ser encontrada más fácilmente que otra, pero esto no quiere decir que esté invisible.
    La web contiene información de diversos tipos que es almacenada y recuperada en diferentes formas.
    El contenido indexado por los buscadores de la web es almacenado también en bases de datos y disponible solamente a través de las peticiones o consultas del usuario, por tanto no es correcto decir que la información almacenada en bases de datos es invisible.16

Rastreando la internet profunda

Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos para rastrear la Web profunda. El Protocolo del sitio (primero desarrollado e introducido por Google en 2005) y OAI son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos de la internet profunda en los servidores web en particular. Ambos mecanismos permiten que los servidores web anuncien las direcciones URL que se puede acceder a ellos, lo que permite la detección automática de los recursos que no están directamente vinculados a la Web de la superficie. El sistema de búsqueda de la Web profunda de Google pre-calcula las entregas de cada formulario HTML y agrega a las páginas HTML resultantes en el índice del motor de búsqueda de Google. Los resultados surgidos arrojaron mil consultas por segundo al contenido de la Web profunda.17 Este sistema se realiza utilizando tres algoritmos claves:

    La selección de valores de entrada, para que las entradas de búsqueda de texto acepten palabras clave.
    La identificación de los insumos que aceptan solo valores específicos (por ejemplo, fecha).
    La selección de un pequeño número de combinaciones de entrada que generan URLs adecuadas para su inclusión en el índice de búsqueda Web.

Métodos de profundización
Las arañas (web crawlers)

Cuando se ingresa a un buscador y se realiza una consulta, el buscador no recorre la totalidad de internet en busca de las posibles respuestas, sino que busca en su propia base de datos, que ha sido generada e indexada previamente. Se utiliza el término «araña web» (en inglés web crawler) o robots (por software, comúnmente llamados "bots") inteligentes que van haciendo búsquedas por enlaces de hipertexto de página en página, registrando la información ahí disponible.18

El contenido que existe dentro de la internet profunda es en muy raras ocasiones mostrado como resultado en los motores de búsqueda, ya que las «arañas» no rastrean bases de datos ni los extraen. Las arañas no pueden tener acceso a páginas protegidas con contraseñas, algunos desarrolladores que no desean que sus páginas sean encontradas insertan etiquetas especiales en el código para evitar que sea indexada. Las «arañas» son incapaces de mostrar páginas que no estén creadas en lenguaje HTML, ni tampoco puede leer enlaces que incluyen un signo de interrogación. Pero ahora sitios web no creados con HTML o con signos de interrogación están siendo indexados por algunos motores de búsqueda. Sin embargo, se calcula que incluso con estos buscadores más avanzados solo se logra alcanzar el 16 % de la información disponible en la internet profunda. Existen diferente técnicas de búsqueda para extraer contenido de la internet profunda como librerías de bases de datos o simplemente conocer el URL al que quieres acceder y escribirlo manualmente.19
The Onion Router (abreviado como TOR) es un proyecto diseñado e implementado por la marina de los Estados Unidos lanzado el 20 de septiembre de 2002. Posteriormente fue patrocinado por la EFF (Electronic Frontier Foundation, una organización en defensa de los derechos digitales). Actualmente subsiste como TOR Project, una organización sin ánimo de lucro galardonada en 2011 por la Free Software Foundation por permitir que millones de personas en el mundo tengan libertad de acceso y expresión en internet manteniendo su privacidad y anonimato.11

A diferencia de los navegadores de internet convencionales, Tor le permite a los usuarios navegar por la Web de forma anónima. Tor es descargado de 30 millones a 50 millones de veces al año, hay 0,8 millones de usuarios diarios de Tor y un incremento del 20 % solamente en 2013. Tor puede acceder a unos 6500 sitios web ocultos.20

Cuando se ejecuta el software de Tor, para acceder a la internet profunda, los datos de la computadora se cifran en capas. El software envía los datos a través de una red de enlaces a otros equipos ―llamados en inglés «relays» (‘nodos’)― y lo va retransmitiendo quitando una capa antes de retransmitirlo de nuevo, esta trayectoria cambia con frecuencia. Tor cuenta con más de 4000 retransmisiones y todos los datos cifrados pasan a través de ―por lo menos― tres de estos relays. Una vez que la última capa de cifrado es retirado por un nodo de salida, se conecta a la página web que desea visitar.

El contenido que puede ser encontrado dentro de la internet profunda es muy vasto, se encuentran por ejemplo, datos que se generan en tiempo real, como pueden ser valores de Bolsa, información del tiempo, horarios de trenes; bases de datos sobre agencias de inteligencia, disidentes políticos y contenidos criminales.18
Bitcoin
Logo de Bitcoin

Mercados ilegales están alojados en servidores que son exclusivos para usuarios de Tor. En estos sitios, se pueden encontrar drogas, armas, o incluso asesinos a sueldo. Se utiliza la moneda digital llamada Bitcoin, que tiene sus orígenes en 2009, pero que se ha vuelto todo un fenómeno desde 2012,11 que se intercambia a través de billeteras digitales entre el usuario y el vendedor, lo que hace que sea prácticamente imposible de rastrear.21

Existen muchos mitos acerca de la internet profunda. La internet profunda no es una región prohibida o mística de internet, y la tecnología relacionada con ella no es malévola, ya que en ella también se alberga lo que ahora se conoce como AIW (Academic Invisible Web: ‘internet académica invisible’ por sus siglas en inglés) y se refiere a todas las bases de datos que contienen avances tecnológicos, publicaciones científicas, y material académico en general.22
Recursos de la internet profunda

Los recursos de la internet profunda pueden estar clasificados en las siguientes categorías:

    contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la navegación por y la creación de copias en caché.23
    contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.
    contenido no enlazado: páginas que no están conectadas con otras páginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.
    contenido programado: páginas que solo son accesibles a través de enlaces producidos por JavaScript, así como el contenido descargado de manera dinámica a partir de los servidores web a través de soluciones de Flash o Ajax.
    sin contenido HTML: contenido textual codificado en multimedia (imagen o video) archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
    web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión
    web contextual: páginas con contenidos diferentes para diferentes contextos de acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación anterior).

Véase también

    .onion
    I2P
    Darknet
    The Hidden Wiki

Referencias

«internet profunda, mejor que Deep Web.» («Aunque es posible emplear tanto el masculino como el femenino, la forma femenina es la que de hecho está más extendida con gran diferencia.»). Fundeu. Consultado el30 de marzo de 2016.
Devine, Jane; Egger-Sider, Francine (July 2004). «Beyond google: the invisible web in the academic library». The Journal of Academic Librarianship 30 (4): 265-269. doi:10.1016/j.acalib.2004.04.010. Consultado el 2014-02-06.
Raghavan, Sriram; Garcia-Molina, Hector (11-14 de septiembre de 2001). «Crawling the Hidden Web». 27th International Conference on Very Large Data Bases (Rome, Italy).
Wright, Alex (2009-02-22). «Exploring a 'Deep Web' That Google Can’t Grasp». The New York Times. Consultado el 2009-02-23.
Grossman, Lev (11 de noviembre de 2013). «The Deep Web.». Time (en inglés). Consultado el 28 de octubre de 2014. «Technically the Deep Web refers to the collection of all the websites and databases that search engines like Google don't or can't índex».
[1]
Iffat, Rabia (1 de octubre de 2010). «Understanding the Deep Web». Library Philosophy and Practice 2010 (en inglés). Consultado el 28 de octubre de 2014. «Surface Web is made up of static and fixed pages, whereas Deep Web is made up of dynamic pages. Static pages do not depend on a database for their content. They reside on a server waiting to be retrieved, and are basically html files whose content never changes.»
Iffat, Rabia (1 de octubre de 2010). «Understanding the Deep Web». Library Philosophy and Practice 2010 (en inglés). Consultado el 28 de octubre de 2014. «Public information on the Deep Web is currently 400-550 times larger than the commonly-defined World Wide Web. The Deep Web contains 7,500 terabytes of information, compared to 19 on the Surface Web. Deep Web contains nearly 550 billion individual documents compared to one billion on the Surface Web. More than 200,000 Deep Web sites presently exist.»
[2]
He, Bin (1 de mayo de 2007). Communications of the ACM (en inglés) http://eds.b.ebscohost.com/eds/pdfviewer/pdfviewer?sid=d1f42ee9-d949-4a44-b3da-1431daba94ac%40sessionmgr198&vid=6&hid=114 |url= sin título (ayuda). Consultado el 29 de octubre de 2014. «Google and Yahoo both indexed 32% of the deep Web objects, and MSN had the smallest coverage of 11%. However, there was significant overlap in what they covered: the combined coverage of the three largest search engines increased only to 37%, indicating they were indexing almost the same objects.»
Becerra Gutiérrez Juan Armando. «Mitos y realidades de la internet profunda». Consultado el 30 de octubre de 2014.
Grossman, Lev; Newton-Small, Roy & Stampler (Noviembre de 2013). «The Deep Web». Time 182 (20).
Bergman, Michael K. «White Paper: The Deep Web: Surfacing Hidden Value» (en inglés). Consultado el 30 de octubre de 2014.
Garcia, Frank (January 1996). «Business and Marketing on the Internet». Masthead 9 (1). Archivado desde el original el 5 de diciembre de 1996. Consultado el 24 de febrero de 2009.
@1 comenzó con 5.7 terabytes de contenido, estimado en 30 veces el tamaño de la naciente World Wide Web; PLS fue adquirida por AOL en 1998 y @1 fue abandonado.«PLS introduce AT1, el servicio de la primera "segunda generación" de búsqueda en internet». Personal Library Software. diciembre de 1996. Consultado el 24 de febrero de 2009.
Llanes Vilaragut, Lourdes & Suárez Carro, Juan R. «Para acceder al web profundo: conceptos y herramientas». Consultado el 30 de octubre de 2014.
Madhavan, Jayant; Ko, David; Kot, Lucja; Ganapathy, Vignesh; Rasmussen,Alex & Havely, Alon. «Google’s DeepWeb Crawl» (en inglés). Consultado el 30 de octubre de 2014.
Salazar, Idoia (2005): «El inmenso océano del Internet profundo.» 20 de octubre de 2005. El País (Madrid). Consultado el 29 de octubre de 2014.

    Cuando una persona realiza una consulta, el buscador no recorre la totalidad de internet en busca de las posibles respuestas, lo cual supondría una capacidad de reacción bastante lenta. Lo que hace es buscar en su propia base de datos, que ha sido generada e indizada previamente. En sus labores de búsqueda, indización y catalogación, utilizan las llamadas arañas (o robots inteligentes) que van saltando de una página web a otra siguiendo los enlaces de hipertexto y registran la información allí disponible.


    [...] datos que se generan en tiempo real, como pueden ser valores de Bolsa, información del tiempo, horarios de trenes.


Iffat, Rabia (1 de octubre de 2010). «Understanding the Deep Web». Library Philosophy and Practice 2010 (en inglés). Consultado el 28 de octubre de 2014. «The content of the Deep Web is rarely shown in a search engine result, since the search engine spiders do not crawl into databases and extract the data. These spiders can neither think nor type, but jump from link to link. As such, a spider cannot enter pages that are password protected. Web page creators who do not want their page shown in search results can insert special meta tags to keep the page from being indexed. Spiders are also unable to pages created without the use of html, and also links that include a question mark. But now parts of the Deep Web with non-html pages and databases with a question mark in a stable URL are being indexed by search engines, with non-html pages converted to html. Still, it is estimated that even the best search engines can access only 16 percent of information available on the Web. There are other Web search techniques and technologies that can be used to access databases and extract the content.»
Grossman, Lev (11 de noviembre de 2013). «The Deep Web.». Time (en inglés). Consultado el 28 de octubre de 2014. «Unlike conventional Internet browsers, Tor's allows users to surf the Web anonymously. Tor is downloaded 30 million-50 million times a year. There are 800,000 daily Tor users―a jump of 20% in the past year. Tor can access 6,500 hidden websites.»
Grossman, Lev (11 de noviembre de 2013). «The Deep Web.». Time (en inglés). Consultado el 28 de octubre de 2014. «Bitcoin».

No hay comentarios:

Publicar un comentario