la información de internet

A pesar de la cantidad de información que podemos encontrar en Internet, esta no está estructurada lo suficientemente bien como para analizarla informáticamente.

Esto se debe a que realmente la información la estamos presentando igual que se presentaría en papel. Nos hemos olvidado que la información digital tiene, si se lo damos, valor añadido. Si en Internet aumentasemos el número de datos que estamos mostrando, daríamos ese valor que ahora mismo carece. Cuando hablamos de la Web 3.0, la Web semántica, y del intento de organizar la Web, nos encontramos con ese preciso problema.

¿Cómo pretendemos catalogar la Web simplemente a través de un texto?

De momento dejo la respuesta en el aire. La llegada del RSS está suponiendo un cambio en los hábitos de navegación. ¿Para que me voy a tragar toda una página con su publicidad, comentarios, etc.? Si solamente quiero leer el contenido. Pero igual que pasó con la web la publicidad se está empezando a incluir en los rss, como n,o el dueño de Internet y la publicidad online, Google, tenía que estar detrás.

¿Porque está suponiendo este cambio? Bien, si nos vamos al rey de las busquedas en su versión de blogs lo podemos comprobar, http://blogsearch.google.com. Un blog, mediante el rss u otros metodos de sindicación como atom, expone una serie de cambios en la web. Si vemos la especificación de rss, http://cyber.law.harvard.edu/rss/rss.html, podemos ver como a una página le damos un título, un link, una descripción. No solo eso, también podemos especificar el autor de la página, el webmaster, el idioma, fecha de publicación, administrador, generador del documento, etc. Ya estmaos dando más información a la web.

Y BlogSearch de Google lo explota, nos permite (http://blogsearch.google.com/blogsearch/advanced_blog_search) busar por titulo, por autor, por rango de fechas de publicación. Estamos llevando la tercera dimensión a Internet. Lo mismo hace con su servicio de noticias, http://news.google.com/, donde además organiza por categoría, relevancia, noticias similares, etc.

Ahora bien, cuando se crearon los primeros estandares en internet la situación de la Web no era la actual. Ahora mismo podemos identificar principalmente dos tipos: páginas web y aplicaciones web. En estas segundas podemos separarlas por html classic, aplicaciones ajax y ria (Rich Internet Application). Por lo tanto no todas tienen contenidos. Pero por ejemplo páginas como Wikipedia, contienen la suficiente información como para que fuese bueno que se estructurase. Cosa que hace muchas veces mediante enlaces a otros temas, personas, etc.

El problema también lo encontramos cuando aparecen páginas ajax y RIP (Rich Internet Pages), ya que no son applicaciones, son páginas de contenido pero técnicamente usan metodologías ajax y tecnologías de RIAs (como Youtube).

HTML 5, se mueve hacia incluir un poco más de información. Si en vez de usar un player Flash o Silverlight, usamos un tag video, quien analice esa página sabrá que ahí hay un video, luego ya podrá analizar ese video para ver su contenido y como catalogarlo. Por lo tanto a donde quiero llegar, es que si en una web tenemos un tag <person></person>, <phone></phone>, <address></address>, etc. Podríamos darle valor añadido y, no solo eso, damos la opción al navegador a que ese <phone></plone> lo coja para un servicio de llamada, <person></person> que lo busque en tus contactos o <addrees></address> lo use word para escribir una carta.

Hacía ese sentido, o eso me ha parecido a mi, se mueve el proyecto de minería de datos, de Microsoft Live Labs, Entity Extraction. Que no se sabe mucho al respecto, pero tiene muy buena pinta.

 

http://eugenioestrada.es/blog

No Comments