Banda Ancha EU

Información independiente
sobre fibra, móvil y ADSL

  • 📰 Artículos

Mayor velocidad para la transferencia de archivos

hypnosys

Investigadores de la Universidad de Carnegie Mellon en los Estados Unidos han creado un sistema llamado Similarity-Enhanced Transfer (SET - Transferencia Aumentada por la Semejanza), se basa en el reconocimiento de fragmentos de datos idénticos y semejantes al archivo requerido. Este método permite bajarse archivos basandose en fragmentos de datos identicos y no dependiendo de archivos identicos.

"Una gran limitación de BitTorrent es que sólo les permite a los clientes compartir datos si están bajando el archivo exacto", dijo el catedrático David Andersen, de la Universidad Carnegie Mellon, en Pittsburgh, Pennsylvania, uno de los creadores de SET. Esto significa que la reserva de usuarios disponible para cualquier archivo es menor de lo que se necesita", añadió.

Andersen y los otros dos autores de SET -Himabindu Pucha de la Universidad Purdue, en Indiana, y Michael Kaminsky, de la red de investigación Intel Research- se percataron de que muchos de los archivos que se comparten en internet tienen fragmentos idénticos de datos, aunque parezcan diferentes.

Fuentes: CMU, La Nación y Eurekalert

BocaDePez
BocaDePez

Este son el tpo de noticias k les encantan a los de la SGAE :P

FoSFi

Todo lo que sea un avance para las transferencias de archivos, es todo un logro. Habra que ver si no queda en agua de borrajas, o por el contrario, se descubre el codigo y podemos ver implementaciones a todos los niveles (descargas directas desde varios mirrors, p2p, streaming,...).

Asi igual aprovechan los no-20 megas xDD

🗨️ 4
Alianceforce

Aunque suene topico estoy seguro q de cada 100 inovaciones de transferencias de archivos a los ususrios solo nos llegan 10 , las cuales hemos aplicado en programacion para torrent ,p2p ,pando ,etc

Y ya se q estamos en el siglo 21 q si eso es de uso privado desde q llegue a internet ya se puede hacer publico ,pero vamos , creo q este mundo es asi

Para mi ,mi prueba fue q despues de q aliera la wifi y tanta publicidad q a tenido y q si tal y cual , mi prieba es q te vas a un aeropuerto y la wifi no es gratis si no de pago

🗨️ 2
LoRdShAn

La pela es la pela xD y a tirar de hotspot...

Saludos.

RedStar

El uso de wifi es gratuito pero no tiene porqué serlo el servicio de Internet al que se conecta.

Nadie publicó (ni publicitó) que con el wifi las conexiones a Internet serían gratuitas (que yo recuerde, claro).

Recordemos que Wifi es un medio de conexión de red de área local inalámbrico (y no un proveedor de internet) independientemente de los usos que se le estén dado fuera de ese escenario o si cobran o no por usar la conexión a Internet que hay tras el punto de acceso.

Saludos.

BocaDePez
BocaDePez

En realidad lo meritorio de esto es la idea, no el algoritmo en sí, por lo que por mucho que quieran cobrar o ocultar la cosa, cualquiera lo puede implementar por su cuenta. De hecho, la idea de fondo es bastante simple, el mérito está en que a nadie se le había ocurrido hasta ahora.

BocaDePez
BocaDePez

Emule no tiene encuenta el nombre del archivo.

Lphant combina ya red edonkey y torrent.

eso de que dos archivos diferentes tengan partes en común...tengo cierta incredulidad...de que tamaño serían??ese tamaño en común merecería la pena??.

El tamáno mínimo de cada parte a compratir a mi parecer es 1MB y no van a encontrar dos archivos diferentes con 1MB en común en la vida.

Saludos

🗨️ 3
BocaDePez
BocaDePez

Con mldonkey se pueden descargar tb archivos disponibles en diferentes redes desde hace ya un tiempo. De toas formas no es de eso de lo ke aki se trata.

Groovable

Según he leído no se trata de buscar similitud entre un episodio de Ally MCBeal y la novena sinfonia de beethoven. La ventaja estará por ejemplo al bajarte una peli que esté disponible en español e inglés, las partes del video pueden ser iguales y solo cambiará el audio, por lo que las fuentes para la parte de video se multiplican. Tambíen para casos como diferentes versiones de un programa o mp3´s donde solo cambien los tags, cosas así vamos. La dificultad de esta técnica me imagino que estará en hacer las particiones de un nuevo archivo a compartir, ya que deberá tener en cuenta los archivos que ya existen por la red.

🗨️ 1
Kalimist

en el caso de la peli imposible, por la forma en que se multiplexa el audio con el video el archivo cambia muchísimo.

En el caso de los MP3 con distinto tag si que es posible porque el tag va al principio o al final del archivo (dependiendo de la version del tag), y el resto permanece inalterado.

BocaDePez
BocaDePez

la idea es bien sencilla, aunque no es nueva, ya que lphant, lo hace a medias,.....

la idea es que si un mismo archivo esta en ares,kazaa,torrent,emule,edonkey,ftp,hppt,pando.........etc,etc.....descarga de todos los sitios posibles,....y no solo de la red en la que esta conectado,.......

lphant baja partes de un mismo archivo si esta en torrent y emule,....esto ocurre mucho con paginas que ponen links a ambas redes,pero compartiendo el mismo fichero....

🗨️ 4
BocaDePez
BocaDePez

Repito no se trata de eso. Bajar un mismo archivo de distintas redes ya lo viene haciendo/desarrollando el mldonkey desde 2004.

"se basa en el reconocimiento de fragmentos de datos idénticos" != mismo archivo con diferentes nombres y/o redes ;)

🗨️ 3
BocaDePez
BocaDePez

Correccion:
...mismo archivo con diferentes nombres y/o en diferentes redes.

🗨️ 2
ivimail

Re-correccion: Datos similares en archivos que no tienen por que parecerse en nada.

Groovable

Y bajar el mismo archivo pero con diferentes nombres de distintas fuentes ya lo hace el emule fijandose en el hash del archivo.

MaestroJedi

Quiero decir... ¿esto no se supone que lo hacen ya algunos programas como eMule?

Que yo sepa, eMule, por ejemplo, divide el archivo en cuestión en partes ("chunks" en inglés) de 9'28 MB, las cuales, a su vez, divide en "mini-partes" de 180 KB. A cada una de estas partes les saca un hash diferente y las diferencia en base a dicho hash.

A la hora de solicitar archivos (o partes concretas de un archivo) a los demás clientes, si no he entendido mal, las identifica mediante el hash. Por lo que, si encuentra a un cliente que dispone de un archivo que contenga una misma parte (aunque el resto sean diferentes), la da por válida y la solicita para su descarga.

Entonces, si esto es así (que creo que así, aunque me he podido equivocar en algo, lógicamente), ¿qué tiene esto de novedad? ¿Alguien puede aportar algo de luz? :-)

🗨️ 2
WiLZy

Efectivamente el eMule (originariamente.. el eDonkey) divide el archivo en X partes, pero el HASH se genera a partir del 100% del archivo, es decir, con que 1 de las 100000 partes del archivo sea distinta, se obtendrá un HASH distinto.

🗨️ 1
Kachinvo

Aparte de la contestacion de Wilzy, tienes un ejemplo un poco mas practico abajo.

darkdead

Se os paso por la cabeza que esto tiene doble uso ?
El alogartimo si esta depurado como ellos pretenden en realidad es un motor de busqueda de archivos sin nombre osea tendra doble uso por un lado p2p hibridos web
ares emule bitorrent y por otrolad herramienta antipirateria ya que si yo mismo antes de poner una pelicula la ripeo y luego ago una busqueda de semejanzas cazare al primero que publique mi trabajo ,eso contando que de verdad lo han conseguido que me da que no seria el sueño de mas de una agencia de espionaje.

BocaDePez
BocaDePez

No sé para qué desarrollan esta tecnología si no lo vamos a poder usar nunca, con la que se nos viene encima, hacer cosas como éstas para no poder usarlas deprime....

sorrillo

Ya podremos decir que no hemos bajado el último disco del Bisbal sino que hemos juntado un trocito de Alias, una pizca de Madonna y unas gotas de las fotos del vecino y nos hemos "construido" un disco que se parece mucho al del Bisbal :-)

🗨️ 1
darkdead

Ellos se basan en la teoria del caos no es tan caotica en internet y que hay cierta homgenidad en internet y que todo esta duplicado en cierto modo es cierto solo hay que ver you tube con el mismo video duplicado en algunos casos hasta la saciedad
en casos como este les vendria de perlas para limpiar bases de datos repetidas por culpa del procedencias esto mismo pasa con culkier genoma de un ser vivo en relaidad te puedes descargar el genoma de un ser humano cojiendo pedazos de el genoma de una mosca ya que la base es la misma solo cambia un 2% en la informacion osea nos estan dicendo que no somos tan creativos como cremos ser.
De esto se pueden sacar un millon de conclusiones quien no conoce los libros de isac assimov y las teorias del psicohistoria osea estan locos XD pero bueno es el dicho dame una calculadora y te contare como funciona el universo o internet.

BocaDePez
BocaDePez

A ver, que nos liamos. La teoria es la siguiente:

Los archivos que circulan en internet, cualesquiera que sean, da igual un mp3 que una base de datos de la red telefonica de chungania alta, tienen partes en comun.

Asi que si troceas el archivo que deseas descargar en partes y resulta que una de esas partes se repite en otros archivos (repite CUALQUIERA QUE SEA ESE ARCHIVO) puesdes descargar esa parte de esa fuente, sea o no el archivo concreto que tu deseas descargar.

Ejemplo simple

mp3 el ultimo pollo refrito

01110111100000111100001111000011111

video mi suegra haciendo empanadas

01110111101110000000001111101011111

documento Una vez fui internauta y no fui a la cárcel

01000111100011000001011111101000000

Aqui vemos claramente que en esa secuencia de bits, hay partes comunes en los 3 archivos, asi que podriamos descargar esas partes comunes de cualquiera de ellos para completar cualquiera y el resultado seria bueno (el archivo completo y listo para usar sin ninguna diferencia del original).

Podriamos descargar los primeros 9 bytes del primer o segundo archivo, los siguientes 3 del primer o tercer achivo y asi sucesivamente, el resultado seria el mismo que descargar unicamente de las fuentes del primer archivo, con lo que aumentas el numero de fuentes con el mismo resultado.

La base teorica es la misma que se usa para comprimir archivos teniendo en cuenta la cantidad de caracteres o secuencia de caracteres duplicados. Y no es que la teoria del caos no se aplique (que si) ni que falles los metodos estadisticos (que no fallan) sino que se toman como muestras UNICAMENTE los archivos que tienen partes en comun.

🗨️ 9
Groovable

Claro que partir un archivo en trozos y esperar que un trozo se repita de forma identica en algún otro trozo de otro archivo es muy improbable, de hecho el md5 de un archivo se usa como "huella" del archivo. Pensad que un rar cambia radicalmente simplemente por cambiar un nombre de un archivo contenido dentro, o codificar un video cambiando el nivel de brillo en una decima hace que el stream sea totalmente diferente. Eso no aceleraría ni un 0.01% la descarga planteado así directamente. La verdadera dificultad y gracia del método consiste en hacer de alguna forma lógica las particiones de los archivos comparandolas con versiones que potencialmente pueden ser parecidas.

🗨️ 2
BocaDePez
BocaDePez

Pues parece que esa "improbabilidad" no lo es tanto.
En cuanto a la huella o el hash, este metodo no tiene en cuenta ni una cosa ni otra

Drag0nfire

Hay muchos tipos de ficheros q guardan informacion variable en la cabecera, es decir, al comienzo del fichero. En estos casos seria muy util este sistema.
P.ej. los mp3 al comienzo tienen diferente informacion, entre ellas las etiquetas (artista, comentarios...), hay muchisimos mp3 'duplicados' (mismo bitrate, mismo codec...) en los q solo varia esta informacion del comienzo.

BocaDePez
BocaDePez

Yo lo que veria interesante seria que, aparte de poder bajar esos trozos de archivo de cualquier archivo que tambien los tenga, el programa pudiese mirar si ese trozo ya lo tenemos descargado con anterioridad.
Así en lugar de descargarlo, solo tendria que copiarlo del archivo que ya tenemos.

De esta forma, cuantos más archivos descargados y compartidos tengas, más posibilidad de que trozos de un nuevo archivo a descargar ya estén en tu disco duro...

Saludos, Luis.

BocaDePez
BocaDePez

Imagino que esto es posible sí:

  1. El Código que "parte en trozos" el archivo es común o es un estándar.
  2. Que los "trozos" sean relativamente pequeños
  3. y la "fácil", que liberen el código....

LiMeyer

🗨️ 1
BocaDePez
BocaDePez

Digamos que esto seria posible si se analizaran los archivos compartidos (que normalmente no son muchos) y se pudiera "indexar" su contenido por trozos iguales.
Es un consumo extra de recursos en la maquina local cada vez que se añade un archivo para compartir, pero seria muchos mas rápida la trasferencia.

Kachinvo

Casi.

El ejemplo perfecto seria con una pelicula la cual se renombra una vez descarga por la razon que sea. Aun el otro dia me paso con el bittorrent, en el tracker de animersion.

Yo tengo las dos temporadas de pretenders y resulta que una persona esta subiendo al primera. Resulta que esta persona, renombro los capitulos y solo los llama por la temporada y el capitulo -> 1x01.avi, 1x02.avi etc. Yo en cambio, los deje como me los baje -> Pretender 1x01 titulocap.avi, Pretender 1x02 titulocap.avi.

El caso es que al descargarlos, si el programa detecta si ya tiene el archivo antes de descargarlo y, de tenerlo, comienzas a subirlo directamente. El caso es que no detecto el archivo hasta que le cambie el nombre tal cual lo tenia el subiendo. No lo hizo, teniendo en cuenta que eran iguales en mas de un 99%.

Mas o menos, por ahi van los tiros de este invento. No de que te bajes de parte de bisbal, otra de sandoval y te salgan la obra de Benito Ruibal.

🗨️ 2
BocaDePez
BocaDePez

Eso ya se esta aprovechando, mira en compartidos y despliega el nombre, veras como el mismo archivo tiene multiples nombres (es un metodo para enviar fakes, por ejemplo).

🗨️ 1
Kalimist

en eMule/eDonkey sí, pero él habla de bittorrent. En los archivos .torrent va asociado el nombre del archivo con el hash, si cambias el nombre del archivo no puedes compartirlo en ese torrent.

BocaDePez
BocaDePez

Es como cuando quitas una pieza de una figura de lego para acabar otra figura porque no tienes mas piezas, solo que en vez de quitarla la copiamos.

JKD

El problema que yo veo en ese sistema es que para que archivos diferentes tengan bytes en común el/los archivos deberían trocearse en bloques muy pequeños, provocando un consumo elevado de recursos para, por una parte almacenar todos los hashes de los bloques (ya que supongo que se descarta el generar hashes en tiempo real) y en el elevado tráfico derivado de la cantidad de peticiones/consultas en la red que serían necesarias para completar todos y cada uno de los trozos.

🗨️ 1
BocaDePez
BocaDePez

No necesariamente si se genera un indice de bloques repetidos cada vez que se añade un archivo para compartir, lo explico un poco mas arriba.

Krigan

Parece que hay bastante gente que se está liando. La idea es simple: hay muchos ficheros que son muy parecidos porque son versiones ligeramente diferentes de un mismo fichero, porque alguien cambió algo en el interior del fichero. Por lo tanto, las partes del fichero que no fueron cambiadas son las mismas, y todos los que se están bajando cualquiera de esas versiones del fichero se las puede bajar (o subir).

El hash de todo el fichero es diferente, porque hay unas pocas pequeñas diferencias, pero la mayor parte del fichero es igual en las diferentes versiones, y la idea es aprovechar esas partes idénticas para aumentar el número de fuentes.

Es una buena idea, y tal vez sirva para incrementar la velocidad de descarga, pero los principales problemas del p2p son otros: el acoso de la SGAE y sus amigos, los fakes, los leechers, y la asimetría cada vez mayor de las conexiones.

De todas formas, bienvenido sea cualquier avance.

🗨️ 1
KarmaZenBuffer

esta ya operativo ? desde la notica ya ha pasado un tiempo...