Banda Ancha EU

Información independiente
sobre fibra, móvil y ADSL

hosting en interdominios

Cerrado

Mayor velocidad para la transferencia de archivos

Investigadores de la Universidad de Carnegie Mellon en los Estados Unidos han creado un sistema llamado Similarity-Enhanced Transfer (SET - Transferencia Aumentada por la Semejanza), se basa en el reconocimiento de fragmentos de datos idénticos y semejantes al archivo requerido. Este método permite bajarse archivos basandose en fragmentos de datos identicos y no dependiendo de archivos identicos.

"Una gran limitación de BitTorrent es que sólo les permite a los clientes compartir datos si están bajando el archivo exacto", dijo el catedrático David Andersen, de la Universidad Carnegie Mellon, en Pittsburgh, Pennsylvania, uno de los creadores de SET. Esto significa que la reserva de usuarios disponible para cualquier archivo es menor de lo que se necesita", añadió.

Andersen y los otros dos autores de SET -Himabindu Pucha de la Universidad Purdue, en Indiana, y Michael Kaminsky, de la red de investigación Intel Research- se percataron de que muchos de los archivos que se comparten en internet tienen fragmentos idénticos de datos, aunque parezcan diferentes.

Fuentes: CMU, La Nación y Eurekalert

Los comentarios más recientes se muestran primero. Haz click sobre un comentario para desplegar/plegar.
  • Cerrado

    Parece que hay bastante gente que se está liando. La idea es simple: hay muchos ficheros que son muy parecidos porque son

    Parece que hay bastante gente que se está liando. La idea es simple: hay muchos ficheros que son muy parecidos porque son versiones ligeramente diferentes de un mismo fichero, porque alguien cambió algo en el interior del fichero. Por lo tanto, las partes del fichero que no fueron cambiadas son las mismas, y todos los que se están bajando cualquiera de esas versiones del fichero se las puede bajar (o subir).

    El hash de todo el fichero es diferente, porque hay unas pocas pequeñas diferencias, pero la mayor parte del fichero es igual en las diferentes versiones, y la idea es aprovechar esas partes idénticas para aumentar el número de fuentes.

    Es una buena idea, y tal vez sirva para incrementar la velocidad de descarga, pero los principales problemas del p2p son otros: el acoso de la SGAE y sus amigos, los fakes, los leechers, y la asimetría cada vez mayor de las conexiones.

    De todas formas, bienvenido sea cualquier avance.

  • Cerrado

    BocaDePez BocaDePez
    0

    A ver, que nos liamos. La teoria es la siguiente: Los archivos que circulan en internet, cualesquiera que sean, da igual un

    A ver, que nos liamos. La teoria es la siguiente:

    Los archivos que circulan en internet, cualesquiera que sean, da igual un mp3 que una base de datos de la red telefonica de chungania alta, tienen partes en comun.

    Asi que si troceas el archivo que deseas descargar en partes y resulta que una de esas partes se repite en otros archivos (repite CUALQUIERA QUE SEA ESE ARCHIVO) puesdes descargar esa parte de esa fuente, sea o no el archivo concreto que tu deseas descargar.

    Ejemplo simple

    mp3 el ultimo pollo refrito

    01110111100000111100001111000011111

    video mi suegra haciendo empanadas

    01110111101110000000001111101011111

    documento Una vez fui internauta y no fui a la cárcel

    01000111100011000001011111101000000

    Aqui vemos claramente que en esa secuencia de bits, hay partes comunes en los 3 archivos, asi que podriamos descargar esas partes comunes de cualquiera de ellos para completar cualquiera y el resultado seria bueno (el archivo completo y listo para usar sin ninguna diferencia del original).

    Podriamos descargar los primeros 9 bytes del primer o segundo archivo, los siguientes 3 del primer o tercer achivo y asi sucesivamente, el resultado seria el mismo que descargar unicamente de las fuentes del primer archivo, con lo que aumentas el numero de fuentes con el mismo resultado.

    La base teorica es la misma que se usa para comprimir archivos teniendo en cuenta la cantidad de caracteres o secuencia de caracteres duplicados. Y no es que la teoria del caos no se aplique (que si) ni que falles los metodos estadisticos (que no fallan) sino que se toman como muestras UNICAMENTE los archivos que tienen partes en comun.

    • Cerrado

      Casi. El ejemplo perfecto seria con una pelicula la cual se…

      Casi.

      El ejemplo perfecto seria con una pelicula la cual se renombra una vez descarga por la razon que sea. Aun el otro dia me paso con el bittorrent, en el tracker de animersion.

      Yo tengo las dos temporadas de pretenders y resulta que una persona esta subiendo al primera. Resulta que esta persona, renombro los capitulos y solo los llama por la temporada y el capitulo -> 1x01.avi, 1x02.avi etc. Yo en cambio, los deje como me los baje -> Pretender 1x01 titulocap.avi, Pretender 1x02 titulocap.avi.

      El caso es que al descargarlos, si el programa detecta si ya tiene el archivo antes de descargarlo y, de tenerlo, comienzas a subirlo directamente. El caso es que no detecto el archivo hasta que le cambie el nombre tal cual lo tenia el subiendo. No lo hizo, teniendo en cuenta que eran iguales en mas de un 99%.

      Mas o menos, por ahi van los tiros de este invento. No de que te bajes de parte de bisbal, otra de sandoval y te salgan la obra de Benito Ruibal.

      • Cerrado

        BocaDePez BocaDePez
        0

        Eso ya se esta aprovechando, mira en compartidos y despliega…

        Eso ya se esta aprovechando, mira en compartidos y despliega el nombre, veras como el mismo archivo tiene multiples nombres (es un metodo para enviar fakes, por ejemplo).

        • Cerrado

          en eMule/eDonkey sí, pero él habla de bittorrent. En los…

          en eMule/eDonkey sí, pero él habla de bittorrent. En los archivos .torrent va asociado el nombre del archivo con el hash, si cambias el nombre del archivo no puedes compartirlo en ese torrent.

    • Cerrado

      BocaDePez BocaDePez
      0

      Imagino que esto es posible sí: El Código que "parte en…

      Imagino que esto es posible sí:

      1. El Código que "parte en trozos" el archivo es común o es un estándar.
      2. Que los "trozos" sean relativamente pequeños
      3. y la "fácil", que liberen el código....

      LiMeyer

      • Cerrado

        BocaDePez BocaDePez
        0

        Digamos que esto seria posible si se analizaran los archivos…

        Digamos que esto seria posible si se analizaran los archivos compartidos (que normalmente no son muchos) y se pudiera "indexar" su contenido por trozos iguales.
        Es un consumo extra de recursos en la maquina local cada vez que se añade un archivo para compartir, pero seria muchos mas rápida la trasferencia.

    • Cerrado

      BocaDePez BocaDePez
      0

      Yo lo que veria interesante seria que, aparte de poder bajar…

      Yo lo que veria interesante seria que, aparte de poder bajar esos trozos de archivo de cualquier archivo que tambien los tenga, el programa pudiese mirar si ese trozo ya lo tenemos descargado con anterioridad.
      Así en lugar de descargarlo, solo tendria que copiarlo del archivo que ya tenemos.

      De esta forma, cuantos más archivos descargados y compartidos tengas, más posibilidad de que trozos de un nuevo archivo a descargar ya estén en tu disco duro...

      Saludos, Luis.

    • Cerrado

      Claro que partir un archivo en trozos y esperar que un trozo…

      Claro que partir un archivo en trozos y esperar que un trozo se repita de forma identica en algún otro trozo de otro archivo es muy improbable, de hecho el md5 de un archivo se usa como "huella" del archivo. Pensad que un rar cambia radicalmente simplemente por cambiar un nombre de un archivo contenido dentro, o codificar un video cambiando el nivel de brillo en una decima hace que el stream sea totalmente diferente. Eso no aceleraría ni un 0.01% la descarga planteado así directamente. La verdadera dificultad y gracia del método consiste en hacer de alguna forma lógica las particiones de los archivos comparandolas con versiones que potencialmente pueden ser parecidas.

      • Cerrado

        Hay muchos tipos de ficheros q guardan informacion variable…

        Hay muchos tipos de ficheros q guardan informacion variable en la cabecera, es decir, al comienzo del fichero. En estos casos seria muy util este sistema.
        P.ej. los mp3 al comienzo tienen diferente informacion, entre ellas las etiquetas (artista, comentarios...), hay muchisimos mp3 'duplicados' (mismo bitrate, mismo codec...) en los q solo varia esta informacion del comienzo.

      • Cerrado

        BocaDePez BocaDePez
        0

        Pues parece que esa "improbabilidad" no lo es tanto. En…

        Pues parece que esa "improbabilidad" no lo es tanto.
        En cuanto a la huella o el hash, este metodo no tiene en cuenta ni una cosa ni otra

  • Cerrado

    BocaDePez BocaDePez
    0

    Emule no tiene encuenta el nombre del archivo. Lphant combina ya red edonkey y torrent. eso de que dos archivos diferentes

    Emule no tiene encuenta el nombre del archivo.

    Lphant combina ya red edonkey y torrent.

    eso de que dos archivos diferentes tengan partes en común...tengo cierta incredulidad...de que tamaño serían??ese tamaño en común merecería la pena??.

    El tamáno mínimo de cada parte a compratir a mi parecer es 1MB y no van a encontrar dos archivos diferentes con 1MB en común en la vida.

    Saludos

    • Cerrado

      Según he leído no se trata de buscar similitud entre un…

      Según he leído no se trata de buscar similitud entre un episodio de Ally MCBeal y la novena sinfonia de beethoven. La ventaja estará por ejemplo al bajarte una peli que esté disponible en español e inglés, las partes del video pueden ser iguales y solo cambiará el audio, por lo que las fuentes para la parte de video se multiplican. Tambíen para casos como diferentes versiones de un programa o mp3´s donde solo cambien los tags, cosas así vamos. La dificultad de esta técnica me imagino que estará en hacer las particiones de un nuevo archivo a compartir, ya que deberá tener en cuenta los archivos que ya existen por la red.

      • Cerrado

        en el caso de la peli imposible, por la forma en que se…

        en el caso de la peli imposible, por la forma en que se multiplexa el audio con el video el archivo cambia muchísimo.

        En el caso de los MP3 con distinto tag si que es posible porque el tag va al principio o al final del archivo (dependiendo de la version del tag), y el resto permanece inalterado.

    • Cerrado

      BocaDePez BocaDePez
      0

      Con mldonkey se pueden descargar tb archivos disponibles en…

      Con mldonkey se pueden descargar tb archivos disponibles en diferentes redes desde hace ya un tiempo. De toas formas no es de eso de lo ke aki se trata.

  • Cerrado

    6

    El problema que yo veo en ese sistema es que para que archivos diferentes tengan bytes en común el/los archivos deberían

    El problema que yo veo en ese sistema es que para que archivos diferentes tengan bytes en común el/los archivos deberían trocearse en bloques muy pequeños, provocando un consumo elevado de recursos para, por una parte almacenar todos los hashes de los bloques (ya que supongo que se descarta el generar hashes en tiempo real) y en el elevado tráfico derivado de la cantidad de peticiones/consultas en la red que serían necesarias para completar todos y cada uno de los trozos.

    • Cerrado

      BocaDePez BocaDePez
      0

      No necesariamente si se genera un indice de bloques repetidos…

      No necesariamente si se genera un indice de bloques repetidos cada vez que se añade un archivo para compartir, lo explico un poco mas arriba.

  • Cerrado

    Todo lo que sea un avance para las transferencias de archivos, es todo un logro. Habra que ver si no queda en agua de

    Todo lo que sea un avance para las transferencias de archivos, es todo un logro. Habra que ver si no queda en agua de borrajas, o por el contrario, se descubre el codigo y podemos ver implementaciones a todos los niveles (descargas directas desde varios mirrors, p2p, streaming,...).

    Asi igual aprovechan los no-20 megas xDD

    • Cerrado

      BocaDePez BocaDePez
      0

      En realidad lo meritorio de esto es la idea, no el algoritmo…

      En realidad lo meritorio de esto es la idea, no el algoritmo en sí, por lo que por mucho que quieran cobrar o ocultar la cosa, cualquiera lo puede implementar por su cuenta. De hecho, la idea de fondo es bastante simple, el mérito está en que a nadie se le había ocurrido hasta ahora.

    • Cerrado

      Aunque suene topico estoy seguro q de cada 100 inovaciones de…

      Aunque suene topico estoy seguro q de cada 100 inovaciones de transferencias de archivos a los ususrios solo nos llegan 10 , las cuales hemos aplicado en programacion para torrent ,p2p ,pando ,etc

      Y ya se q estamos en el siglo 21 q si eso es de uso privado desde q llegue a internet ya se puede hacer publico ,pero vamos , creo q este mundo es asi

      Para mi ,mi prueba fue q despues de q aliera la wifi y tanta publicidad q a tenido y q si tal y cual , mi prieba es q te vas a un aeropuerto y la wifi no es gratis si no de pago

      • Cerrado

        El uso de wifi es gratuito pero no tiene porqué serlo el…

        El uso de wifi es gratuito pero no tiene porqué serlo el servicio de Internet al que se conecta.

        Nadie publicó (ni publicitó) que con el wifi las conexiones a Internet serían gratuitas (que yo recuerde, claro).

        Recordemos que Wifi es un medio de conexión de red de área local inalámbrico (y no un proveedor de internet) independientemente de los usos que se le estén dado fuera de ese escenario o si cobran o no por usar la conexión a Internet que hay tras el punto de acceso.

        Saludos.

  • Cerrado

    ¿Y esto es nuevo?

    Quiero decir... ¿esto no se supone que lo hacen ya algunos programas como eMule?

    Que yo sepa, eMule, por ejemplo, divide el archivo en cuestión en partes ("chunks" en inglés) de 9'28 MB, las cuales, a su vez, divide en "mini-partes" de 180 KB. A cada una de estas partes les saca un hash diferente y las diferencia en base a dicho hash.

    A la hora de solicitar archivos (o partes concretas de un archivo) a los demás clientes, si no he entendido mal, las identifica mediante el hash. Por lo que, si encuentra a un cliente que dispone de un archivo que contenga una misma parte (aunque el resto sean diferentes), la da por válida y la solicita para su descarga.

    Entonces, si esto es así (que creo que así, aunque me he podido equivocar en algo, lógicamente), ¿qué tiene esto de novedad? ¿Alguien puede aportar algo de luz? :-)

    • Cerrado

      24

      Efectivamente el eMule (originariamente.. el eDonkey) divide…

      Efectivamente el eMule (originariamente.. el eDonkey) divide el archivo en X partes, pero el HASH se genera a partir del 100% del archivo, es decir, con que 1 de las 100000 partes del archivo sea distinta, se obtendrá un HASH distinto.

  • Cerrado

    BocaDePez BocaDePez
    0

    Es como cuando quitas una pieza de una figura de lego para acabar otra figura porque no tienes mas piezas, solo que en vez de

    Es como cuando quitas una pieza de una figura de lego para acabar otra figura porque no tienes mas piezas, solo que en vez de quitarla la copiamos.

  • Cerrado

    Legalmente relevante ?

    Ya podremos decir que no hemos bajado el último disco del Bisbal sino que hemos juntado un trocito de Alias, una pizca de Madonna y unas gotas de las fotos del vecino y nos hemos "construido" un disco que se parece mucho al del Bisbal :-)

    • Cerrado

      Ellos se basan en la teoria del caos no es tan caotica en…

      Ellos se basan en la teoria del caos no es tan caotica en internet y que hay cierta homgenidad en internet y que todo esta duplicado en cierto modo es cierto solo hay que ver you tube con el mismo video duplicado en algunos casos hasta la saciedad
      en casos como este les vendria de perlas para limpiar bases de datos repetidas por culpa del procedencias esto mismo pasa con culkier genoma de un ser vivo en relaidad te puedes descargar el genoma de un ser humano cojiendo pedazos de el genoma de una mosca ya que la base es la misma solo cambia un 2% en la informacion osea nos estan dicendo que no somos tan creativos como cremos ser.
      De esto se pueden sacar un millon de conclusiones quien no conoce los libros de isac assimov y las teorias del psicohistoria osea estan locos XD pero bueno es el dicho dame una calculadora y te contare como funciona el universo o internet.

  • Cerrado

    BocaDePez BocaDePez
    0

    No sé para qué desarrollan esta tecnología si no lo vamos a poder usar nunca, con la que se nos viene encima, hacer cosas

    No sé para qué desarrollan esta tecnología si no lo vamos a poder usar nunca, con la que se nos viene encima, hacer cosas como éstas para no poder usarlas deprime....

  • Cerrado

    Se os paso por la cabeza que esto tiene doble uso ? El alogartimo si esta depurado como ellos pretenden en realidad es un

    Se os paso por la cabeza que esto tiene doble uso ?
    El alogartimo si esta depurado como ellos pretenden en realidad es un motor de busqueda de archivos sin nombre osea tendra doble uso por un lado p2p hibridos web
    ares emule bitorrent y por otrolad herramienta antipirateria ya que si yo mismo antes de poner una pelicula la ripeo y luego ago una busqueda de semejanzas cazare al primero que publique mi trabajo ,eso contando que de verdad lo han conseguido que me da que no seria el sueño de mas de una agencia de espionaje.

  • Cerrado

    BocaDePez BocaDePez
    0

    la idea es bien sencilla, aunque no es nueva, ya que lphant, lo hace a medias,..... la idea es que si un mismo archivo esta en

    la idea es bien sencilla, aunque no es nueva, ya que lphant, lo hace a medias,.....

    la idea es que si un mismo archivo esta en ares,kazaa,torrent,emule,edonkey,ftp,hppt,pando.........etc,etc.....descarga de todos los sitios posibles,....y no solo de la red en la que esta conectado,.......

    lphant baja partes de un mismo archivo si esta en torrent y emule,....esto ocurre mucho con paginas que ponen links a ambas redes,pero compartiendo el mismo fichero....

    • Cerrado

      BocaDePez BocaDePez
      0

      Repito no se trata de eso. Bajar un mismo archivo de…

      Repito no se trata de eso. Bajar un mismo archivo de distintas redes ya lo viene haciendo/desarrollando el mldonkey desde 2004.

      "se basa en el reconocimiento de fragmentos de datos idénticos" != mismo archivo con diferentes nombres y/o redes ;)

  • Cerrado

    BocaDePez BocaDePez
    0

    Este son el tpo de noticias k les encantan a los de la SGAE :P

    Este son el tpo de noticias k les encantan a los de la SGAE :P

1