BandaAncha.eu + Rss + Calibre = Ebook de news for Ereaders. by KRorschachZ
El sistema funciona como sigue:
Usando CALIBRE software, se crea una RECETA del portal, se puede usar los RSS, pero tambien permite crear ebooks de paginas sin RSS, es algo mas dificil y estamos en ello, pues es en lenguaje python:
una pista: calibre-ebook.com/user_manual/news.html
Luego, se va al programa y se inserta este codigo:
#!/usr/bin/env python
# vim:fileencoding=UTF-8:ts=4:sw=4:sta:et:sts=4:ai
from calibre.web.feeds.news import re
class BandaAnchaNews(BasicNewsRecipe):
title = u'BandaAncha News'
timefmt = ' [%d %b, %Y]'
__author__ = 'KRorschachZ'
description = 'Noticias Banda Ancha ISP´s & Tecnología' # indicando en las dos variables siguientes 15-77, tarda 12 minutos
# en codificar el ebook. mas completo. evidentemente
oldest_article = 7
max_articles_per_feed = 44
use_embedded_content = False
publisher = 'BA'
category = 'Noticias Banda Ancha ISP´s & Tecnología'
language = 'es_ES'
publication_type = 'newsportal'
remove_javascript = True
extra_css = ' .txt_articulo{ font-family: sans-serif; font-size: medium; text-align: justify } .contentheading{font-family: serif; font-size: large; font-weight: bold; color: #000000; text-align: center}'
feeds = [(u'BandaAncha News', u'http://feeds.feedburner.com/bandaanchaeu')]
luego vamos a Descarga noticias:
(vemos la personalizada...) y luego el proceso de descarga de los articulos, gestionados por fecha, tambien se puede limitar el numero de comentarios de salida, aunque algunos SON interesantes, ;-) (le lleva un rato, tal vez me pasé con los limites, pero si ven el codigo, eso se puede bajar facil, con los lectores electronicos es facil, cuando ya estamos en comentarios, podemos saltar con una tecla al Indice, o al articulo siguiente, por tanto, ¿para que quitarlos?...
(bueno, hay una version "mas de libro", de la receta, PARA los puristas de los ereaders)
class AdvancedUserRecipe1288742903(BasicNewsRecipe):
title = u'BandaAnchaOnlyNEWS'
oldest_article = 12
max_articles_per_feed = 77
feeds = [(u'BandaAnchaOnlyNEWS', u'http://feeds.feedburner.com/bandaanchaeu')]
(He programado esta receta para Leer las news y Articulos en los ereaders, pero, tal vez pueden echarme un cable con los RSS, (no veo las imagenes en cada articulo, y quedaría aun mejor con la imagen de cada uno).
Ahora bien, la pagina de RSS no parece "contener" las imagenes de entrada en cada articulo, ¿confirmación?...
feeds.feedburner.com/bandaanchaeu
Y tal vez sea posible crear una receta mas compleja, basandose en las diferentes secciones; o un RSS mas completito... asi es más sencillo de exportar a distintos dispositivos.
Les animo a intentarlo, es mas potente de lo que parece, el Calibre se puede programar para que visite BA cada cierto tiempo y los ficheros personalizar en buen detalle. (Hay recetas de paginas muy complejas, de agencias de noticias, que no siempre tienen el RSS en buen estado, el de BandaAncha no esta mal del todo, pero sería interesante tener un RSS "personalizado" a la seccion de ARTICULOS:
Pues no todos acaban en portada... ;-)
Bien, el caso es que el fichero de salida, formateado por calibre al gusto del ereader del consumidor, es enviado automaticamente por USB, wifi si procede, o hasta por mail... depende...
Anexo: el fichero generado *.mobi con variables en 15-77 ocupa 3Mb... y hay 24 articulos y bastantes entradas por articulo, tarda 10~12 minutos en codificarse en un Dual Core a 3 Ghz... (se descartan articulos por fechas en auto, etc)
Probando con 7-22, tarda 4~5 minutos, que pueden ser 2 o 3 en un Procesador tipico de hoy en dia...
En la version MODE libro "purista", llegan los ultimos 9 articulos y solo 700 kb... de carga, practicamente perfecto...
Bueno, si alguien se anima a mejorar lo presente, el propio Calibre tiene un VISOR del documento final...
salu2.
PD: si os gusta como queda se lo podemos enviar a es posible que "pongan la receta" en el programa de serie en la siguiente versión, suelen añadirse novedades de ese tipo, pero para eso puede ser necesario optimizarla un poco...
(Creo que si entramos a modo avanzado, perdemos el canal "modo basico" y entonces la captura de calibre es muy detallada, es posible que nos podemos quedar con las imagenes, que en este modo si salen, pero recortando parte de los accesorios, links y spam..., mejorando la navegacion en 6"...)
uhmm. aqui dejamos la TERCERA version de la RECETA por ahora, en la que salen todas las imagenes tipicas, se ve de cine en un kindle DX, y los articulos con opcion a saltar en los links, a la fuente, la diferencia con respecto al primero es que se carga "los comentarios", pero deja datos de horas, autor de la noticia y links habituales, digamos que es una opcion intermedia, aunque la version basica basta y sobra, pues el autor se ve en "el indice de articulos", tal vez seria posible insertar "un breve texto" de antetitulo en el RSS, para que salga alli mismo tambien... "como los periodicos"... debajo de cada titulo...)
#!/usr/bin/env python
# vim:fileencoding=UTF-8:ts=4:sw=4:sta:et:sts=4:ai
from calibre.web.feeds.news import re
class BandaAnchaNews(BasicNewsRecipe):
title = u'BandaAncha News'
timefmt = ' [%d %b, %Y]'
__author__ = 'KRorschachZ'
description = 'Noticias Banda Ancha ISP´s & Tecnología'
# indicando en las dos variables siguientes 15-77, tarda 12 minutos
# en codificar el ebook. mas completo. evidentemente
oldest_article = 7
max_articles_per_feed = 55
use_embedded_content = False
publisher = 'BA'
category = 'Noticias Banda Ancha ISP´s & Tecnología'
language = 'es_ES'
publication_type = 'newsportal'
remove_javascript = True
extra_css = ' .txt_articulo{ font-family: sans-serif; font-size: medium; text-align: justify } .contentheading{font-family: serif; font-size: large; font-weight: bold; color: #000000; text-align: center}'
remove_tags = [
dict(name=['object','link','script','ul','iframe','ol'])
,dict(name='span', attrs={'class':['article-section']})
,dict(name='span', attrs={'class':['content_rating']})
,dict(name='span', attrs={'class':['content_vote']})
,dict(name='span', attrs={'class':['createby']})
,dict(name='div', attrs={'class':['dialog']})
,dict(name='div', attrs={'id':['jcWrapper']})
,dict(name='div', attrs={'class':['buttonheading']})
,dict(name='div', attrs={'class':['authordetails']})
,dict(name='table', attrs={'class':['pagenav']})
,dict(name='div', attrs={'id':['jc_commentFormDiv']})
]
remove_tags_after = dict(name='div', attrs={'id':'sidebar'})
feeds = [(u'BandaAncha News', u'http://feeds.feedburner.com/bandaanchaeu')]
Ale, vamos con las capturas reales del lector con Etinta... ;-)
Las 13 primeras imagenes definen como se ve "a escala REAL", el ebook de BandaAncha, utilizando solo RSS, sin coments, articulos y texto en estado puro:
En la imagen superior se echa en falta "una breve" descripción al estilo de esto:
(ven el titulo en negrita y luego la cursiva...)
Las 7 siguientes definen una receta en la que entra "el formato" bastante parecido a la web, pero sin comentarios, aunque con links e imagenes, digamos que un termino intermedio de detalle, (bueno, sobran algunos links, pero... aceptable)
(se echa en falta algo mas de texto, debajo de cada titulo...)
Y estas ultimas copian cada articulo con sus comentarios y formateados según se ven en la pagina... (si se cambian las fuentes del ereder, cabe mas texto, etc...), es un *.mobi, pero podria ser un awz, tal vez hasta un epub, aunque igual no formatea igual en ese caso...
1
---------------
Bien, quien dice esta www, dice cualquier otra, bueno, Espero que les guste el "invento"...
Saludos, buenas noches, y dulces sueños.
code: 3MBytes, con zoom.













































