Sourcen

Onkel S., Dienstag, 23.05.2017, 10:28 (vor 1869 Tagen) @ CalBaer4138 Views

Hallo CalBaer,

hier mein Quick und Dirty Hack. Habe noch nix mit Github gemacht, deshalb habe ich mal die Sourcen gezippt und als ein File hochgeladen.

https://github.com/onkels/dasgelbeforum-kopierer/blob/master/sources.zip

Ich hoffe ich habe Euch jetzt nicht zuviel versprochen.

Das Programm erzeugt in einem zu definierenden Zielverzeichnis Unterordner für jeweils 1000 Posts. Der Name des Ordners ist Beitragsnummer geteilt durch 1000. Hier im Beispiel mein aktueller Import, der bei den Beiträgen 431000-431999 läuft. Dadurch kann ich jeden Unterordner wegzippen, sobald 1000 Beiträge geladen sind.


[image]

Jeder Ordner enthält neben den 1000 Dateien für die 1000 Beiträge (manchmal weniger, wenn vom Cheffe gelöscht wurde :-) auch einen Unterordner img, dort liegen die Bilder drin, welche in den 1000 Beiträgen referenziert sind. Es werden nicht alle Bilder geladen, war aber zu faul den Fehler zu suchen.

[image]

Aus den URLs der Bilder habe ich alle Sonderzeichen wie . / : & ? rausgeworfen, d.h. man kann am Name der Bilder noch erahnen, von wo ich die geladen habe.

[image]

Hier mal ein wahllos lokal geöffneter Beitrag. Man kann ihn lesen, und die Naviagtion unten zu den anderen Beiträgen funktioniert über relative links zu den anderen lokal gespeicherten Beiträgen.

[image]

Ein Problem habe ich nur mit ganz aktuellen Beiträgen, oder wenn bei alten Strängen neue Beiträge hinzukommen, dann aktualisiere ich nicht die Navigation bei den alten Beiträgen. Das könnte man aber offline neu berechnen.

Wichtig war mir nur, dass ich den Text der Beiträge und auch so viele Bilder wie möglich rette.

In dem ZIP liegen die Sourcen fürs Laden vom DGF als auch zum Laden des alten EWF-Archivs.

Ich werde den Content vom DGF aber nicht auf Github hochladen, da mir die Copyright-Situation unklar ist.

Die Klasse zum Laden ist

internetkopierer.dgf.LadeAktuelleBeitraege

Als Parameter das Zielverzeichnis mitgeben

Und die Pfade in den log4j.properties anpassen.

Wie gesagt, ist alles Quick und Dirty gehackt, funktioniert bei mir, bin aber zu faul das jetzt ordentlich zu machen.

Grüße,
S.

--
Keine Anlageempfehlung!
Keine Anlageberatung!
Keine Gewähr!
Umsetzung auf eigene Gefahr!


gesamter Thread:

RSS-Feed dieser Diskussion

Werbung