... mit großen Dateien / Tabellen umgehen

JKL · 05.07.2021

nachdem meine Coronatabelle jetzt endgültig so groß geworden war, das sie nur mit Hilfe aus dem Forum gerettet werden konnte ( Danke Leute ), sind auch ein paar Tips genannt worden die wir besser nicht im C-Faden untergehen lassen.
Die würde ich lieber in einem eigenen Faden sammeln, vielleicht haben ja auch andere noch Probleme mit zu groß gewordenen Dateien.

Gruß Jörg

TimB · 05.07.2021

1. Abhilfe: Sicherheitskopien! Große Projekte immer nach einer gewissen Zeit in eine neue Datei abspeichern oder eine tägliche Sicherung haben.

Wer hats denn repariert? Ich habs nicht hinbekommen, Glückwunsch zur Rettung

SteelHeart98 · 05.07.2021

TimB schrieb:
Große Projekte immer nach einer gewissen Zeit in eine neue Datei abspeichern oder eine tägliche Sicherung haben.

alternativ mit Git oder Subversion arbeiten, ist etwas Speicherplatz-schonender

TimB · 05.07.2021

svn braucht mehr Platz als Sicherungen, allein das Repository ist knapp 3x so groß wie die darin enthaltenen Daten, dazu kommt dann noch der Platz auf dem Server. Mit git kenn ich mich nicht aus.

Gruß,

Tim

SteelHeart98 · 05.07.2021

am Anfang stimmt das sicherlich, mit zunehmender Anzahl der Sicherungen dürfte SVN/Git allerdings immer weniger Speicherplatz relativ zu Sicherungskopien brauchen, da hier so wie ich es verstanden habe immer nur die Änderungen zur vorangegangenen Version gespeichert werden.
Bei Git nehme ich mal an, dass das ähnlich ist. Ein großer Vorteil gegenüber SVN ist hier, dass man nicht zwangsläufig ein Remote-Repository benötigt, sondern auch 100% lokal arbeiten kann.

thomas.engel · 05.07.2021

Jörg ich hatte dir ja schon mal angeboten von Excel weg zu gehen und die Auswertung mit Python zu machen.
Der Vorteil du könntest mehrere kleine Dateien haben. Z.B. Monatsscheiben die dann zusammen gespielt werden.
Ansonsten bei Excel separate Datei mit dem Auswerteprogramm erstellen, keine Grafiken in der Datei speichern, keine Berechnungen in der Datei machen ( keine Formeln einbauen), nur reine Daten.

JKL · 05.07.2021

thomas.engel schrieb:
Jörg ich hatte dir ja schon mal angeboten von Excel weg zu gehen und die Auswertung mit Python zu machen.

Danke noch mal für das Angebot ... nur kenne ich mich mit Python aber so was von gar nicht aus

Krobi · 05.07.2021

Schau mal nach ob du rechts oder am Ende der Tabelle viele tausend leere Zeilen hast.

Wenn ja diese löschen und Datei speichern. Danach benötigt die Datei deutlich weniger Speicherplatz.

Es gibt auch Formeln die unnötig viel Speicher brauchen.

Chrisol · 05.07.2021

JKL schrieb:
Tabelle läuft wieder (sicher) ... Danke @Christoph S , @TimB , @TitanWolf

Und der Fehler war:?

TimB · 05.07.2021

Da das hier auch nicht in den Covid-Thread passt: @Christoph S
Wenn die csv-Dateien wissenschaftlich korrekt mit Punkt für Dezimaltrennung und Komma für Wertetrennung formatiert sind, kann man Excel unter Optionen/erweitert/Dezimaltrennzeichen/Tausendertrennzeichen auf international übliche Formatierung stellen.

Gruß,

Tim

TimB · 05.07.2021

SteelHeart98 schrieb:
am Anfang stimmt das sicherlich, mit zunehmender Anzahl der Sicherungen dürfte SVN/Git allerdings immer weniger Speicherplatz relativ zu Sicherungskopien brauchen, da hier so wie ich es verstanden habe immer nur die Änderungen zur vorangegangenen Version gespeichert werden.

Bei Textdateien. Binärdateien ändern sich ungeordnet und werden komplett gesichert.

Chrisol schrieb:
Und der Fehler war:?

copy-paste für jeden Tag und 6 Monate immer weitergeführt und zwischendurch nie gelöscht.
Ist ne quick&dirty-Lösung, deswegen auch auf Anzahl Länder und Anzahl Tage limitiert. Provisorien und ihre Haltbarkeit...

Gruß,

Tim

JKL · 05.07.2021

Chrisol schrieb:
Und der Fehler war:?

(vermutlich) mein zu kleiner Rechner

Chrisol · 05.07.2021

Und den haste jetzt aufgepumpt?

JKL · 05.07.2021

Chrisol schrieb:
Und den haste jetzt aufgepumpt?

Nee ... drei freundliche Herren aus dem Forum haben mir die Tabelle verkleinert ... das werde ich jetzt auch regelmässig um den ersten eines Monats tun

Christoph S · 05.07.2021

TimB schrieb:
kann man Excel unter Optionen/erweitert/Dezimaltrennzeichen/Tausendertrennzeichen auf international übliche Formatierung stellen.

Ich hab jetzt für diese Daten:

2021-06-21,756,707,801,686,647,730,.71,.68,.73,.78,.77,.8
2021-06-22,740,693,778,681,638,723,.78,.74,.81,.79,.78,.81
2021-06-23,656,619,705,691,648,735,.88,.85,.92,.81,.79,.83
2021-06-24,611,564,664,691,646,737,.99,.95,1.03,.83,.81,.85
2021-06-25,579,523,634,646,600,695,.94,.9,.99,.87,.84,.9
2021-06-26,607,546,661,613,563,666,.9,.85,.95,.91,.88,.94
2021-06-27,546,468,621,586,525,645,.85,.79,.9,.94,.91,.98
2021-06-28,732,618,854,616,539,692,.89,.84,.96,.95,.91,.99
2021-06-29,597,438,721,621,517,714,.96,.89,1.04,.95,.89,.99
2021-06-30,645,446,839,630,492,759,1.03,.93,1.13,.93,.87,.99
2021-07-01,484,289,689,615,448,776,1.05,.91,1.19,,,

die "Sekritärinnenmethode" gewählt: c&p nach MS Word, dann per Makro alle Leerzeichen durch Zeilenumbrüche, Kommata durch Tabulatoren und Punkte durch Kommata ersetzt.
Dann wieder durch c&p nach Excel. Klingt albern, passt aber und geht mit 4 Tastenkombinationen.

dudeldi · 06.07.2021

Wenn´s nicht inzwischen so teuer wäre:

Für große Dateien (z.B. auch für aufgezeichnete Sensordaten im Rahmen der Rollversuche und so, die ja hier allenthalben unternommen werden) halte ich immer noch Origin für das Nonplusultra.

In den 90ern gab´s das Programm für ein paar Mark fuffzich. Obwohl die Bugs von damals immer noch drin sind, kostet es jetzt dreißig mal so viel. Die Kernkompetenz eines Rechners -das Rechnen- wird mittlerweile als höchst komplexes Experten-Geheimwerkzeug vermarktet.

Linux-Leute sind mit paw++ gut bedient. Erfordert aber eine längere Einarbeitung.

Christoph Moder · 06.07.2021

Ich habe zwar immer noch nicht verstanden, was eigentlich das Problem war (zu viele Daten? zu große Datei?), aber da ich auch mal mit großen Datenmengen gearbeitet habe, gebe ich meinen Senf dazu:

SteelHeart98 schrieb:
am Anfang stimmt das sicherlich, mit zunehmender Anzahl der Sicherungen dürfte SVN/Git allerdings immer weniger Speicherplatz relativ zu Sicherungskopien brauchen, da hier so wie ich es verstanden habe immer nur die Änderungen zur vorangegangenen Version gespeichert werden.

Nein, bei Git werden immer komplette Dateien gespeichert.

thomas.engel schrieb:
Jörg ich hatte dir ja schon mal angeboten von Excel weg zu gehen und die Auswertung mit Python zu machen.

Damit kann man aber auch viel Speicher verbrauchen. Wenn die Datenmenge groß ist, ist die Frage, ob man wirklich alles gleichzeitig im Speicher haben muss. Wenn nicht, kommt man oft mit extrem wenig Speicher aus. Um beispielsweise einen Durchschnittswert zu berechnen, muss man immer nur eine Zeile einlesen und die Summe bilden, auch wenn die Eingabedaten Terabytes umfassen.

Ich hatte früher mal mit großen Simulations-Datensätzen zu tun; vor allem mit deren Visualisierung:

Ausgangspunkt waren Klartext-Tabellen mit den Datenwerten.
Für die Visualisierung musste ich das Koordinatengitter hinzufügen; das ist ein unstrukturiertes Gitter, d.h. für jeden Datenpunkt müssen drei Raumkoordinaten sowie die Konnektivität hinzugefügt werden. Da ich das Ergebnis dann binär gespeichert habe, ist die Gesamtgröße ungefähr gleich geblieben.
Damit war man schon bei einigen Gigabyte; vor 15 Jahren war das viel, wo die Arbeitsplatzrechner nur 2 GB RAM hatten.
Ich habe dazu die Daten aufgeteilt; sie waren sowieso in getrennten Dateien, da auf einem Supercomputer mit vielen CPUs parallel berechnet.
Die eigentliche Konvertierung konnte ich problemlos an den Arbeitsplatzrechnern machen, weil das nicht zeitkritisch war. D.h. ich habe das Koordinatengitter hinzugefügt, den relevanten Datensatz extrahiert, und dann die Daten für die Visualisierung verarbeitet (z.B. Schnitt- und Isoflächen aus den Volumendaten berechnet).
Dazu habe ich auf allen Arbeitsplatzrechnern Konvertierungs-Jobs gestartet. Das war kein Problem, weil das nur wenig RAM gebraucht hat. Wenn bei den Arbeitsplatzrechnern plötzlich die Lüfter aufheulten, wussten meine Kollegen, dass ich wieder eine riesige Konvertierung gestartet habe.
Am Ende habe ich die Ergebnisse eingesammelt. Da es jetzt Oberflächen- statt Volumendaten waren, war die Datenmenge viel kleiner. Und das war auch gut so, denn für die graphische Darstellung müssen alle Teile gleichzeitig sichtbar und damit gleichzeitig im Speicher gehalten werden. Das packte dann ein einzelner Rechner.
Und weil es nicht nur räumlich große Simulationen waren, sondern auch mit vielen Zeitschritten, habe ich den Vorgang für jeden Zeitschritt wiederholt.
Später gab es dann einen fetten Rechner mit 128 GB RAM, was die Arbeit stark vereinfacht hat – jetzt konnte ich manche Versuche gleich interaktiv mit Volumendaten machen, statt erst alles einzudampfen.
Die Ergebnisse sieht man z.B. hier.

winido · 07.07.2021

Ich bin mir nicht sicher, ob ich das Problem wirklich verstanden habe, aber wäre vielleicht auf Dauer einfach eine Datenbank die Lösung? MS bietet z.B. Access an. Lässt sich relativ leicht bedienen (MS hat ja über die Jahrzente inwischen auch geschafft die Bedienung weitgehend zuvereinheitlichen). Damit lassen sich auch noch größere Datenmengen (bei denen Excel vor ein paar Jahren schon lange die Flügel gestreckt hat, aktuell sind wohl die Grenzen bei Excel nach oben geschraubt worden) bequem händeln.

Krobi · 07.07.2021

winido schrieb:
Access

DB wurde früher auch immer größer ohne mehr Daten zu haben.

Ist heute vielleicht besser.

einrad · 07.07.2021

Frei aus der Erinnerung zu Excel:
(Ich bin in Ecel auch nur ein mäßig fortgeschrittener User)
Man kann Einstellen, dass nach Eingabe von Daten nicht sofort neu berechnet wird, sondern die erneute Berechnung manuell gestartet werden muss.

Einerseits hilft dies mit größeren Dateien umzugehen.
Andererseits ist's eine Gefahr, dass ein so konfiguriertes File die Werte nicht mehr berechnet, weil der User die Berechnung nicht startet.