Treffen am 11.01.2013 im DKRZ

Teilnehmer: Matthias vom PIK, Hannes, Hans R., Frank vom DKRZ

- ISIMIP, die im Projekt erzeugten Daten sollen langzeit archiviert werden

- Datenmenge: ca. 5,5 TByte in ca. 300.000 Dateien

- alle Daten am DKRZ sind am PIK gespiegelt auch vorhanden

- die Daten werden (am PIK ) noch harmonisiert und dadurch eventuell sogar noch in Anzahl und Größe reduziert

- die harmonisierten daten werden (z.B. per rsync) zum DKRZ transportiert

- Langzeitarchivierung am DKRZ wird innerhalb des WDCC gemacht, Datenspeicher ist die CERA Datenbank

- PIK überlegt auch Langzeitarchivierung auf eigenen Bändern, eventuell als weitere Kopie

- ESGF Publizierung ist KEINE Archivierung und KEINE Datensicherung sondern nur die Verteilung der Daten

- es ist noch offen, ob das PIK ein eigenes ESGF Gateway aufsetzt oder gleich eines der beiden DKRZ Gateways (esgf-data.dkrz.de | euclipse1.dkrz.de) nutzt

- für die Publizierung im ESGF werden die harmonisierten Daten benutzt

- LTA und Publizierung sind unabhängig voneinander

- ISIMIP Vertrag CSC - DKRZ enthält alle wichtigen Punkte, sollte möglichst umgehend abgezeichnet werden (Daniela Jacob vom CSC wird das veranlassen)

Telco am 20.04.2012

Teilnehmer: Katja + Jacob vom PIK, Andreas Hensler vom CSC, Hannes, Hans R.

- ISIMIP, Projekt über Modellvergleiche

- Datenmangement, PIK legt Struktur etc. fest in Zusammenarbeit mit DKRZ/DM, Output Formate,...

- Zugänglichkeit der Daten muß geklärt werden, LTA/DOI ?

- Kosten + Dauer der Speicherung, 10 Jahre + --> Kosten ca. 80.000,-

- CERA Zugang --> registrierte Benutzer

- LTA vermutlich ab Anfang 2013 (CMIP5 Deadline)

- DOI ggf. am Ende (ohne Extrakosten)

- Dateieigner?? --> Modellgruppen, Copyright?

- 3stufige QC nicht wie CMIP5 ist nbicht möglich, Modellgruppen werden das einzeln machen --> FESTLEGEN

- Output Formate netCDF + CSV

- Menge: vermutlich 20 TByte ... 50 TByte

- Wichtiger Hinweis an die ISIMIP Teilnehmer: Alle Festlegungen dokumentieren!!

- Daten werden nochmal gerechnet!!! große Mengen ab Juli, unterschiedliche Datentransportmengen

- Wo erfolgt der Upload zum DKRZ? Wird von DM angelegt (auf ggf. neuer Hardware)

- Vorschlag: von DM, Anlehnung an CMIP5?!

- Support? technisch bei uns, wird Adresse dafür eingerichtet

- Verfügbarkeit der Daten ab Januar 2013

- Kostenaufstellung für: Band, Server, Personal (Hannes macht einen Vorschlag)

- in der Zukunft sollen Forcing Daten auch verfügbar sein, andere Modelle, weitere Daten

- PIK macht Vorschlag zur Upload Directory Struktur


Zusammenfassung von Jacob (vom ISI-MIP Team):

Liebe(r) Hannes, Hans, Andreas, Katja,

hier kommt eine kurze Zusammenfassung unseres Gesprächs am Freitag - bitte korrigiert und ergänzt, falls ich etwas vergessen habe.

- Es wird zunächst eine upload area angelegt, in der die Projektteilnehmer selbständig ihre Daten ablegen können, und wo die Daten wiederum für alle Projektteilnehmer abrufbar sind. Zeitrahmen: Innerhalb der nächsten Wochen; zuständig: CSC/DKRZ

- Die directory-Struktur wird vom ISI-MIP team vorgegeben und an die Projektteilnehmer kommunziert - wichtig, da der upload selbständig erfolgt. Zuständig: ISI-MIP

- accounts: Das ISI-MIP team beantragt einen account am DKRZ (läuft). Damit kann das team dann selbständig weitere Benutzer anlegen und verwalten. Jeder Projektteilnehmer sollte einen eigenen Benutzeraccount bekommen für die Nutzung des upload-Bereichs. Zuständig: ISI-MIP

- Für technischen support bei Problemen mit der upload area stellt das DKRZ einen Ansprechpartner zur Verfügung, an den sich die Projektteilnehmer wenden können. Zuständig: CSC/DKRZ

- Speicher: Mittelfristig (bis Juli/August?) stellt das CSC/DKRZ ca. 20TB Speicherplatz für den upload von Daten zur Verfügung; zunächst (Mai-Juni 2012) reicht jedoch ein geringeres Volumen. Der genaue Verlauf der Volumenerweiterung sollte in enger Absprache erfolgen: ISI-MIP team versucht einzuschätzen, wie viele Daten wann erwartet werden; CSC/DKRZ informiert, wann wieviel Speicherplatz zur Verfügung gestellt werden kann. Zuständig: CSC, DKRZ, ISI-MIP

- Langfristig werden die Daten, die während des fast tracks als verwendbar beurteilt werden, in die CERA-Datenbank transferiert und sind dann allgemein zugänglich (für registrierte Benutzer). Dort können die Daten für mind. 10 Jahre verfügbar bleiben. Zeitrahmen: Anfang 2012, nach Fertigstellung der fast-track-Veröffentlichungen; zuständig: CSC/DKRZ

- Für die Veröffentlichung auf CERA muss geklärt werden, wer welche Rechte an den Daten besitzt. Z.B. sollten die Daten insoweit frei verwendbar sein, dass nicht bei jeder Anwendung der Urheber um Erlaubnis gefragt werden muss; zugleich wird der Urheber ggf. gewisse Rechte behalten wollen. Das ISI-MIP team ist dafür zuständig, diese Fragen mit allen Projektteilnehmern rechtzeitig zu klären und entsprechend zu dokumentieren. Zuständig: ISI-MIP

- Qualitätskontrolle (QC): Vor dem transfer in die CERA-Datenbank ist es empfehlenswert, eine QC zu definieren und anzuwenden. Am DKRZ üblich ist eine dreistufige QC: 1. Einhaltung des vorgegebenen Datenformats (für Klimadaten z.B. CMOR). In ISI-MIP z.T. bereits festgelegt im simulation protocol; hier wäre zu klären, ob noch weitere Anforderungen definiert werden müssen, damit es keine ungewollten Freiheitsgrade gibt. 2. Physikalische Konsistenz (z.B. P<0, T<-273°C etc.) 3. Metadaten; Vollständigkeit; Sinnhaftigkeit - d.h. ggf. stichprobenartige Auswertung der Daten durch grafische Darstellung, gucken ob die Daten "ok aussehen"; die Ergebnisse dieses Schritts können auch in CERA dokumentiert werden, z.B. in Form von plots. Die genaue QC-Prozedur für die ISI-MIP Daten, ebenso wie die Frage, wer welchen Teil davon tatsächlich durchführt, muss durch das ISI-MIP team festgelegt/geklärt und dokumentiert werden. U.a. müssen Kriterien für die QC festgelegt werden, und es muss klar sein was passiert wenn diese Kriterien nicht erfüllt sind (z.B. Daten werden zurückgewiesen). Zuständig: ISI-MIP

- DOI: Wurde der 3. Schritt der QC durchgeführt, dann kann, wenn gewünscht, eine DOI für den entsprechenden Datensatz (z.B. ein model run) vergeben werden. Datensatz ist dann "für immer" mit dieser DOI verbunden und zitierbar, wie ein paper. Das heisst auch dass, wenn später Fehler in den Daten gefunden werden, eine korrigierter Datensatz mit einer neuen DOI veröffentlicht werden müssten; die fehlerhaften Daten wären weiterhin öffentlich. Das ISI-MIP team fragt bei den Projektteilnehmern an, ob und wie dies gewünscht ist - abhängig von der gewählten QC-Prozedur. Zuständig: ISI-MIP

- WDCC: Im Falle der Archivierung auf CERA sollte die Unterstützung durch das World Data Center for Climate sichtbar gemacht werden, z.B. durch Logo auf der ISI-MIP website. Zuständig: ISI-MIP

Viele Grüße,

Jacob

Telco am 03.07.2012

Teilnehmer: Jacob, Matthias, Neill, Joshua, Hannes, Hans R.

- Daten Mirror (Input Daten) in den USA (Chicago) für bessere Zugänglichkeit der dortigen Gruppen

- ESG Publishing wird angestrebt (näheres auch unten in der Mail von Neill)

- Formate der abgelieferten Daten sollten nc3 komprimiert oder nc4 sein

- Input Daten sind bal komplett und dann als statisch zu betrachten!

- USA Mirror macht daily update (notwendig?)

- alle Versionen der Output Daten werden aufgehoben, analog CMIP5

- Test Publikation auf dem ANL P2P Gateway

- dann Zugang zu dem ANL Gateway über BDM GridFTP (ist im ESGF Gateway ein weiterer GridFTP Kanal auf einem zweiten Port: 'VIP' Zugang)

- dazu müssen die entsprechenden User als Publisher eingetragen werden (s. Neills Mail)

- wichtig ist auf jeden Fall alle daten synchron zu halten!!

- von den INPUT Daten sind die IPSL Daten am wichtigsten, die sollten komplett sein

- DKRZ versucht vor den Anschaffung eines ISIMIP Blades aus Bordmitteln die Hardware aufzurüsten um die Up-/Download Geschwindigkeit zu verbessern

- Monitoring wird möglichst nur beim DKRZ gemacht (aus Perfomance Gründen) Jacob / Matthias schicken Hans R. die Anforderungen der sie dann in die Cron Jobs einbaut

- Processing ist auf der lizard möglich aber die daten stehen nicht zur Verfügung

- Formatkonvertierungen ist im begrenztem Umfang dann auf dem neuen Blade möglich

Zusammenfassung von Neill (per Mail):

Hello,

Thanks again for meeting, it was great to clarify some things. I'm going to summarize our plan of action for data access as discussed, but please feel free to revise or add things I've missed:

1) Initial data sync from Hamburg is still in progress and we are waiting for it to complete and be located on the ANL datanode.

2) Since access to the data is needed quickly, we are going to temporarily allow BDM access to the data, which will allow us to provide a secure Globus Online endpoint to the data, allowing us to bypass the publication process (which may take a little longer). Requirements: Each person here will need to create an ESG portal account and I'll have to add publisher rights on a case by case basis. A Globus Online account is also required. I am going to disable writes from the server so that it will be used in a read-only manner.

3) Our real goal is to publish the data to the ESG portal, which I'll be looking into in parallel to #2. Requirements: Each person here will need to create an ESG portal account and I'll have to add group membership on a case by case basis. A Globus Online account is also recommended, however authenticated HTTP access will also be an option.

4) Once #3 is complete, I'll establish an automated task that will keep the Hamburg data in sync with the ANL data via Globus Online. In addition, after the sync and the initial publication of the data, I will add the automated publication to that task, which will publish new data that has arrived, and version existing data that is overwritten.

5) When all of the above is complete, I will add Write access to the group members that need access to be able to push data directly to ANL using Globus Online. The automated publication scan will be configured to pick up the new data.

References


Globus Online information: http://www.globusonline.org

ANL ESG Portal information: http://dev.esg.anl.gov

Please go to both of the above sites and create an account. This will help speed up the data access process. On the ESG Portal, the link to create an account is near the middle of the page on the right side under the "Quick Links" section.

When you have created both accounts and if you're feeling adventurous, please read this documentation on how to link your ESG account to your Globus Online account:

http://www.esgf.org/wiki/ESGF_GO_AccountSetup

I will be happy to walk you through this step if difficulties arise after we've determined that the data access will work properly (hopefully next week).

-Neill.


MadWiki: ISIMIP Meetings (last edited 2013-01-14 10:38:27 by HannesThiemann)