OSR015 Reproduzierbarkeit

Kommentare 24

Nachdem wir in der letzten Folge etwas ausführlicher über Open Access gesprochen haben, haben wir uns in dieser Episode mal einem Prozess zugewandt der eigentlich nachgelagert zur Publikation zum Tragen kommt, aber schon weit vorher bedacht und vorgesehen werden muss/sollte – der Reproduzierbarkeit. Dabei geht es vor allem um die Wiederholbarkeit von empirisch-wissenschaftlichen Ergebnissen die in der Forschung z.B. in wissenschaftlichen Experimente, Messungen und Analysen erzielt wurden. Es gilt diese möglichst unter gleichen Versuchsbedingungen nachvollziehen zu müssen um gleiche Ergebnisse erzielen zu können. Warum das wünschenswert ist, wo die Herausforderungen liegen und welche Ansätze es gibt, versuchen wir in dieser Folge einmal darzulegen.


Episode Info:
Recorded: 10-03-2014
Published: 01-01-1970


Downloads:

Teilnehmer:
[podlove-contributor-list]

Shownotes:

HAUSMEISTEREI



VORSTELLUNG HAUPTTHEMA: REPRODUZIERBARKEIT



REPRODUCIBILITY – Prinzipien, Inititativen, Beispiele, Tools

Kommentare 24

  1. Au weia, schon wieder mehr als zwei Stunden!
    Ihr seid ja Irre! 😉
    Aber Reproduzierbarkeit ist quasi mein Lieblingsthema…
    …wie soll ich da widerstehen?

    …wird wohl wieder nichts mit früh ins Bett gehen…

    …na, dann werd’ ich mir das mal reinzieh’n… 🙂

    Schönen Dank schon mal Vorab für Euren Einsatz.

  2. Danke, Oliver! Wir hoffen es gefällt Dir. Wie auch bei der vorherigen Sendung konnten wir trotz der zwei Stunden das Thema nur anreißen. Wenn Du noch sehr wichtige Punkte siehst, die fehlen, sind wir wie immer für Hinweise dankbar.

  3. Wieder eine großartige Folge. Selten habe ich bei einem Podcast so große Lust mit zu diskutieren wie bei Euch. Diesmal gab es oft die Gelegenheit seine eigene Arbeitsweise im Labor oder bei den anschließenden Publikationen zu überdenken.
    Da waren schon ein paar echt faszinierende Gedanken bei, wie revolutionär radikales “Open Science” sein kann. Keine Frage, da ist man noch meilenweit von entfernt und da gibt es sicher erhebliche rechtliche und vor allem psychologische Barrieren, aber die Vision einer solchen offenen Wissenschaftswelt ist schon sehr reizvoll.

    Ihr solltet irgend wann mal – in Anlehnung an die klassischen Hörertreffen – ein “Open Science Workshop” aufziehen wo man sich trifft und ein Wochenende lang Ideen austauscht. Gerade bei einer heterogenen Gruppe aus verschiedenen Wissenschaftszweigen wäre das glaube ich sehr interessant. Ich würde jedenfalls kommen! 😉

    Weiter so, immer wieder eine Freude Eure Ideen zu Open Science zu hören!

    Nicolas

  4. Moin Nicolas!

    Ach danke, das hört man gern, dass es auf Interesse stößt und stellenweise vielleicht sogar zum Nachdenken/Überdenken anregt! Das geht runter wie Öl!

    Das Feld ist halt extrem weit und für mich ist es immer schwer nachvollziehbar wie akkurat man Themen dar- oder vorstellt und wie verständlich man sie rüberbringen kann. Aber wenn es ein paar Anregungen gibt, scheint es ja einigermaßen hinzuhauen. 😉

    Gute Idee mit dem Workshop. Im Rahmen von Vorträgen habe ich grundlegende Einführungen in das Thema schon gemacht. Ein Workshop als Austauschplattform finde ich da noch erheblich besser – weniger als Einführung, als viel mehr Ideengenerator. Das behalten wir mal im Hinterkopf.

    Euch führt der Weg ja ohnehin zur re:publica nach Berlin – da würde ich mich über ein Kennenlernen schon einmal sehr freuen. 😉

    Cheers,
    Matthias

  5. Hi Nicolas,

    danke für das ausschweifende Lob. Ich werde schon ganz rot. 🙂

    Ich spiele schon länger mit dem Gedanken ein Open Science BarCamp zu organisieren, aber momentan fehlen die zeitlichen Ressourcen. Das wird sich Mitte des Jahre aber verbessern so das die Planung angegangen werden könnte. Ich will aber nicht zu viel versprechen und so etwas dauert auch. Ein kleineres, hörertreffenänlichens Meeting könnte man aber vielleicht auch schon früher mal einschieben. Wenn es dir in den Fingern juckt wäre ggf. das OKFestival im Juli in Berlin ein guter Ort Gleichgesinnte zum Ideenaustausch zu finden. Da gibt es auch eine OpenScience Session.

    Konrad

  6. Hallo,
    ich hatte während der Sendung einige Mitschriften gemacht.
    Das ist auch ein Grund, wieso das Podcast hören bei mir immer länger dauert, als die Länge des Podcasts. Diesmal waren es ca. 3 Stunden oder etwas mehr…angefangen nach meinem obigen Posting…

    Die Mitschrift ist recht umfangreich, weiss nicht, ob das hier im Kommentarfeld so gut aufgehoben ist. Nicht, daß ich dann als Spammer gelte. 😉 Ausserdem sind einige meiner eigenen Anmerkungen, Handhabungen/Ideen im Verlauf des Podcasts auch genannt worden. Ich könnte die Notizen hier aber auch rein pasten, marginal editiert. (Alles nochmal überarbieten will ich jetzt nicht, dann brauch ich ja noch mehr Zeit.)

    $ wc -l OSR15.txt
    163 OSR15.txt

    Wie Nicolas schon sagte, so ging es mir auch.
    Am liebsten hätte ich bei der Diskussion mitgemischt.
    “Was? Nicht live? Dann kann man ja garnicht im Studio anrufen! Mist!” 😉

    • Hi Oliver!

      Cool! Ich find’s ja echt bemerkenswert, dass wir da so Denkprozesse oder/und Diskussionsbedarf geweckt haben.

      Also wenn ich das richtig verstanden habe, würdest Du gern deine
      Überlegungen publizieren, das aber nicht unbedingt in den Kommentaren
      tun, da diese zu ausführlich sind (und wahrscheinlich einige Links
      beinhalten)? Hm… Also entweder können wir die Textfiles auf meinen
      Server legen und in den Kommentaren oder im Post-Text verlinken, oder
      wenn sie eher diskussionbedürftig sind , könnte man durchaus über
      eine Publikation irgendwo nachdenken wo diese auch wieder selbst
      kommentiert werden können.

      Oder hab ich Dich da falsch verstanden?

      Lass es uns wissen! 😉

      Cheers,
      Matthias

    • Danke Dir Katrin für den Zuspruch und den Hinweis – den Link habe ich geändert.

      Cheers,
      Matthias

  7. Hi,
    vielen Dank für euren Podcast. Gerade diese Folge fand ich sehr interessant, da ich gerade über das Thema Reproduzierbarkeit in der letzten Zeit viel nachgedact habe.

    Ihr hab im Podcast erwähnt, dass es Programme gibt mit denen man zusammen online z.B. Paper schreiben kann und bei denen man auch Zitate einfügen kann. Könnt ihr mir dazu vielleicht einen Link schicken?
    Bis jetzt habe ich dazu immer etherpad benutzt, dass leider keine Zitierfunktion hat.

    • Hi Melinda!

      Vielen Dank für Dein Feedback und den Zuspruch! Freut uns!

      Nun ja, für das kollaborative Schreiben haben sich in den vergangenen Jahren einige Lösungen etabliert und einige neue Lösungen entwickelt. Neben den klassischen Ansätzen wie Blogs und Wikis (im akademischen Bereich beispielsweise Wikiversity) haben sich Echtzeit-Textverarbeitungsprogramme wie Etherpads (neben Etherpad auch diverse andere Instanzen wie Piratenpad, Titanpad, oder auch Google Docs) hinzugesellt. Seit einigen Jahren liegt der Ansatz nun auch merklich auf dem gemeinsamen, oft auch gleichzeitigen Schreiben. Je nachdem welche Art des Schreibens man hier wählt (bspw. Plaintext oder gleich LaTex) gibt es hier einige erwähnenswerte Dienste die ich nur kurz und im Einzelnen nicht weiter kommentiert in den Raum werfen will:
      http://fiduswriter.org/
      https://www.penflip.com/
      https://wikidocs.com/
      https://www.sourcefabric.org/en/booktype/
      https://www.authorea.com
      https://www.writelatex.com/
      https://www.sharelatex.com/
      http://sparkleshare.org/

      In der kommenden Folge werden wir uns übrigens genau diesem Thema in aller Ausführlichkeit widmen. Du bist also auch hier wieder herzlich eingeladen! 😉

      Viele Grüße,
      Matthias

  8. Hallo Matthias,

    “Cool! Ich find’s ja echt bemerkenswert, dass wir da so Denkprozesse oder/und Diskussionsbedarf geweckt haben.”

    Naja, was die Sachen wie gescriptetes Forschen angeht,
    ist mir das seit ewigen Zeiten klar; als Linux-/Unix-Mensch hat man da ohnehin so einen Fokus drauf. Unix-philosophy at it’s best sozusagen. Und mit GNU auch den ansatz “Open”.

    Insofern waren meine Notizen, die ich während des zuhörens schrieb so inder Art von “sag ich doch schon seit Jahren” 😉
    Sozusagen Selbstbestätigung plus Freude darüber, daß das nun auch mal so formuliert wird in einem Podcast.

    Ein eigenes paper habe ich da keines, da es ja Mithscirft-beim-Hören war. Bei einer Live-Sendung hätte man anrufen können, oder als Studiogast auch noch gleich vor Ort was sagen können.
    Das Geschreibsel von mir ist qualitativ sicher nicht auf Niveau eines Artikels. Eher stichpunktzentriert, teils ausformulierte Kommentare.
    Im alufe der Sendung wurden aber einige meiner Anmerkungen dann auch von Euch (bzw. Deinem neuen “Kollegen”) auch genannt. Insofern ist es nicht notwendig, das nochmal schriftlich nachzuholen, kam’s ja dann teils doch in der Sendung zu späterem Zeitpunkt ohnehin noch.

    Aber mal kurz einiges kann ich ja in Stichpunkten hier noch anmerken, was ich mir notiert hatte, aber ich versuche das stark zu kürzen.

    Zum Thema dauer der Sendung, auf das Ihr ja noch ausführlicher eingegangen seid, als ich es erwatet hätte, hier mal kurz eine Zusammenstellung der Sendedauern, von hand aus Euren Seiten gefummelt, hoffentlich nicht zu viele Fehler:

    Folge Dauer_HH:MM:SS
    1 00:30:58
    2 00:32:06
    3 00:47:09
    4 00:33:26
    5 00:37:52
    6 00:45:06
    7 00:51:40
    8 01:05:45
    9 00:29:48
    10 00:36:30
    11 00:31:52
    12 00:52:16
    13 01:03:30
    14 02:00:24
    15 02:14:24

    OSR hat Anfangs eher so zwischen 30 und 50 Minuten dauer gehabt. Darauf hatte ich mich eingestellt.
    Dann kamen die 2-Stunden-Sendungen als nicht mehr in meinen Zeiutrahmen passend.
    Aber ich kann das ja umplanen; geht eben nicht mehr mit Abends vor’m Schlafen gehen mal schnell noch eine Folge anhören.

    (Der Grund, wieso ich so lange brauche für’s hören ist, daß ich oftmals zeitnah nach Links schaue, mir Linklisten baue, mal schaue, was für Tools Ihr da so erwähnt, die Shownotes durchgehe usw. keine Ahnung, ob ich das irgendwie effizienter gestalten könnte. Aus zwei Stunden Podcast werden schon mal 3,5 Stunden Zeitaufwand… jetzige Antwort nicht mitgerechnet.)

    Zum Thema PLOS und der Kritik an der geforderten Daten-Veröffentlichung: die haben doch aber ohnehin Ausnahmen erlaubt, nur sollten die eben auch Ausnahmen bleiben:

    “Do we allow any exceptions?

    Yes, but only in specific cases. We are aware that it is not ethical to make
    all datasets fully public, including private patient data, or specific
    information relating to endangered species. (…)”

    ( http://blogs.plos.org/everyone/2014/02/24/plos-new-data-policy-public-access-data-2/ )

    Insofern ist das Geschrei um’s Daten veröffentlichen und die bösen PLOS-Richtlkinien IMHO Quatsch.

    Es wurde im Podcast gesagt, im Software-Bereich sei das Problem mit Abhängigkeiten und Aufsetzen von Projekten ja bestens gelöst.
    Dazu muss man sagen, daß da auch Jahre bzw, Jahrzehnte Know How investiert wurde, und allerlei Paketmanager entwickelt wurden und die Tools z.B. für Versionskontrolle auch eine Entwicklung durch gemacht haben.
    “Bei Software ist das einfach…” müsste also heissen: “Bei Software ist das MITTLERWEILE einfach…”.

    Im Wissenschaftsbereich kann man darauf natürlich aufbauen.
    Und man kann versionsverwaltung und Paketmanager uch für Wissenschaftsdaten anwenden. Wenn man z.B. LaTeX statt binär-basierte textverarbeitungen benutzt, klappt es auch prima mit der Versionsverwaltung, man kann die Möglichkeiten der Softwareentwicklung auch für die Wissenschaft einsetzen.
    Man denke z.B. an branch- und merge…

    Anmerkung zur uneingeschränkten Nutzung von Daten inklusive veränderbarkeit.
    Das ist IMHO problematisch.
    Erhobene Daten müssen IMHO eher so wie sie sind / erhoiben wurden – durch Prüfsummen als Originaldaten verifizierbar sein.
    Änderung von Rohdaten wieder als Rohdaten auszugeben ist der falsche Weg.
    Daher ist der Punkt mit “nimm, verteile, oder verändere” eigentlich Quatsch.
    Datensätze aus den Rohdaten ableiten (Stichworte: Mittelwerte, Ausreisser, etc.) kann man ja machen.
    Aber es muss als *abgeleitet* gekennzeichnet werden.
    Daten, in denen Ausreisser entfernt wurden sind keine Original-/Rohdaten mehr.
    Deswegen ist “CC0” hier unpassend.
    Sonst kann man sich auch einfach irgendwelche Daten erfinden, und es immernoch Wissenschaft nennen.

    Zu den Workflow-Tools, die erwähnt wurden (und die ich nicht kenne) könntet Ihr ja ggf. mal eine eigene Sendung machen?

    Was das Klicki-Bunti angeht, was diese Tools so “bequem benutzbar” macht muss ich anmerken: Damit wird aber genau die Reproduzierbarkeit wieder abgeschafft.
    Wenn die GUI keine Logs bzw, Scripte schreibt, und man stattdessen wieder auf eine nicht-dokumentierte Reihenfolge von Klicks sich verlässt, dann ist das Closed-Project-History sozusagen. Das sehe ich daher als problematisch an.

    Mit dem “Pipetten-Sport” und der Automatisierung seh ich auch so…. man sollte als Forscher das Handwerk beherrschen, aber “Pipetten-Sport” sollte nicht den ganzen tagesablauf ausfüllen. Ist Craig venter mit seiner Sequenzierung nicht auch den weg maximaler Automatisierung gegangen?
    Mir war so, daß der nicht den ganzen Tag Glasröhrchen umher trägt und schwenkt.

    Wichtiges Thema, das mir beim Hören noch eingefallen ist:
    Alte Originaldaten, die gerade einmal ein paar jahrzehnte alt sind, sind teils nicht mehr lesbar, da die Datenträger ( oh , welch Fortschritt durch dei Computerei :-> ) verrotten.
    Und ohne originaldaten wird das mit der Reproduzierbarkeit von Forschungsergebnissen nichts.

    Vielleicht sollte man im Forschungsbetrieb sowas wie eine Patenschaft für alte Datenträger anregen, vielleicht mit PLOS und anderen Institutionen zusammen, um da rettend einzugreifen.

    zweii Links zum Thema:
    http://www.ingenieur.de/Themen/Forschung/Archivierung-Forschungsergebnissen-Veraltete-Speichermedien-ungueltige-Adressen
    http://www.heise.de/tp/artikel/41/41049/1.html

    Soweit erst mal.
    Ist nun doch wieder etwas länger geworden, dabei habe ich doch schon einige meiner Notizen stark eingedampft.
    Ich hoffe, das war jetzt nicht zu viel Bloat und auch halbwegs interessant als Feedback.

    Gruß,
    Oliver

    P.S.: Zum Thema Open-Source/freie Software und angrenzende Gebiete gibt’s hier was zum Lesen/Hören:

    Der offene Code
    — Wieso wir freie Software brauchen —
    http://breitband.deutschlandradiokultur.de/talks-foss-opensource/

  9. Ach, noch was: der Sound war diesmal wirklich gut! 🙂
    Wart Ihr zusammen im selben Raum?
    Kein Vergleich mit dem ersten Doppel von Euch!

  10. Hi Oliver, in der ersten Sendung mit mir hat Matthias mein Signal via Skype aufgenommen, da ich Probleme mit der Aufnahme hatte. Beim zweiten mal habe in meinen Double-Ender-Teil (separate Tonaufnahmen) mit einem Samson GoMic in einem recht großen, hallenden Raum gemacht. Für die aktuelle Sendung habe ich mir neue Hardware (Beyerdynamic DT 234 PRO) angeschafft, einen kleinere Raum gesucht und den noch ein wenig präpariert. Scheint sich gelohnt zu haben. Danke fürs Feedback!

  11. Was ist mit meinem ersten (langen) Kommentar?
    Der war zuerst da und wird doch hoffentlich auch noch freigeschaltet….

  12. …oh, doch nicht… war noch im Browser zu sehen, las Rückgabe nach dem Abschicken, ist aber noch nicht freigeschaltet…

    • Hi Oliver!

      Danke Dir für die Rückmeldung! Den langen Kommentar hab ich jetzt auch freigeschaltet, weiß nicht genau warum der wieder in die Moderation ging – vermutlich weil er ein paar Links enthielt. Sollte jetzt aber da sein.

      Cheers,
      Matthias

  13. Hi Oliver, ich noch einmal!

    Hab Deinen Kommentar jetzt durchgearbeitet. 😉 Danke Dir für soviel Aufwand!

    In der Tat sind die Folgen sehr viel länger geworden seitdem Konrad dabei ist. Das liegt natürlich vor allem daran, dass wir mit zwei Personen a) mehr Links als Input haben, b) im Zweifel auch zwei Meinungen oder zumindest Blickwinkel und c) wir mit dem Fokus auf spezielle Themenbereiche (z.B. Reproduzierbarkeit) ein bißchen tiefer in das Thema einsteigen als ich ich das allein in meinem Aktuelle-Entwicklungen-Überblick getan hab. Ich hoffe aber es lohnt sich und ich gebe mir Mühe auch gute und sinnvolle Kapitelmarken zu generieren, sodass man zumindest themensouverän in anständig abgegrenzten Häppchen hören kann!

    Ansonsten kann ich viele Deiner festgehaltenen Punkte unterstreichen. Insbesondere der Punkt der Kennzeichnung der originalen Rohdaten als *Original* und aller abgeleiteten Daten als *abgeleitet* finde ich extrem wichtig. Auch die Identifizierung der ROhdaten über Hashsummen oder ähnliches finde ich (aus meiner Nichtprogrammierersicht) durchaus eine Überlegung wert.

    Und ja…bei Software ist das MITTLERWEILE einfacher…! Völlig einverstanden! 😉

    Übrigens werden wir in der Tat in der nächsten Folge ein wenig näher auf Tools eingehen. Nicht unbedingt auf die Workflow-Tools (da müsste ich erst einmal selbst Erfahrung sammeln), oder zumindest nicht auf alle, aber wir werden uns mal kollaborativen Tools in der Wissenschaft widmen.

    Und auch ja…bei den Klicki-Bunti-GUI-Tools muss es eine genau Workflow-History inklusive aller zum Einsatz kommenden Parameter geben, damit das nachvollziehbar und damit reproduzierbar bleibt. Ist halt wie mit allem was wir auch ansprachen – im Kern brauchen wir “einfach” eine Art der Formalisierung die uns erlaubt alle Parameter und schritte genauestens zu verzeichnen. Das dürfte der nächste große Wurf sein.

    Also, wie gesagt: danke, dass Du Dir noch einmal die Mühe des ausführlichen Kommentars gemacht hast. Das sehen wir immer gern!

    Cheers,
    Matthias

  14. Oliver, noch ein paar Punkte zu Deinem längeren Kommentar:

    1) Zu “Änderung von Rohdaten wieder als Rohdaten auszugeben ist der falsche Weg”. Das hat ja auch keiner vor und das wäre Betrug. Als Teil der Data-Provenance sollte die Daten-Quelle auch vermerkt werden. Aber es geht darum mögliche Hürden für die Wiederverwertung zu beseitigen. Allein schon Namensnennung könnte e.g. bei der Vermengung verschiedener Datenquellen und Neupräsentation zu erheblich mehr Aufwand führen.

    2) Zu ‘Was das Klicki-Bunti angeht, was diese Tools so “bequem benutzbar” macht muss ich anmerken: Damit wird aber genau die Reproduzierbarkeit wieder abgeschafft’. Bei den visuellen Workflow-Tools kann am der erstellt Ablauf als Datei abgepeichert werden, die den Workflow repräsentiert und der entsprechen geteilt werden kann. Das hätten wir klarer sagen sollen.

  15. Apropos Reproduzierbarkeit.

    Hier ein aktueller Fall, wo mal jemand dies ermöglicht hat… obewohl die eigentliche Publikation ein Buch war…

    Post-Piketty Lessons
    http://simplystatistics.org/2014/06/03/post-piketty-lessons/

    Die Daten aus dem Buch sollen auch für Analysen in R verfügbar gemacht werden:
    Piketty in R markdown – we need some help from the crowd

    http://www.statsblogs.com/2014/06/30/piketty-in-r-markdown-we-need-some-help-from-the-crowd/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+statsblogs+%28StatsBlogs%29

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.