{"id":553,"date":"2015-09-02T13:37:57","date_gmt":"2015-09-02T13:37:57","guid":{"rendered":"http:\/\/www.sprach-blog.de\/?p=553"},"modified":"2015-09-07T18:11:43","modified_gmt":"2015-09-07T18:11:43","slug":"experimente-und-statistik-in-der-psychologie-und-linguistik","status":"publish","type":"post","link":"https:\/\/www.sprach-blog.de\/?p=553","title":{"rendered":"Experimente und Statistik in der Psychologie und Linguistik"},"content":{"rendered":"<p>Es sind aufregende Zeiten. Wirklich! Gerade musste das <a href=\"http:\/\/as.virginia.edu\/news\/massive-collaboration-testing-reproducibility-psychology-studies-publishes-findings\">Reproducibility Project<\/a> der University of Virginia feststellen, dass sie \u00fcber 60 Prozent von 100 psychologischen Experimenten aus drei hochrangigen Journals nicht replizieren konnten (siehe auch den Artikel in <a href=\"http:\/\/www.sciencemag.org\/content\/349\/6251\/aac4716\" target=\"_blank\">Science <\/a>dazu). Was bedeutet das f\u00fcr die experimentelle Forschung, die ja auch in der Linguistik keine unerhebliche Rolle mehr spielt?<\/p>\n<div style=\"background-color: white; width: 500px; height: 250px; padding: 10px; margin: 0px; border: 2px black solid;\">\n<p><strong>Exkurs: Replizierbarkeit versus Reproduzierbarkeit<\/strong><\/p>\n<p>Als Replikation bezeichnet man die Wiederholung eines Experiments unter gleichen Voraussetzungen und denselben Stimuli und (hoffentliche) den gleichen Ergebnissen. Daher ist eine l\u00fcckenlose Dokumentation bei Experimenten \u00e4u\u00dferst wichtig. Eine Reproduktion dagegen ist eine ann\u00e4hernde Wiederholung eines Experiments, die dasselbe Ph\u00e4nomen untersuchen will. Daf\u00fcr werden vergleichbare Daten durch vergleichbare Verfahrensweisen gewonnen:\u00a0 \u201eReproduzierbarkeit von Ergebnissen weist darauf hin, dass das Ph\u00e4nomen, das man untersucht, existiert\u201c (<a href=\"https:\/\/www.linguistik.hu-berlin.de\/de\/institut\/professuren\/korpuslinguistik\/events\/DGfSTutorialGolcherLuedeling.pdf\" target=\"_blank\">Felix Golcher &amp; Anke L\u00fcdeling<\/a>).<\/p>\n<\/div>\n<p>&nbsp;<\/p>\n<p>Bei der l\u00fcckenlosen Dokumentation von Experimenten hapert es leider sehr h\u00e4ufig, sodass es oft wirklich schwierig ist, ein Experiment wirklich zu replizieren. Oder erinnert sich jemand daran, mal in einem Paper wirkliche alle Stimuli abgedruckt gesehen zu haben? Nat\u00fcrlich gibt es hier mittlerweile auch Datenbanken, die versuchen das nachzuholen und in den Naturwissenschaften gibt es sogar Videojournals, die Videos von Experimenten bereithalten. Aber selbst, wenn wir eine vollst\u00e4ndige Dokumentation h\u00e4tten, w\u00e4re es oft wohl schwer m\u00f6glich, ein Experiment exakt zu replizieren. Irgendetwas wird immer anders sein. Daher f\u00fchrt auch die Psychologieprofessorin <a href=\"http:\/\/www.northeastern.edu\/psychology\/people\/faculty\/lisa-feldman-barrett\/\">Lisa Feldman Barrett<\/a> in einem <a href=\"http:\/\/www.nytimes.com\/2015\/09\/01\/opinion\/psychology-is-not-in-crisis.html?smid=fb-nytscience&amp;smtyp=cur&amp;_r=1\" target=\"_blank\">Artikel in der New York Times<\/a> aus, dass es ganz logisch sei, dass sich Experimente (egal ob psychologisch oder naturwissenschaftlich) nicht immer replizieren lassen, weil zu viele Kontextfaktoren eine Rolle spielten. Vielmehr glaubt sie, dass das zum Wesen der Wissenschaft geh\u00f6re. Eine Wissenschaftlerin oder ein Wissenschaftler, der oder dem es nicht gelingt, ein Experiment zu wiederholen, sollten sich daher fragen, warum dies nicht der Fall ist, anstatt nur festzustellen, dass dies so ist. Und sie hat nat\u00fcrlich nicht unrecht, wenn sie schreibt:<\/p>\n<blockquote><p>Science is not a body of facts that emerge, like an orderly string of light bulbs, to illuminate a linear path to universal truth. Rather, science (to paraphrase Henry Gee, an editor at Nature) is a method to quantify doubt about a hypothesis, and to find the contexts in which a phenomenon is likely. Failure to replicate is not a bug; it is a feature. It is what leads us along the path \u2014 the wonderfully twisty path \u2014 of scientific discovery.<\/p><\/blockquote>\n<p>Allerdings muss man sich dennoch die Frage gefallen lassen, ob die experimentelle Forschung in der Psychologie und verwandten F\u00e4chern in einer Krise steckt \u2013 auch wenn Feldman das abstreitet. Die Diskussion um <em>p-hacking<\/em>, also einer Vorgehensweise, bei der alles getan wird, um ein statistisch signifikantes Ergebnis zu erhalten, ist nicht neu. Auch nicht neu, wenn auch nicht so bekannt wie p-hacking\u00a0 ist das sogenannte <a href=\"http:\/\/psr.sagepub.com\/content\/2\/3\/196.abstract\" target=\"_blank\">HARKing<\/a> (Hypothesizing After the Results are Known), bei dem zu den nicht zur Hypothese passenden Resultate einfach eine neue Hypothese erfunden wird (eine Praxis, die es dringend einzud\u00e4mmen gilt!). Rolf Zwaan hat diese Entwicklungen <a href=\"http:\/\/rolfzwaan.blogspot.nl\/2014\/06\/whos-gonna-lay-down-law-in-psytown.html\" target=\"_blank\">auf seinem Blog<\/a> letztes Jahr in einer Geschichte \u00fcber eine Stadt namen <em>Psytown <\/em>auf den Punkt gebracht:<\/p>\n<blockquote><p>Something needs to change in Psytown. The people need to know what\u2019s right and what\u2019s wrong. Maybe they need to get together to devise a system of rules. Or maybe a new sheriff needs to ride into town and lay down the law.<\/p><\/blockquote>\n<p>Neue Standards sollten also her, Wissenschaftler aufh\u00f6ren, Signifikanzen hinterherzulaufen. Wobei eigentlich das Problem ist, dass ein Experiment ohne signifikante Ergebnisse einfach kaum zu publizieren ist und Wissenschaftler\/-innen nun mal immer an ihre Karriere und den n\u00e4chsten Vertrag denken m\u00fcssen. Also brauchen sie signifikante Ergebnisse, Standards hin oder her. Wir brauchen schlicht ein Umdenken, was genau Wissenschaft ausmacht und mehr Projekte, wie das<a href=\"http:\/\/junq.info\/\" target=\"_blank\"> Journal of Unsolved Questions<\/a>, das (peer-reviewed) Nullergebnisse publiziert.<\/p>\n<p>Gleichzeit geriet jedoch dennoch der klassische Nullhypothesentest (NHST) in Verruf. Und das geschah aus dem gleichen Grund, wie der, der zu Beginn dieses Artikels angef\u00fchrt wurde: N\u00e4mlich aus der Feststellung heraus, dass die Ergebnisse vieler wissenschaftlicher Studien nicht replizierbar sind. Urspr\u00fcnglich ging es jedoch nicht um die Psychologie, sondern um die <a href=\"http:\/\/journals.plos.org\/plosmedicine\/article?id=10.1371\/journal.pmed.0020124\" target=\"_blank\">Medizin<\/a>. Dennoch kamen diese Ergebnisse schnell in der Psychologie an und f\u00fchrten zur Forderung: <em>Do not trust any p value<\/em>! Dieser Satz ist nur einer von 25 Vorschl\u00e4gen von Geoff Cumming, der dazu auffordert, das p-hacking endlich sein zu lassen und stattdessen auf seine <a href=\"http:\/\/pss.sagepub.com\/content\/early\/2013\/11\/07\/0956797613504966\" target=\"_blank\">New Statistics<\/a> zu vertrauen.<\/p>\n<div style=\"background-color: white; width: 500px; height: 250px; padding: 10px; margin: 0px; border: 2px black solid;\"><strong>Exkurs: Die Auswirkungen der Kritik am NHST<\/strong><br \/>\nDie beiden Journals<em> Psychological Science<\/em> und das <em>Journal of Research in Personality<\/em> haben beide schnell auf solche Kritik reagiert, die <em>New Statistics<\/em> verpflichtend eingef\u00fchrt und den klassischen <em>p<\/em>-Wert in die Verbannung geschickt. Das ist insofern interessant, weil <em> Psychological Science<\/em> das einflussreichste Journal der Psychologie \u00fcberhaupt ist. K\u00fcrzlich zog dann auch das <a href=\"http:\/\/www.tandfonline.com\/doi\/pdf\/10.1080\/01973533.2015.1012991\" target=\"_blank\"><em>Basic and Applied Social Psychology<\/em><\/a> nach und ging dabei sogar noch einen Schritt weiter: klassisches NHST wird nicht mehr akzeptiert, genauso wenig Konfidenzintervalle, Bayesianische Statistik wird zwar akzeptiert, ist jedoch auch nicht unbedingt willkommen.<\/div>\n<p>&nbsp;<\/p>\n<p>Dazu sei gleich angemerkt, dass die <em>New Statistics<\/em> nat\u00fcrlich keine neue Statistik ist, sondern nur die Aufforderung, schon lange bekannte Methoden, endlich zum Standard zu erheben. Neben der Verwendung von Konfidenzintervallen und der Verbannung von NHST geht es Cumming aber auch darum, m\u00f6glichst viele Replikationen durchzuf\u00fchren. Und das w\u00e4re wirklich grandios! Vor allem f\u00fcr die Linguistik! Immer wieder f\u00e4llt mir auf, dass bei vielen Ergebnissen der Sprachwissenschaft, die durch Experimente gewonnen oder durch solche belegt wurden, immer und immer wieder nur eine einzige Quelle angegeben wird (am besten eine aus den 1960er oder 1970er Jahren mit drei Probanden \u2013 um es mal \u00fcberspitzt zu sagen). Wir brauchen dringend eine Kultur der Replikation und Reproduktion (das klingt jetzt nicht so, wie es gemeint ist). Aber das wird nat\u00fcrlich nicht einfach werden, denn das Ansehen von Replikationsstudien ist extrem gering, f\u00fcr das Erklimmen der wissenschaftlichen Karriereleiter sind sie nicht gerade die beste Wahl. Um es einmal vorsichtig zu sagen. Und zitiert werden sie garantiert auch nicht so h\u00e4ufig. Und die Anzahl der Zitate ist nun mal eine harte W\u00e4hrung.<\/p>\n<p>Was wir aber mindestens ebenso dringend brauchen, ist eine Verankerung von statistischen Seminaren extrem fr\u00fch in unseren Studienpl\u00e4nen. Ich schlie\u00dfe mich da nicht aus, wenn ich sage, dass es vielen Linguistinnen und Linguisten an statistischem Wissen mangelt. Das Wissen, das vermittelt werden muss, besteht nicht nur aus dem klassischen NHST, sondern wir brauchen weitaus mehr. Wir brauchen auch mehr als <em>New Statistics<\/em>, denn auch die steht massiv in der Kritik (ich empfehle folgende Links: <a href=\"https:\/\/webfiles.uci.edu\/mdlee\/Lee2014_NewStatistics.pdf\" target=\"_blank\">hier<\/a>, <a href=\"https:\/\/replicationindex.wordpress.com\/2015\/05\/16\/a-critical-review-of-cummings-2014-new-statistics-reselling-old-statistics-as-new-statistics\/\" target=\"_blank\">hier <\/a>und <a href=\"http:\/\/www.esajournals.org\/doi\/abs\/10.1890\/13-0590.1\" target=\"_blank\">hier <\/a>noch eine Verteidigung der klassischen Methode). Wir brauchen auch\u00a0Bayesianische Statistik und ein allgemeines Umdenken, dass es uns erm\u00f6glicht auch Nullresultate zu ver\u00f6ffentlichen. Und ich muss zugeben, dass die meisten meiner letzten Experimente genau das produziert haben. Aber dar\u00fcber schreibe ich bald mehr.<\/p>\n<p><strong>Update: Links<\/strong><\/p>\n<p>Ich habe beschlossen, hier noch ein paar interessante Links zum Thema zu sammeln:<\/p>\n<ul>\n<li><a href=\"https:\/\/www.youtube.com\/watch?v=iJ4kqk3V8jQ\" target=\"_blank\">Die New-Statistics-Video-Serie auf Youtube<\/a><\/li>\n<li><a href=\"https:\/\/hardsci.wordpress.com\/2015\/09\/02\/moderator-interpretations-of-the-reproducibility-project\/\" target=\"_blank\">Blog-Beitrag von Sanjay Srivastava \u00fcber die Rolle von <em>hidden moderators <\/em>in Replikationsstudien<\/a><\/li>\n<li><a href=\"http:\/\/rolfzwaan.blogspot.nl\/2015\/02\/can-we-live-without-inferential.html\" target=\"_blank\"><em>Can we life without inferential statistics?<\/em> Blog-Beitrag von Rolf Zwaan<\/a><\/li>\n<li><a href=\"http:\/\/www.nature.com\/news\/psychology-journal-bans-p-values-1.17001\" target=\"_blank\"><em>Psychology journal bans <\/em>P<em> values<\/em>. Beitrag auf nature.com<\/a><\/li>\n<\/ul>\n<p><script src=\"\/\/pagead2.googlesyndication.com\/pagead\/js\/adsbygoogle.js\" async=\"\"><\/script><!-- Automatische Anpassung, neon --> <ins class=\"adsbygoogle\" style=\"display: block;\" data-ad-client=\"ca-pub-9471099084382741\" data-ad-slot=\"4821456941\" data-ad-format=\"auto\"><\/ins><script>\/\/ <![CDATA[\n(adsbygoogle = window.adsbygoogle || []).push({});\n\/\/ ]]><\/script><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Es sind aufregende Zeiten. Wirklich! Gerade musste das Reproducibility Project der University of Virginia feststellen, dass sie \u00fcber 60 Prozent von 100 psychologischen Experimenten aus<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1,74,33,21],"tags":[],"class_list":["post-553","post","type-post","status-publish","format-standard","hentry","category-allgemein","category-empirisches-arbeiten","category-experiment","category-psycholinguistik"],"_links":{"self":[{"href":"https:\/\/www.sprach-blog.de\/index.php?rest_route=\/wp\/v2\/posts\/553","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.sprach-blog.de\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.sprach-blog.de\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.sprach-blog.de\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.sprach-blog.de\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=553"}],"version-history":[{"count":24,"href":"https:\/\/www.sprach-blog.de\/index.php?rest_route=\/wp\/v2\/posts\/553\/revisions"}],"predecessor-version":[{"id":580,"href":"https:\/\/www.sprach-blog.de\/index.php?rest_route=\/wp\/v2\/posts\/553\/revisions\/580"}],"wp:attachment":[{"href":"https:\/\/www.sprach-blog.de\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=553"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.sprach-blog.de\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=553"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.sprach-blog.de\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=553"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}