Category Archives: Computerlinguistik

Christoph Draxler über Webexperimente mit Percy

Für alle, die mal ein Online-Experiment machen wollen und vor allem für alle, die mal ein Online-Perzeptionsexperiment machen wollen:

Die Vorteile von Percy liegen auf der Hand:

  • Die Teilnehmerinnen & Teilnehmer müssen nicht ins Labor kommen und können mit verschiedenen Geräten am Experiment teilnehmen (sie müssen aber auch angeben, wo sie sich befinden und welche Art von Ein- und Ausgabegerät sie verwenden)
  • Es gibt schon eine ganze Reihe an vorgefertigten Experiment-Layouts
  • Man braucht keine Programmierkenntnisse
  • Percy wird durch das Bayerische Archiv für Sprachsignale und CLARIN-D kostenlos zur Verfügung gestellt

Eine Liste mit bereits bestehenden Experimenten findet ihr hier: http://webapp.phonetik.uni-muenchen.de/WebExperiment.

Sprachdatenbanken-Workshop in München

flyer_facebook3

Wer sich für Sprachdatenbanken interessiert, kann sich das hier mal ansehen: einen Workshop zur Erstellung und Verwaltung von Sprachdatenbanken in München. Eine finanzielle Förderung ist auch möglich!

Automatische Segmentierung mit WebMAUS

Ich hatte ja neulich schonmal ein Video mit Florian Schiel, der erklärt, wie so eine automatische Segmentierung mit MAUS (Munich AUtomatic Segmentation) funktioniert. Ich habe dazu jetzt noch ein Video gemacht, in dem ich zeige, wie man WebMAUS benutzt und online eine automatische Segmentierung vornimmt.

Ein paar Sachen, die ich loswerden will

Ich komme in letzter Zeit leider wegen meiner Staatsexamensvorbereitungen sehr wenig zum Bloggen. Aber ein paar Dinge möchte ich heute dennoch (gebündelt) loswerden:

1. Den Flyer des Projekts CLARIN-D. Das steht für die deutsche Version der Common Language Resources and Technology Infrastrucure.
Das Projekt will den Geistes- und Sozialwissenschaften eine technische Infrastruktur in Sachen Sprachtechnologien und -ressourcen bieten, aber genaueres entnehmt ihr dem Flyer.

2. Ich hab mal auf Duden.de nachgesehen, mit welchen Wörter die Begriffe Mann und Frau auftauchen. Bestimmt ganz interessant für Gender Studies.

3. Auf dem Free Science Blog hab ich ein paar interessante Beiträge gefunden, u.a. von Martin Haspelmath über Open Access in der Linguistik. Sollte ihr euch ansehen!

4. Apropos Open Access in der Linguistik: Die neue Ausgabe unsere multidisziplinären Online-Journals Helikon ist draußen. Ihr findet uns unter www.helikon-online.de. Bis Ende des Jahres könnt ihr da auch übrigens noch Artikel zum Thema „Raum“ einsenden. Artikel zu anderen Themen sind allerdings auch willkommen. Seht einfach mal unseren Call for papers an.

5. Am Rande: Ich bin jetzt auch bei Twitter 🙂

 

Free ride

Heute hat mir Wikipedia ein schönes Wort beigebracht: Free ride. Damit meint man in der maschinellen Übersetzung grammatische Phänomene, die in zwei ineinander zu übersetzende Sprachen identisch sind. Das erleichtert natürlich die Arbeit. Allerdings gibt es dieses Phänomen recht selten und man tappt recht leicht in die Falle. Als Beispiel wird angegeben, dass man im Deutschen Sätze mit Artikel konstruieren kann, die im Englischen jedoch mit Possesivpronomen übersetzt werden müssen:

(1) Jemand hat mir die Geldbörse gestohlen.
      Somebody stole my wallet.

Tatsächlich kann Googles Übersetzungsdienst den in (1) angegeben Satz trotzdem richtig und wie angegeben übersetzen. Ich konnte allerdings bei weiterem googlen (kann man das mittlerweile so schreiben?) nichts mehr zu dem Begriff Free ride und maschineller Übersetzung finden. Komisch. Vielleicht weiß ja jemand was!?

Das Wort des Tages

Das finde ich sehr, sehr schön: Das Wortschatz-Projekt der Abteilung Automatische Sprachverarbeitung (ASV) der Universität Leipzig extrahiert jeden automatisch Tag die wichtigsten Wörter aus verschiedenen Newsdiensten. Da diese thematisch sortiert sind (z.B. Politiker, Ereignis, Ort, usw.) könnte man das auch als Anlass nehmen, kleine Geschichten zu verfassen 🙂

Hier entlang zum Wort des Tages: wortschatz.uni-leipzig.de/wort-des-tages/

Modalverben und der Google-Übersetzer

Ich bin ja großer Fan des Google-Übersetzungsdienstes. Interessanterweise scheint er Probleme bei der Übersetzung von Deutsch nach Englisch mit den deutschen Modalverben zu haben. Präskriptive Grammatiken schreiben für das Deutsche gerne vor, dass Modalverben mit einem Infinitiv bzw. einer Infinitivphrase gebraucht werden. Aber auch wissenschaftliche Einführungen handhaben das häufig auf diese Weise. So schreiben beispielsweise Graefen & Liedke (2008:148) über Modalverben (MV) bzw. modalähnliche Verben:

Abgesehen von den MV mit reinem Infinitiv haben die anderen Verben gemeinsam, dass sie einen Infinitiv bzw. eine Infinitivphrase mit zu zur Bildung des komplexen Prädikats erfordern.

Im alltäglichen Gebrauch gibt es aber häufig elliptische Verwendungsweisen der Modalverben, wie z.B.:

(1) a. Ich muss zum Supermarkt.
       b. Google kann kein Deutsch.

Während dem Muttersprachler in (1a) klar ist, dass man zum Supermarkt geht, versteht er auch, dass in (1b) natürlich die Beherrschung der Sprache gemeint ist: Google kann kein Deutsch sprechen. Während der Google-Übersetzungsdienst Ich muss zum Einkaufen (zumindest grammatisch) richtig mit ‚I need to shop‘ übersetzt, wird es mit Ich muss zum Supermarkt schon knifflig. Googles Antwort lautet hier ‚I need to supermaket‘. Interessant ist, dass auch die Groß- und Kleinschreibung hier von Bedeutung zu sein scheint. Aus google kann kein deutsch wird ‚google is no German‘, bei Beachtung der Groß- und Kleinschreibung jedoch aus Google kann kein DeutschGoogle can not speak German‘.

Literatur:

Graefen, G. & Liedke, M. (2008): Germanistische Sprachwissenschaft. Deutsch als Erst-, Zweit- oder Fremdsprache. Tübingen & Basel: A. Francke.

google is no German

Das Web übersetzen mit Luis von Ahn


Luis von Ahn, Informatik-Professor an der Carnegie Mellon University ist sozusagen der Erfinder des CAPTCHAs. Jetzt will er mit seinem Projekt Duolingo dabei helfen, das Web zugänglicher zu machen. Dabei sollen einerseits Texte von Usern mittels gemeinsamen Wissens übersetzt werden, andererseits sollen die User dabei eine Fremdsprache lernen. Ich finde die Idee wirklich bewundernswert! Aus sprachwissenschaftlicher Sicht bezweifle ich allerdings, dass es möglich ist auf diese Weise einen hohen Kompetenzgrad in einer Sprache zu erlangen. Sprache ist zu tief mit unserer Umwelt und mit Handlungen verwoben, obendrein ist sie ein soziales Phänomen, sodass ein bloßes Übersetzen von Texten keine nachhaltigen Lerneffekte erzielen sollte. Ist fast schon ein bisschen so, wie im Chinesischen Zimmer sitzen, wenn man nur übersetzt. Aber nur fast, man kann ja schon auf die Bedeutung der Symbole zurückgreifen.
Man kennt das ja aus dem Lateinunterricht. Man hat zwar eine passive Kompetenz, d.h. man kann zwar mit etwas Mühe die Texte übersetzen, unterhalten kann man sich deswegen aktiv auf Latein noch lange nicht.
Ähnliche Projekte, mittels „social tagging“ wissenschaftliche Erkenntnisse zu erzielen – und das wird mit Duolingo bestimmt ebenfalls getan – geht man auch an der Ludwig-Maximilians-Universität München (meiner Heimatuniversität). Dort arbeiten Sprachwissenschaftler, Computerlinguisten, Informatiker und Kunsthistoriker gemeinsam an sogenannten GWAPs („games with a purpose“), also Spielen mit wissenschaftlichem Zweck. Ein Beispiel dafür ist ARTigo, ein kunsthistorisches Spiel, bei dem der User Bilder und Künstler kennenlernt und gleichzeitig mittels sogenanntem „social image tagging“ dabei hilft eine Kunstsuchmaschine zu entwickeln.