Linguistic Modeling and its Interfaces
Oberseminar, Detmar Meurers, Summer Semester 2013
The OS features presentations and discussions of current issues in linguistic modeling and its interfaces. This includes linguistic modeling in computational linguistics, language acquisition research, Intelligent Computer-Assisted Language Learning, as well as theoretical linguistic research with a focus on the interfaces of syntax and information structure. It is open to advanced students and anyone interested in this interdisciplinary enterprise.
Abstract: We have known for a long time that discourse connectors (like “therefore”, “however”, “but”) facilitate human sentence processing when used appropriately. We however know much less about the time course of processing such connectors. In particular, we are interested in whether discourse connectors are processed quickly enough to affect expectations about upcoming discourse content. In this talk, I will present recent experiments on the processing of causals vs. concessives, which indicate that connectors are integrated incrementally into the discourse representation, and that concessives, similar to negation, give rise to a search for alternatives. We however also found evidence that concessives take longer to process than causals.
I will then go on to talk about expectations which people may have about upcoming discourse relations /before/ encountering a connective, and how these expectations affect the explicit vs. implicit realization of discourse cues. Both studies can shed some light on the causes of processing difficulty at the discourse level.
In a final part of my talk, I will give an overview of our recent efforts in evaluating
models of linguistic processing difficulty in real-world scenarios, where we use a dual-task
setting with a simultaneous a language comprehension task and a well-controlled and
continuous simulated driving task. Cognitive load in this setting is measured in terms of
a novel form of pupillometry, in addition to task related measures such as steering
accuracy.
Abstract: Angesichts des inzwischen in der Fremdsprachendidaktik weithin etablierten Primats der mündlichen Kommunikation sollten die für eine reibungslose und erfolgreiche Verständigung erforderlichen sprachlichen Mittel frühestmöglich im Fremdsprachenunterricht eingeführt, geübt und automatisiert werden. Gerade in Bezug auf nicht-kindliche L2-Lernende, die zum Einen bereits über eine ausgebildete Erstsprachenkompetenz verfügen und daher ‘wissen’, wie Kommunikation funktioniert, stellt sich die Frage, ob ihnen nicht verstärkt vorgefertigte Sequenzen angeboten werden sollten, damit sie schnellstmöglich sprech- und kommunikationskompetent sind.
Da es für die Verständigung keine Rolle spielt, ob eine Formulierung selbst konstruiert, ganzheitlich aus dem Input imitiert oder aus dem Langzeitgedächtnis abgerufen wird, können langwierige Erwerbsprozesse durch die Verwendung von Chunks zwar nicht ersetzt, aber ergänzt und deutlich abgekürzt werden.
So können Lernende kommunikativ wichtige komplexe Konstruktionen wie “Wie geht es Dir?” oder “Tut mir leid.” (die beide die Bildung des Dativs von Personalpronomina erfordern) oder häufige Präpositionalsyntagmen wie “mit dem Auto”, “mit der Bahn”, “zur Arbeit”, “in die Stadt”, “auf dem Sofa”, “ins Kino”, “ans Meer”, “in den Bergen” etc. (für deren korrekte produktive Bildung das Genus des Substantivs, der von der Präposition regierte Kasus und dessen korrekte Form bekannt sein muss) mithilfe von ganzheitlich memorisierbaren und abrufbaren Chunks wesentlich früher korrekt bilden, als es ihnen aufgrund ihrer grammatischen Regelkenntnisse möglich wäre. Auch die z.B. für DaF/DaZ-Lernende besonders langwierige Hürde der durch die Verwendung von Adverbien am Satzanfang ausgelösten Inversion könnte durch die intensive Übung und Automatisierung von Chunks wie “Heute will ich …’, “Morgen gehe ich …”, “Gestern habe ich …” etc. genommen werden und dazu beitragen, den Erwerb dieser syntaktischen Struktur zu beschleunigen und die Erwerbsfolge damit ‘auszuhebeln’.
Einer der Auslöser für die soeben skizzierte Überlegung, im Fremdsprachenunterricht gezielt und verstärkt mit Chunks zu arbeiten, ist die seit geraumer Zeit bekannte Tatsache, dass insbesondere für Sprachanfänger der gleichzeitige Fokus auf den Inhalt und die Form einer zu lernenden L2 eine kaum zu bewältigende Herausforderung darstellt, wenn die Progression nicht zu kleinschrittig sein soll – was v.a. für kommunikativ erfahrene erwachsene L2-Lernende von Bedeutung ist. Um das insbesondere im Fall von komplexen Regeln oder Strukturen stark kapazitätsbeschränkte Arbeitsgedächtnis dieser Lernenden zu entlasten, bietet sich die Arbeit mit vorgefertigten Formulierungen an.
Ein weiterer Auslöser ist die in der einschlägigen Literatur (wie z.B. Diehl et al. 2000) beschriebene
Beobachtung, dass L2-Lernende in allen Erwerbsstadien aus dem Input ihnen nützlich
erscheinende, aber von ihnen selbst (noch) nicht konstruierbare komplexe Konstruktionen
herausfiltern, imitieren, memorisieren, automatisieren und – im Idealfall – schließlich korrekt
analysieren, die ihnen zugrundeliegenden Regularitäten ableiten und für eigene künftige
Produktionen verwenden.
Abstract: This talk reports on the compilation of the ICE Nigeria, a 1-million-word corpus of written and spoken Nigerian English. In contrast to earlier corpora developed for the ICE (International Corpus of English project, http://ice-corpora.net/ice), the ICE Nigeria uses an XML corpus format for the annotations and metadata and provides time-aligned transcriptions of the spoken data. This is achieved by using Pacx (platform for annotated corpora in XML), a software that is based on the Eclipse platform and comprises the XML editor Vex, QuickImage and Subversive. Furthermore, it integrates the software ELAN for the annotation of audio and video files.
The talk includes a short demo of the corpus creation process with Pacx, which comprises collaborative annotation of written and spoken data, possibilities of corpus searches and corpus dissemination. Some examples of the corpus searches will be presented including relative clause structures and the usage of the progressive in Nigerian English.
References
There are numerous semantic technologies that have the potential to drastically improve the way humans interact with computers. Especially beneficial areas of application are educative settings and the use of intelligent tutoring systems within schools, as they can provide immediate feedback and one-on-one tutoring. There is however a big gap between laboratory research and real world usage that often prevents the utilization of according tools. One technology currently in real-world use is latent semantic analysis (LSA) -– an algorithm from the field of vector space semantics aimed at the representation of meaning in numerical form. The lecture addresses foundations of LSA and its potential usage with focus on the German language. It shows methodological approaches for evaluating LSA performance on the basis of human ratings and behavioral observations and highlights long term effects of an LSA based intelligent tutoring system. Finally, potential pitfalls for bridging the gap between research and application are discussed.
References:
The talk is followed by a hands-on workshop in the afternoon (14ct-16).
Abstract: Automated scoring of free-text answers is the key technology to (i) enable formative
assessment in settings where no teacher is readily available, and (ii) decrease the large costs of high
quality, large-scale summative assessment. I am going to give an overview of the current research
conducted at our lab in this area which is mainly based on multi-dimensional measures of
textual similarity. I discuss the results obtained by participating in the “Automatic
Student Assessment Price” challenge, the SemEval 2013 task on student assessment,
as well as preliminary results based on German data from the PISA study. Finally,
the limitations of the current system are discussed and I present first steps towards
integrating higher semantic analysis that will allow more fine-grained ratings and targeted
feedback.
_________________________________________________________________________________
Last updated: July 10, 2013