In automatic speech understanding, division of continuous running speech into syntactic chunks is a great problem. Syntactic boundaries are often marked by prosodic means. For the training of statistical models for prosodic boundaries large databases are necessary. For the German Verbmobil (VM) project (automatic speech-to-speech translation), we developed a syntactic±prosodic labelling scheme where dierent types of syntactic boundaries are labelled for a large spontaneous speech corpus. This labelling scheme is presented and compared with other labelling schemes for perceptual±prosodic, syntactic, and dialogue act boundaries. Interlabeller consistencies and estimation of eort needed are discussed. We compare the results of classi®ers (multi-layer perceptrons (MLPs) and n-gram language models) trained on these syntactic±prosodic boundary labels with classi®ers trained on perceptual±prosodic and pure syntactic labels. The main advantage of the rough syntactic±prosodic labels presented in this paper is that large amounts of data can be labelled with relatively little eort. The classi®ers trained with these labels turned out to be superior with respect to purely prosodic or syntactic labelling schemes, yielding recognition rates of up to 96% for the two-class-problem`boundary versus no boundary'. The use of boundary information leads to a marked improvement in the syntactic processing of the VM system. Ó 1998 Elsevier Science B.V. All rights reserved.
ZusammenfassungDie Segmentierung von kontinuierlich gesprochener Sprache in syntaktisch sinnvolle Einheiten ist f ur die automatische Sprachverarbeitung ein groûes Problem. Syntaktische Grenzen sind oft prosodisch markiert. Um prosodische Grenzen mit statistischen Modellen bestimmen zu k onnen, ben otigt man allerdings groûe Trainingskorpora. F ur das Forschungsprojekt Verbmobil zur automatischen Ubersetzung spontaner Sprache wurde daher ein syntaktisch±pro-sodisches Annotationsschema entwickelt und auf ein groûes Korpus angewendet. Dieses Schema wird mit anderen Annotationsschemata verglichen, mit denen prosodisch±perzeptive, rein syntaktische bzw. Dialogakt-Grenzen etikettiert wurden; Konsistenz der Annotation und ben otigter Aufwand werden diskutiert. Das Ergebnis einer automatischen Klassi®kation (multi-layer perceptrons bzw. Sprachmodelle) f ur diese neuen Grenzen wird mit den Erkennungsraten verglichen, die f ur die anderen Grenzen erzielt wurden. Der Hauptvorteil der groben syntaktisch± prosodischen Grenzen, die in diesem Aufsatz eingef uhrt werden, besteht darin, daû ein groûes Trainingskorpus in Speech Communication 25 (1998) 193±222 * Corresponding author. E-mail: batliner@informatik.uni-erlangen.de. 0167-6393/98/$ ± see front matter Ó 1998 Elsevier Science B.V. All rights reserved. PII: S 0 1 6 7 -6 3 9 3 ( 9 8 ) 0 0 0 3 7 -5 relativ kurzer Zeit erstellt werden kann. Die Klassi®katoren, die mit diesem Korpus trainiert wurden, erzielten bessere Ergebnisse als alle fr uher verwendeten; die beste Erkennungsrate lag bei 96% f ur das Zwei-Klassen-Problem...