Vorlesung Automatische Spracherkennung und integrierte Dialoganwendungen
Prof. Dr. Marcus Spies
Umfang: 2 SWS Vorlesung, 2 SWS Übung
Aktuelles
- 19.07.2005
- Die Themenliste der Vorlesungen wurde abschließend mit Angabe relevanter Literatur aktualisiert.
- Heute findet wie auf Übungsblatt 4 angekündigt eine zusätzliche Versanstaltung zur gemeinsamen Verbesserung der Aufgabe statt.
- 07.06.2005
- Relevante Pflichtlektüren sind auf der Übungsseite zu finden. Bis heute gibt es noch keine.
- Als Abgabetermin für die Aufsätze (und evtl. Zusammenfassung der Pflichtlektüre) wurde der 20.07.2005 festgesetzt.
- Ihre Lösungen zu Übungsblatt 2 können Sie im pdf, txt oder html Format an die auf dem Blatt angegebene Adresse schicken.
- In den Lösungen sollen keine Code-Abschnitte enthalten sein, nur eine textuelle Beantwortung der Fragen aus Aufgabe 2-2 und die Interpretation der Spracherkennungsresultate aus Aufgabe 2-3.
- 11.05.2005
Literaturliste aktualisiert. Bei dem Buch von Brian C. J. Moore sind nur die Kapitel zu Auditiven Filtern relevant. - 09.05.2005
Die Übung am Pfingstdienstag, 17.05.2005 entfällt. Die Gebäude sind hier geschlossen.
Termine und Ort
- Vorlesung: Donnerstag 10 - 12 Uhr
Ort: Theresienstr. 39, E39 - Übung: Dienstag 12-14 Uhr
Ort: Theresienstr. 39, E40
Beginn: 3. Woche
Inhalt
Die Vorlesung wird im ersten Teil die Grundlagen der Spracherkennungstechnologie von Signalverarbeitung bis hin zu verschiedenen Sprachmodellen behandeln; im zweiten Teil die auf Basis von VoiceXML und verwandten Standards realisierbaren Dialoganwendungen.
Zielgruppe: Hauptstudium Medieninformatik und Diplom Informatik
Scheinkriterien
- Erfolgreiche, termingerechte Abgabe aller Übungsaufgaben (oder aller bis auf eine)
- Die abgegebenen Lösungen müssen von ausreichender Qualität sein.
- Zusammenfassung der Pflichtlektüre (ca. 100 Worte pro Artikel), Abgabe gesammelt in einem Dokument zum Ende des Semesters.
- Durch einen Kurzaufsatz (ca. 500 Worte pro Thema) nachgewiesene Internet-Recherche.
Vorlesung
Datum | Kapitel | Literatur |
---|---|---|
Do, 14.04.05 | Vorlesung Übersicht / Motivation (216 KB) |
--- |
Do, 21.04.05 | Vorlesung vertiefende Einleitung & Auditive Wahrnehmung |
Huang, Kapitel 2, besonders 2.1.3 |
Do, 28.04.04 | Vorlesung Auditive Wahrnehmung & Sphinx Architektur |
Huang, Kapitel 2.1.3 siehe auch: Literatur & Links |
Do, 05.05.05 | Feiertag (Christi Himmelfahrt) | --- |
Do, 12.05.05 | Vorlesung Digitale Signalverarbeitung (DSP) und Filter |
Huang, Kapitel 5 und 6, relevante Kapitel |
Do, 19.05.05 | Vorlesung Dialogsysteme(134kb) |
--- |
Do, 26.05.05 | Feiertag (Fronleichnam) | --- |
Do, 02.06.05 | Vorlesung DFT in der Spracherkennung Motivation Hidden Markov Modell |
Vorabversion "Mathematica Handbook" (387kb) |
Do, 09.06.05 | Vorlesung Hidden Markov Modell Mathematische Erläuterung und Einsatz in der Spracherkennung |
Gute Einführung in HMMs (Erste Kapitel des HTKbooks) |
Do, 16.06.05 | Vorlesung Hidden Markov Modell Mathematische Erläuterung und Einsatz in der Spracherkennung (2) |
Skript |
Do, 23.06.05 | Vorlesung Trigrammstatistiken und Grammatiken Suchgraphen |
Huang, Kapitel 11 und 12 |
Do, 30.06.05 | Vorlesung Einführung in Dialogsysteme mit Dr. Who (MS Research) |
Huang, Kapitel 17 |
Do, 07.07.05 | Vorlesung Dialogsysteme mit VXML |
VoiceXML 2.0 |
Do, 14.07.05 | Vorlesung Dialogmanagement und Semantik in Dialogsystemen |
W3C Spezifikation |
Übung
Datum | Thema | Material |
---|---|---|
26.04.2005 | Kurzübersicht über den geplanten Aufbau der Übungen, Einführung in die Grundbegriffe der Statistik/Stochastik. |
Folien (214k) |
03.05.2005 | Aufgabenstellung Übungsblatt 1, Wdh. Sphinx 4 Architektur |
Übungsblatt 1 Folien (793k) |
10.05.2005 | Fragestunde zu Übungsblatt 1, Einführung in die Grundbegriffe von Folgen und Reihen. |
Folien (121k) |
17.05.2005 | Pfingstdienstag KEINE ÜBUNG!!! |
--- |
24.05.2005 | Gemeinsame Verbesserung des ersten Übungsblattes Wiederholung der DFT / "Mathematica Handbook" |
bei Vorlesung verfügbar |
31.05.2005 | Praxiseinführung in Sphinx4 Aufgabenstellung Übungsblatt 2. |
Übungsblatt 2 |
07.06.2005 | Fragestunde zu Übungsblatt 2 nächste Version "Mathe Handbuch") |
Download des Handbuchs auf der Vorlesungsseite |
14.06.2005 | Musterlösung Übungsblatt 2 Fragen zu aktuellem Stoff |
--- |
21.06.2005 | Aufgabenstellung Übungsblatt 3 Verwendung des WSJ-Sprachmodells |
Übungsblatt 3 Datei: tutotriumTest.zip |
28.06.2005 | Fragestunde zu Übungsblatt 3 Fragen zu aktuellem Stoff Gemeinsamer Walktrough Sphinx Trainer |
Links auf der Literaturseite hinzugefügt (Sphinx4 Wiki) |
05.07.2005 | Besprechung Übungsblatt 3 Aufgabenstellung Übungsblatt 4 |
Übungsblatt 4 |
12.07.2005 | Fragestunde zu Übungsblatt 4 Praxisvortrag "von Sphinx zum Dialogsystem" |
Folien (40k) |
12.07.2005 | Besprechung Übungsblatt 4 Wiederholung Praxisvortrag "von Sphinx zum Dialogsystem" |
Folien (40k) |
Literatur & Links
Literatur
- Huang, Xuedong: Spoken Language Processing: A Guide to Theory, Algorithm and System Development, Prentice Hall PTRP, 2003
- Jelinek, Frederic: Statistical Methods for Speech Recognition (Language, Speech, and Communication), Bradford Book, 1998
- Brian C.J. Moore: An introduction to the psychology of hearing, Academic Press, 2003 (Kapitel zu auditiven Filtern, in der Übung erhältlich)
Links
- Mit dem Hidden Markov Model Toolkit (HTK) kann man Hidden Markov Modelle zum Einsatz in Spracherkennung, Genanalyse und anderen Gebieten nutzen.
- Die Opensource Implementierung Sphinx der Carnegie Mellon University repräsentiert den aktuellen Stand der frei verwendbaren Spracherkennungssoftware.
- Die aktuelle Diskussion um Sphinx 4 läuft im Sphinx 4 TWiki ab.
- In der Vorlesung wurde auf dieses Dokument zur Sphinx Architektur verwiesen.
- Über die Verwendung von selbsttrainierten Modellen in Sphinx kann man hier nachlesen.
- Sun stellt mit der Java Speech API eine kostenlose Schnittstelle zur Integration von Sprache in Anwendungen zur Verfügung.
- Hilfreiche Tutorials und Beispiele zu VoiceXML finden sie auf den relevanten Seiten von W3C und hier.
Die aktuelle Version ist 2.1. Die in der Vorlesung verwendete (weil anschaulichere) Dokumentation bezieht sich auf version 2.0. - Die CMU hat mit dem CMU Communicator ein frei zugängliches Dialogsystem implemetiert.