Institut für Informatik | Sitemap | LMU-Portal
English
  • Startseite
  • Studieninteressierte
  • Studierende
  • Lehrveranstaltungen
    • Archiv
    • SS 2006
      • 3DCG
      • 3DM
      • 3DP
      • ASID
      • HS
      • IE
      • MMI2
      • MMP
      • MT
      • OS
      • PMG
  • Forschung
  • Personen
  • Kontakt
  • Besucher
  • Jobs
  • FAQ
  • Intern
ASID in anderen Semestern:
SS06 SS05
Startseite > Lehrveranstaltungen > SS 2006 > ASID

Vorlesung Automatische Spracherkennung und integrierte Dialoganwendungen

Prof. Marcus Spies, Christian Leibold
Umfang: 2 SWS Vorlesung, 2 SWS Übung

  • Aktuelles
  • Termine und Ort
  • Inhalt
  • Vorlesung
  • Übung
  • Literatur und Links

Aktuelles

  • Mailingliste: Für Teilnehmer und Interessenten ist eine Mailingliste angelegt worden.
  • 18.07.2006: Bitte beachten Sie die Anmerkungen zu Übungsblatt4 auf der entsprechenden Seite "Übung"
  • 13.07.2006: Übungsblatt4 steht zum Download bereit
  • 11.07.2006: Aus organisatorischen Gründen findet heute eine verkürzte Übung von 12h ct. bis 13h statt.
  • 01.06.2006: Am Dienstag nach Pfingsten (06.06.06) ist vorlesungsfrei! Somit entfällt die Übung an diesem Tag. Bitte beachten Sie hierzu die Hinweise auf der Übungsseite.
  • 30.05.2005: Auf dem Übungsblatt 1 wurden fälschlicherweise keine Aufgaben zur Abgabe markiert. Es sind die Lösungen dennoch abzugeben, wie auf dem Blatt selbst veröffentlicht wurde. Die Abgabefrist verlängert sich bis zum 06.06.. Das zweite Übungsblatt steht zum Download bereit.
  • 18.05.2005: Das neue Übungsblatt ist auf den Seiten des Übungsbetriebs, unter "Übung" zu finden.
  • 09.05.2005: Heute findet keine! Übung statt, um thematisch der Vorlesung nichts vorwegzunehemen. In der Übersicht wurden die Kontaktdaten ergänzt.
  • 24.04.2006: Das Tutorium beginnt mit einem einführenden Überblick am 04.05.2006 anstelle der Vorlesung. Am 02.05.06 findet kein Tutorium statt!

Termine und Ort

  • Vorlesung: Donnerstag 10-12 Uhr
    Ort: Theresienstraße 41, Raum 113
  • Übung: Dienstag 12-14 Uhr
    Ort: Theresienstraße 41. Raum 113

Inhalt

Die Vorlesung wird im ersten Teil die Grundlagen der Spracherkennungstechnologie von Signalverarbeitung bis hin zu verschiedenen Sprachmodellen behandeln; im zweiten Teil die auf Basis von VoiceXML und verwandten Standards realisierbaren Dialoganwendungen.

Zielgruppe: Hauptstudium Medieninformatik und Diplom Informatik

Scheinkriterien:

  • Abgabe sinnvoller Lösungen zu den gestellten Übunsaufgaben
  • Rege Teilnahme an der Veranstaltung

Vorlesung

Datum Kapitel Material
Do, 27.04.06 Einführung Übersicht / Motivation (212 KB)
Do, 11.05.06 Vorlesung
Eigenschaften gesprochener Sprache & Auditive Wahrnehmung
Huang, Kapitel 2, besonders 2.1.3
Do, 18.05.06 Vorlesung
Sphinx Architektur
Folien zu Auditiver Wahrnemung
Do, 25.05.06 Feiertag (Christi Himmelfahrt) entfällt
Do, 01.06.06 Vorlesung
Digitale Signalverarbeitung (DSP) und Filter
Huang, Kapitel 5 und 6, relevante Kapitel
Do, 08.06.06 Vorlesung
DFT in der Spracherkennung
.
Do, 15.06.06 Feiertag (Fronleichnam) entfällt
Do, 22.06.06 Vorlesung
Hidden Markov Modell
Mathematische Erläuterung und Einsatz in der Spracherkennung
Gute Einführung in HMMs
(Erste Kapitel des HTKbooks)
Do, 29.06.06 Vorlesung
Trigrammstatistiken und Grammatiken
Suchgraphen (I)
Huang, Kapitel 11 und 12
Do, 06.07.06 Vorlesung
Suchalgorithmen (II)
Einführung in Dialogsysteme
Huang, Kapitel 17
Do, 13.07.06 Vorlesung
Dialogsysteme mit VXML
VoiceXML 2.0
Do, 20.07.06 Vorlesung
Dialogmanagement und Semantik in Dialogsystemen
W3C Spezifikation
Do, 27.07.06 Vorlesung
Aktuelle Ergebnisse mit Dialogsystemen
Ausblick
-

Übung

Datum Kapitel Material/Bemerkung
Do, 04.05.06 Einführung Übersicht / Motivation
Di, 16.05.06 Übung
Eigenschaften gesprochener Sprache & Auditive Wahrnehmung
Audacity und freeTTS
Übungsblatt 1 (korrigiert)
Di, 23.05.06 Übung
Sphinx Architektur
Fragestunde zu ÜB 1
Di, 30.05.05 Besprechung ÜB1
Stellung von ÜB2
Übungsblatt 2
Di, 06.06.06 (vorlesungsfrei) .
Do, 08.06.06
(Ersatztermin)
Fragestunde zu ÜB 2 Dieser Termin um 9h s.t. abgehalten. Treffpunkt ist der gewohnte Vorlesungssaal.
Bei Bedarf bitte zusätzlich / alternativ Kontakt mit dem Übungsleiter aufnehmen.
Di, 13.06.06 Übung entfällt .
Di, 20.06.06 Korrektur ÜB2
Aufgabenstellung ÜB3
Übungsblatt 3
Datei tutoriumTest.test
Di, 27.06.06 Fragestunde zu ÜB 3 .
Di, 04.07.06 Korrektur zu ÜB 3
Einführung in Dialogsysteme
.
Di, 11.07.06 Allgemeiene Fragestunde Das nächste Übungsblatt wird nach der Vorlesung am Donnerstag gestellt
Di, 18.07.06 Fragestunde zu ÜB 4 Übungsblatt 4
- Anmerkungen Bei Aufgabe 4c reicht sich auf die letzte Äusserung des Nutzers zu beziehen.
Bei Aufgabe 4d erstellen Sie bitte eine Zusammenfassung des Bestellvorgangs, den Sie für sinnvoll halten.
(auch im Rahmen ihrer Lösungen aus den vorangegangnen Aufgaben)

Literatur und Links

Begleitend zur Vorlesung werden an dieser Stelle Quellen und zusätzliches Material aufgeführt.

Spracherkennung - Literatur

  • Huang, Xuedong: Spoken Language Processing: A Guide to Theory, Algorithm and System Development, Prentice Hall PTRP, 2003
  • Jelinek, Frederic: Statistical Methods for Speech Recognition (Language, Speech, and Communication), Bradford Book, 1998
  • Brian C.J. Moore: An introduction to the psychology of hearing, Academic Press, 2003 (Kapitel zu auditiven Filtern, in der Übung erhältlich)

Links zu relevanten Techniken aus der Übung

  • Die HP Downloads zum Thema VXML
  • Die Opensource Implementierung Sphinx der Carnegie Mellon University repräsentiert den aktuellen Stand der frei verwendbaren Spracherkennungssoftware.
  • Die aktuelle Diskussion um Sphinx 4 läuft im Sphinx 4 TWiki ab.
  • Sun stellt mit der Java Speech API eine kostenlose Schnittstelle zur Integration von Sprache in Anwendungen zur Verfügung.
  • Hilfreiche Tutorials und Beispiele zu VoiceXML finden sie auf den relevanten Seiten von W3C und hier.
  • Die CMU hat mit dem CMU Communicator ein frei zugängliches Dialogsystem implemetiert.

Weitere Links zur Spracherkennung

  • Mit dem Hidden Markov Model Toolkit (HTK) kann man Hidden Markov Modelle zum Einsatz in Spracherkennung, Genanalyse und anderen Gebieten nutzen.
Nach oben
Impressum – Datenschutz – Kontakt  |  Letzte Änderung am 28.02.2007 von Richard Atterer (rev 1584)