Institut für Informatik | Sitemap | LMU-Portal
English
  • Startseite
  • Studieninteressierte
  • Studierende
  • Lehrveranstaltungen
    • Archiv
    • SS 2005
      • 3DCG
      • AR
      • ASID
      • HS
      • MMI2
      • MMP
      • MT
      • OS
      • PAR
      • PEM
      • PMG
  • Forschung
  • Personen
  • Kontakt
  • Besucher
  • Jobs
  • FAQ
  • Intern
ASID in anderen Semestern:
SS06 SS05
Startseite > Lehrveranstaltungen > SS 2005 > ASID

Vorlesung Automatische Spracherkennung und integrierte Dialoganwendungen

Prof. Dr. Marcus Spies
Umfang: 2 SWS Vorlesung, 2 SWS Übung

  • Aktuelles
  • Termine und Ort
  • Inhalt
  • Vorlesung
  • Übung
  • Literatur & Links

Aktuelles

  • 19.07.2005
    • Die Themenliste der Vorlesungen wurde abschließend mit Angabe relevanter Literatur aktualisiert.
    • Heute findet wie auf Übungsblatt 4 angekündigt eine zusätzliche Versanstaltung zur gemeinsamen Verbesserung der Aufgabe statt.
  • 07.06.2005
    • Relevante Pflichtlektüren sind auf der Übungsseite zu finden. Bis heute gibt es noch keine.
    • Als Abgabetermin für die Aufsätze (und evtl. Zusammenfassung der Pflichtlektüre) wurde der 20.07.2005 festgesetzt.
    • Ihre Lösungen zu Übungsblatt 2 können Sie im pdf, txt oder html Format an die auf dem Blatt angegebene Adresse schicken.
    • In den Lösungen sollen keine Code-Abschnitte enthalten sein, nur eine textuelle Beantwortung der Fragen aus Aufgabe 2-2 und die Interpretation der Spracherkennungsresultate aus Aufgabe 2-3.
  • 11.05.2005
    Literaturliste aktualisiert. Bei dem Buch von Brian C. J. Moore sind nur die Kapitel zu Auditiven Filtern relevant.
  • 09.05.2005
    Die Übung am Pfingstdienstag, 17.05.2005 entfällt. Die Gebäude sind hier geschlossen.

Termine und Ort

  • Vorlesung: Donnerstag 10 - 12 Uhr
    Ort: Theresienstr. 39, E39
  • Übung: Dienstag 12-14 Uhr
    Ort: Theresienstr. 39, E40
    Beginn: 3. Woche

Inhalt

Die Vorlesung wird im ersten Teil die Grundlagen der Spracherkennungstechnologie von Signalverarbeitung bis hin zu verschiedenen Sprachmodellen behandeln; im zweiten Teil die auf Basis von VoiceXML und verwandten Standards realisierbaren Dialoganwendungen.
Zielgruppe: Hauptstudium Medieninformatik und Diplom Informatik

Scheinkriterien

  • Erfolgreiche, termingerechte Abgabe aller Übungsaufgaben (oder aller bis auf eine)
  • Die abgegebenen Lösungen müssen von ausreichender Qualität sein.
  • Zusammenfassung der Pflichtlektüre (ca. 100 Worte pro Artikel), Abgabe gesammelt in einem Dokument zum Ende des Semesters.
  • Durch einen Kurzaufsatz (ca. 500 Worte pro Thema) nachgewiesene Internet-Recherche.

Vorlesung

Datum Kapitel Literatur
Do, 14.04.05 Vorlesung
Übersicht / Motivation (216 KB)
---
Do, 21.04.05 Vorlesung
vertiefende Einleitung & Auditive Wahrnehmung
Huang, Kapitel 2, besonders 2.1.3
Do, 28.04.04 Vorlesung
Auditive Wahrnehmung & Sphinx Architektur
Huang, Kapitel 2.1.3
siehe auch: Literatur & Links
Do, 05.05.05 Feiertag (Christi Himmelfahrt) ---
Do, 12.05.05 Vorlesung
Digitale Signalverarbeitung (DSP) und Filter
Huang, Kapitel 5 und 6, relevante Kapitel
Do, 19.05.05 Vorlesung
Dialogsysteme(134kb)
---
Do, 26.05.05 Feiertag (Fronleichnam) ---
Do, 02.06.05 Vorlesung
DFT in der Spracherkennung
Motivation Hidden Markov Modell
Vorabversion "Mathematica Handbook" (387kb)
Do, 09.06.05 Vorlesung
Hidden Markov Modell
Mathematische Erläuterung und Einsatz in der Spracherkennung
Gute Einführung in HMMs
(Erste Kapitel des HTKbooks)
Do, 16.06.05 Vorlesung
Hidden Markov Modell
Mathematische Erläuterung und Einsatz in der Spracherkennung (2)
Skript
Do, 23.06.05 Vorlesung
Trigrammstatistiken und Grammatiken
Suchgraphen
Huang, Kapitel 11 und 12
Do, 30.06.05 Vorlesung
Einführung in Dialogsysteme mit
Dr. Who (MS Research)
Huang, Kapitel 17
Do, 07.07.05 Vorlesung
Dialogsysteme mit VXML
VoiceXML 2.0
Do, 14.07.05 Vorlesung
Dialogmanagement und Semantik in Dialogsystemen
W3C Spezifikation

Übung

Datum Thema Material
26.04.2005 Kurzübersicht über den geplanten Aufbau der Übungen,
Einführung in die Grundbegriffe der Statistik/Stochastik.
Folien (214k)
03.05.2005 Aufgabenstellung Übungsblatt 1,
Wdh. Sphinx 4 Architektur
Übungsblatt 1
Folien (793k)
10.05.2005 Fragestunde zu Übungsblatt 1,
Einführung in die Grundbegriffe von Folgen und Reihen.
Folien (121k)
17.05.2005 Pfingstdienstag
KEINE ÜBUNG!!!
---
24.05.2005 Gemeinsame Verbesserung des ersten Übungsblattes
Wiederholung der DFT / "Mathematica Handbook"
bei Vorlesung
verfügbar
31.05.2005 Praxiseinführung in Sphinx4
Aufgabenstellung Übungsblatt 2.
Übungsblatt 2
07.06.2005 Fragestunde zu Übungsblatt 2
nächste Version "Mathe Handbuch")
Download des Handbuchs
auf der Vorlesungsseite
14.06.2005 Musterlösung Übungsblatt 2
Fragen zu aktuellem Stoff
---
21.06.2005 Aufgabenstellung Übungsblatt 3
Verwendung des WSJ-Sprachmodells
Übungsblatt 3
Datei: tutotriumTest.zip
28.06.2005 Fragestunde zu Übungsblatt 3
Fragen zu aktuellem Stoff
Gemeinsamer Walktrough Sphinx Trainer
Links auf der Literaturseite hinzugefügt (Sphinx4 Wiki)
05.07.2005 Besprechung Übungsblatt 3
Aufgabenstellung Übungsblatt 4
Übungsblatt 4
12.07.2005 Fragestunde zu Übungsblatt 4
Praxisvortrag "von Sphinx zum Dialogsystem"
Folien (40k)
12.07.2005 Besprechung Übungsblatt 4
Wiederholung Praxisvortrag "von Sphinx zum Dialogsystem"
Folien (40k)

Literatur & Links

Literatur

  • Huang, Xuedong: Spoken Language Processing: A Guide to Theory, Algorithm and System Development, Prentice Hall PTRP, 2003
  • Jelinek, Frederic: Statistical Methods for Speech Recognition (Language, Speech, and Communication), Bradford Book, 1998
  • Brian C.J. Moore: An introduction to the psychology of hearing, Academic Press, 2003 (Kapitel zu auditiven Filtern, in der Übung erhältlich)

Links

  • Mit dem Hidden Markov Model Toolkit (HTK) kann man Hidden Markov Modelle zum Einsatz in Spracherkennung, Genanalyse und anderen Gebieten nutzen.
  • Die Opensource Implementierung Sphinx der Carnegie Mellon University repräsentiert den aktuellen Stand der frei verwendbaren Spracherkennungssoftware.
  • Die aktuelle Diskussion um Sphinx 4 läuft im Sphinx 4 TWiki ab.
  • In der Vorlesung wurde auf dieses Dokument zur Sphinx Architektur verwiesen.
  • Über die Verwendung von selbsttrainierten Modellen in Sphinx kann man hier nachlesen.
  • Sun stellt mit der Java Speech API eine kostenlose Schnittstelle zur Integration von Sprache in Anwendungen zur Verfügung.
  • Hilfreiche Tutorials und Beispiele zu VoiceXML finden sie auf den relevanten Seiten von W3C und hier.
    Die aktuelle Version ist 2.1. Die in der Vorlesung verwendete (weil anschaulichere) Dokumentation bezieht sich auf version 2.0.
  • Die CMU hat mit dem CMU Communicator ein frei zugängliches Dialogsystem implemetiert.
Nach oben
Impressum – Datenschutz – Kontakt  |  Letzte Änderung am 28.02.2007 von Richard Atterer (rev 1584)