Web Speech API

Die Web Speech API ermöglicht es Ihnen, Sprachdaten in Webanwendungen zu integrieren. Die Web Speech API besteht aus zwei Teilen: SpeechSynthesis (Text-zu-Sprache) und SpeechRecognition (Asynchrone Spracherkennung).

Web Speech Konzepte und Nutzung

Die Web Speech API ermöglicht es Webanwendungen, Sprachdaten zu verarbeiten. Es gibt zwei Komponenten in dieser API:

  • Die Spracherkennung erfolgt über die SpeechRecognition-Schnittstelle, die die Fähigkeit bietet, Sprachkontext von einem Audioeingang (normalerweise über den standardmäßigen Spracherkennungsdienst des Geräts) zu erkennen und entsprechend zu reagieren. In der Regel verwenden Sie den Konstruktor der Schnittstelle, um ein neues SpeechRecognition-Objekt zu erstellen, das eine Reihe von Ereignishandlern zur Verfügung hat, um zu erkennen, wann Sprache über das Mikrofon des Geräts eingegeben wird. Die SpeechGrammar-Schnittstelle repräsentiert einen Container für einen bestimmten Satz von Grammatik, den Ihre App erkennen soll. Die Grammatik wird im JSpeech Grammar Format (JSGF) definiert.
  • Die Sprachsynthese erfolgt über die SpeechSynthesis-Schnittstelle, eine Text-zu-Sprache-Komponente, die es Programmen ermöglicht, ihren Textinhalt vorzulesen (normalerweise über den standardmäßigen Sprachsynthesizer des Geräts). Verschiedene Stimmtypen werden durch SpeechSynthesisVoice-Objekte und verschiedene Textteile, die gesprochen werden sollen, durch SpeechSynthesisUtterance-Objekte repräsentiert. Sie können diese sprechen lassen, indem Sie sie an die SpeechSynthesis.speak()-Methode übergeben.

Weitere Details zur Nutzung dieser Funktionen finden Sie unter Verwendung der Web Speech API.

Web Speech API-Schnittstellen

Spracherkennung

SpeechRecognition

Die Steuerungsschnittstelle für den Erkennungsdienst; sie behandelt auch die vom Erkennungsdienst gesendeten SpeechRecognitionEvent.

SpeechRecognitionAlternative

Repräsentiert ein einzelnes Wort, das von dem Spracherkennungsdienst erkannt wurde.

SpeechRecognitionErrorEvent

Repräsentiert Fehlermeldungen vom Erkennungsdienst.

SpeechRecognitionEvent

Das Ereignisobjekt für die result- und nomatch-Ereignisse und enthält alle Daten, die mit einem vorläufigen oder endgültigen Spracherkennungsergebnis verbunden sind.

SpeechGrammar

Die Worte oder Wortmuster, die der Erkennungsdienst erkennen soll.

SpeechGrammarList

Repräsentiert eine Liste von SpeechGrammar-Objekten.

SpeechRecognitionResult

Repräsentiert ein einzelnes Erkennungsmuster, das mehrere SpeechRecognitionAlternative-Objekte enthalten kann.

SpeechRecognitionResultList

Repräsentiert eine Liste von SpeechRecognitionResult-Objekten oder ein einziges, wenn Ergebnisse im continuous-Modus erfasst werden.

Sprachsynthese

SpeechSynthesis

Die Steuerungsschnittstelle für den Sprachdienst; diese kann verwendet werden, um Informationen über die auf dem Gerät verfügbaren Synthesestimmen abzurufen, Sprache zu starten und anzuhalten sowie weitere Befehle auszuführen.

SpeechSynthesisErrorEvent

Enthält Informationen über Fehler, die beim Verarbeiten von SpeechSynthesisUtterance-Objekten im Sprachdienst auftreten.

SpeechSynthesisEvent

Enthält Informationen über den aktuellen Zustand von SpeechSynthesisUtterance-Objekten, die im Sprachdienst verarbeitet wurden.

SpeechSynthesisUtterance

Repräsentiert eine Sprechanforderung. Sie enthält den Inhalt, den der Sprachdienst lesen soll und Informationen darüber, wie er ihn lesen soll (z. B. Sprache, Tonhöhe und Lautstärke).

SpeechSynthesisVoice

Repräsentiert eine Stimme, die vom System unterstützt wird. Jede SpeechSynthesisVoice hat ihren eigenen zugehörigen Sprachdienst, einschließlich Informationen über Sprache, Name und URI.

Window.speechSynthesis

Spezifiziert als Teil einer [NoInterfaceObject]-Schnittstelle namens SpeechSynthesisGetter und implementiert vom Window-Objekt, bietet die speechSynthesis-Eigenschaft Zugriff auf den SpeechSynthesis-Controller und damit den Einstiegspunkt in die Sprachsynthesefunktionalität.

Fehler

Für Informationen zu Fehlern, die von der Speech API gemeldet werden (z. B. "language-not-supported" und "language-unavailable"), siehe die folgende Dokumentation:

Beispiele

Die Web Speech API Beispiele auf GitHub enthalten Demos zur Veranschaulichung von Spracherkennung und -synthese.

Spezifikationen

Specification
Web Speech API
# speechreco-section
Web Speech API
# tts-section

Browser-Kompatibilität

api.SpeechRecognition

api.SpeechSynthesis

Siehe auch