Web Speech API

Die Web Speech API ermöglicht es Ihnen, Sprachdaten in Webanwendungen zu integrieren. Die Web Speech API besteht aus zwei Teilen: SpeechSynthesis (Text-zu-Sprache) und SpeechRecognition (Asynchrone Spracherkennung).

Konzepte und Verwendung der Web Speech API

Die Web Speech API ermöglicht es Webanwendungen, Sprachdaten zu verarbeiten. Diese API hat zwei Komponenten:

  • Die Spracherkennung wird über das SpeechRecognition-Interface aufgerufen, das die Fähigkeit bietet, Sprachkontext von einer Audioeingabe (normalerweise über den standardmäßigen Spracherkennungsdienst des Geräts) zu erkennen und entsprechend zu reagieren. In der Regel verwenden Sie den Konstruktor des Interface, um ein neues SpeechRecognition-Objekt zu erstellen, welches eine Reihe von Ereignishandlern zur Verfügung hat, um zu erkennen, wann Sprache über das Mikrofon des Geräts eingegeben wird. Das SpeechGrammar-Interface repräsentiert einen Container für ein bestimmtes Grammatikset, das Ihre App erkennen soll. Die Grammatik wird im JSpeech Grammar Format (JSGF) definiert.
  • Die Sprachsynthese wird über das SpeechSynthesis-Interface aufgerufen, eine Text-zu-Sprache-Komponente, die es Programmen ermöglicht, ihren Textinhalt (normalerweise über den standardmäßigen Sprachsynthesizer des Geräts) vorzulesen. Verschiedene Stimmtypen werden durch SpeechSynthesisVoice-Objekte repräsentiert, und verschiedene Textteile, die Sie gesprochen haben möchten, werden durch SpeechSynthesisUtterance-Objekte repräsentiert. Diese können durch Übergabe an die Methode SpeechSynthesis.speak() ausgesprochen werden.

Für weitere Details zur Verwendung dieser Funktionen siehe Verwendung der Web Speech API.

Schnittstellen der Web Speech API

Spracherkennung

SpeechRecognition

Das Steuerinterface für den Erkennungsdienst; es behandelt auch das SpeechRecognitionEvent, das vom Erkennungsdienst gesendet wird.

SpeechRecognitionAlternative

Repräsentiert ein einzelnes Wort, das vom Spracherkennungsdienst erkannt wurde.

SpeechRecognitionErrorEvent

Repräsentiert Fehlermeldungen vom Erkennungsdienst.

SpeechRecognitionEvent

Das Ereignisobjekt für die result- und nomatch-Ereignisse und enthält alle Daten, die mit einem vorläufigen oder endgültigen Spracherkennungsergebnis verbunden sind.

SpeechGrammar

Die Worte oder Wortmuster, die der Erkennungsdienst erkennen soll.

SpeechGrammarList

Repräsentiert eine Liste von SpeechGrammar-Objekten.

SpeechRecognitionResult

Repräsentiert ein einzelnes Erkennungsergebnis, das mehrere SpeechRecognitionAlternative-Objekte enthalten kann.

SpeechRecognitionResultList

Repräsentiert eine Liste von SpeechRecognitionResult-Objekten oder ein einzelnes, wenn die Ergebnisse im continuous-Modus erfasst werden.

Sprachsynthese

SpeechSynthesis

Das Steuerinterface für den Sprachdienst; kann verwendet werden, um Informationen über die auf dem Gerät verfügbaren Synthesestimmen zu erhalten, Sprache zu starten und zu pausieren, sowie andere Befehle auszuführen.

SpeechSynthesisErrorEvent

Enthält Informationen über Fehler, die bei der Verarbeitung von SpeechSynthesisUtterance-Objekten im Sprachdienst auftreten.

SpeechSynthesisEvent

Enthält Informationen über den aktuellen Zustand von SpeechSynthesisUtterance-Objekten, die im Sprachdienst verarbeitet wurden.

SpeechSynthesisUtterance

Repräsentiert eine Sprachaufforderung. Es enthält den Inhalt, den der Sprachdienst aussprechen soll, sowie Informationen darüber, wie er gelesen werden soll (z.B. Sprache, Tonhöhe und Lautstärke).

SpeechSynthesisVoice

Repräsentiert eine Stimme, die das System unterstützt. Jede SpeechSynthesisVoice hat ihren eigenen relativen Sprachdienst, einschließlich Informationen über Sprache, Name und URI.

Window.speechSynthesis

Ausgegeben als Teil eines [NoInterfaceObject]-Interfaces namens SpeechSynthesisGetter und vom Window-Objekt implementiert, bietet die speechSynthesis-Eigenschaft Zugriff auf den SpeechSynthesis-Controller und damit den Einstieg in die Sprachsynthesefunktionalität.

Fehler

Für Informationen zu Fehlern, die von der Speech API gemeldet werden (z.B. "language-not-supported" und "language-unavailable"), siehe folgende Dokumentation:

Beispiele

Die Web Speech API Beispiele auf GitHub enthalten Demos zur Veranschaulichung von Spracherkennung und -synthese.

Spezifikationen

Specification
Web Speech API
# speechreco-section
Web Speech API
# tts-section

Browser-Kompatibilität

api.SpeechRecognition

BCD tables only load in the browser

api.SpeechSynthesis

BCD tables only load in the browser

Siehe auch