Web Speech API
Die Web Speech API ermöglicht es Ihnen, Sprachdaten in Webanwendungen zu integrieren. Die Web Speech API besteht aus zwei Teilen: SpeechSynthesis
(Text-zu-Sprache) und SpeechRecognition
(Asynchrone Spracherkennung).
Web Speech Konzepte und Nutzung
Die Web Speech API ermöglicht es Webanwendungen, Sprachdaten zu verarbeiten. Es gibt zwei Komponenten in dieser API:
- Die Spracherkennung erfolgt über die
SpeechRecognition
-Schnittstelle, die die Fähigkeit bietet, Sprachkontext von einem Audioeingang (normalerweise über den standardmäßigen Spracherkennungsdienst des Geräts) zu erkennen und entsprechend zu reagieren. In der Regel verwenden Sie den Konstruktor der Schnittstelle, um ein neuesSpeechRecognition
-Objekt zu erstellen, das eine Reihe von Ereignishandlern zur Verfügung hat, um zu erkennen, wann Sprache über das Mikrofon des Geräts eingegeben wird. DieSpeechGrammar
-Schnittstelle repräsentiert einen Container für einen bestimmten Satz von Grammatik, den Ihre App erkennen soll. Die Grammatik wird im JSpeech Grammar Format (JSGF) definiert. - Die Sprachsynthese erfolgt über die
SpeechSynthesis
-Schnittstelle, eine Text-zu-Sprache-Komponente, die es Programmen ermöglicht, ihren Textinhalt vorzulesen (normalerweise über den standardmäßigen Sprachsynthesizer des Geräts). Verschiedene Stimmtypen werden durchSpeechSynthesisVoice
-Objekte und verschiedene Textteile, die gesprochen werden sollen, durchSpeechSynthesisUtterance
-Objekte repräsentiert. Sie können diese sprechen lassen, indem Sie sie an dieSpeechSynthesis.speak()
-Methode übergeben.
Weitere Details zur Nutzung dieser Funktionen finden Sie unter Verwendung der Web Speech API.
Web Speech API-Schnittstellen
Spracherkennung
SpeechRecognition
-
Die Steuerungsschnittstelle für den Erkennungsdienst; sie behandelt auch die vom Erkennungsdienst gesendeten
SpeechRecognitionEvent
. SpeechRecognitionAlternative
-
Repräsentiert ein einzelnes Wort, das von dem Spracherkennungsdienst erkannt wurde.
SpeechRecognitionErrorEvent
-
Repräsentiert Fehlermeldungen vom Erkennungsdienst.
SpeechRecognitionEvent
-
Das Ereignisobjekt für die
result
- undnomatch
-Ereignisse und enthält alle Daten, die mit einem vorläufigen oder endgültigen Spracherkennungsergebnis verbunden sind. SpeechGrammar
-
Die Worte oder Wortmuster, die der Erkennungsdienst erkennen soll.
SpeechGrammarList
-
Repräsentiert eine Liste von
SpeechGrammar
-Objekten. SpeechRecognitionResult
-
Repräsentiert ein einzelnes Erkennungsmuster, das mehrere
SpeechRecognitionAlternative
-Objekte enthalten kann. SpeechRecognitionResultList
-
Repräsentiert eine Liste von
SpeechRecognitionResult
-Objekten oder ein einziges, wenn Ergebnisse imcontinuous
-Modus erfasst werden.
Sprachsynthese
SpeechSynthesis
-
Die Steuerungsschnittstelle für den Sprachdienst; diese kann verwendet werden, um Informationen über die auf dem Gerät verfügbaren Synthesestimmen abzurufen, Sprache zu starten und anzuhalten sowie weitere Befehle auszuführen.
SpeechSynthesisErrorEvent
-
Enthält Informationen über Fehler, die beim Verarbeiten von
SpeechSynthesisUtterance
-Objekten im Sprachdienst auftreten. SpeechSynthesisEvent
-
Enthält Informationen über den aktuellen Zustand von
SpeechSynthesisUtterance
-Objekten, die im Sprachdienst verarbeitet wurden. SpeechSynthesisUtterance
-
Repräsentiert eine Sprechanforderung. Sie enthält den Inhalt, den der Sprachdienst lesen soll und Informationen darüber, wie er ihn lesen soll (z. B. Sprache, Tonhöhe und Lautstärke).
SpeechSynthesisVoice
-
Repräsentiert eine Stimme, die vom System unterstützt wird. Jede
SpeechSynthesisVoice
hat ihren eigenen zugehörigen Sprachdienst, einschließlich Informationen über Sprache, Name und URI. Window.speechSynthesis
-
Spezifiziert als Teil einer
[NoInterfaceObject]
-Schnittstelle namensSpeechSynthesisGetter
und implementiert vomWindow
-Objekt, bietet diespeechSynthesis
-Eigenschaft Zugriff auf denSpeechSynthesis
-Controller und damit den Einstiegspunkt in die Sprachsynthesefunktionalität.
Fehler
Für Informationen zu Fehlern, die von der Speech API gemeldet werden (z. B. "language-not-supported"
und "language-unavailable"
), siehe die folgende Dokumentation:
Beispiele
Die Web Speech API Beispiele auf GitHub enthalten Demos zur Veranschaulichung von Spracherkennung und -synthese.
Spezifikationen
Specification |
---|
Web Speech API # speechreco-section |
Web Speech API # tts-section |