Web Speech API
Die Web Speech API ermöglicht es Ihnen, Sprachdaten in Webanwendungen zu integrieren. Die Web Speech API besteht aus zwei Teilen: SpeechSynthesis
(Text-zu-Sprache) und SpeechRecognition
(Asynchrone Spracherkennung).
Konzepte und Verwendung der Web Speech API
Die Web Speech API ermöglicht es Webanwendungen, Sprachdaten zu verarbeiten. Diese API hat zwei Komponenten:
- Die Spracherkennung wird über das
SpeechRecognition
-Interface aufgerufen, das die Fähigkeit bietet, Sprachkontext von einer Audioeingabe (normalerweise über den standardmäßigen Spracherkennungsdienst des Geräts) zu erkennen und entsprechend zu reagieren. In der Regel verwenden Sie den Konstruktor des Interface, um ein neuesSpeechRecognition
-Objekt zu erstellen, welches eine Reihe von Ereignishandlern zur Verfügung hat, um zu erkennen, wann Sprache über das Mikrofon des Geräts eingegeben wird. DasSpeechGrammar
-Interface repräsentiert einen Container für ein bestimmtes Grammatikset, das Ihre App erkennen soll. Die Grammatik wird im JSpeech Grammar Format (JSGF) definiert. - Die Sprachsynthese wird über das
SpeechSynthesis
-Interface aufgerufen, eine Text-zu-Sprache-Komponente, die es Programmen ermöglicht, ihren Textinhalt (normalerweise über den standardmäßigen Sprachsynthesizer des Geräts) vorzulesen. Verschiedene Stimmtypen werden durchSpeechSynthesisVoice
-Objekte repräsentiert, und verschiedene Textteile, die Sie gesprochen haben möchten, werden durchSpeechSynthesisUtterance
-Objekte repräsentiert. Diese können durch Übergabe an die MethodeSpeechSynthesis.speak()
ausgesprochen werden.
Für weitere Details zur Verwendung dieser Funktionen siehe Verwendung der Web Speech API.
Schnittstellen der Web Speech API
Spracherkennung
SpeechRecognition
-
Das Steuerinterface für den Erkennungsdienst; es behandelt auch das
SpeechRecognitionEvent
, das vom Erkennungsdienst gesendet wird. SpeechRecognitionAlternative
-
Repräsentiert ein einzelnes Wort, das vom Spracherkennungsdienst erkannt wurde.
SpeechRecognitionErrorEvent
-
Repräsentiert Fehlermeldungen vom Erkennungsdienst.
SpeechRecognitionEvent
-
Das Ereignisobjekt für die
result
- undnomatch
-Ereignisse und enthält alle Daten, die mit einem vorläufigen oder endgültigen Spracherkennungsergebnis verbunden sind. SpeechGrammar
-
Die Worte oder Wortmuster, die der Erkennungsdienst erkennen soll.
SpeechGrammarList
-
Repräsentiert eine Liste von
SpeechGrammar
-Objekten. SpeechRecognitionResult
-
Repräsentiert ein einzelnes Erkennungsergebnis, das mehrere
SpeechRecognitionAlternative
-Objekte enthalten kann. SpeechRecognitionResultList
-
Repräsentiert eine Liste von
SpeechRecognitionResult
-Objekten oder ein einzelnes, wenn die Ergebnisse imcontinuous
-Modus erfasst werden.
Sprachsynthese
SpeechSynthesis
-
Das Steuerinterface für den Sprachdienst; kann verwendet werden, um Informationen über die auf dem Gerät verfügbaren Synthesestimmen zu erhalten, Sprache zu starten und zu pausieren, sowie andere Befehle auszuführen.
SpeechSynthesisErrorEvent
-
Enthält Informationen über Fehler, die bei der Verarbeitung von
SpeechSynthesisUtterance
-Objekten im Sprachdienst auftreten. SpeechSynthesisEvent
-
Enthält Informationen über den aktuellen Zustand von
SpeechSynthesisUtterance
-Objekten, die im Sprachdienst verarbeitet wurden. SpeechSynthesisUtterance
-
Repräsentiert eine Sprachaufforderung. Es enthält den Inhalt, den der Sprachdienst aussprechen soll, sowie Informationen darüber, wie er gelesen werden soll (z.B. Sprache, Tonhöhe und Lautstärke).
SpeechSynthesisVoice
-
Repräsentiert eine Stimme, die das System unterstützt. Jede
SpeechSynthesisVoice
hat ihren eigenen relativen Sprachdienst, einschließlich Informationen über Sprache, Name und URI. Window.speechSynthesis
-
Ausgegeben als Teil eines
[NoInterfaceObject]
-Interfaces namensSpeechSynthesisGetter
und vomWindow
-Objekt implementiert, bietet diespeechSynthesis
-Eigenschaft Zugriff auf denSpeechSynthesis
-Controller und damit den Einstieg in die Sprachsynthesefunktionalität.
Fehler
Für Informationen zu Fehlern, die von der Speech API gemeldet werden (z.B. "language-not-supported"
und "language-unavailable"
), siehe folgende Dokumentation:
Beispiele
Die Web Speech API Beispiele auf GitHub enthalten Demos zur Veranschaulichung von Spracherkennung und -synthese.
Spezifikationen
Specification |
---|
Web Speech API # speechreco-section |
Web Speech API # tts-section |
Browser-Kompatibilität
api.SpeechRecognition
BCD tables only load in the browser
api.SpeechSynthesis
BCD tables only load in the browser