Remember to maintain security and privacy. Do not share sensitive information. Procedimento.com.br may make mistakes. Verify important information. Termo de Responsabilidade
O reconhecimento de fala é uma tecnologia que permite que sistemas computacionais compreendam e processem a linguagem falada. No ambiente Windows, essa tecnologia pode ser utilizada para diversas aplicações, desde comandos de voz até transcrição de áudio. Neste artigo, vamos explorar como implementar o reconhecimento de fala no Windows utilizando a API de Reconhecimento de Fala do Microsoft Azure e o PowerShell.
Exemplos:
Antes de começar, você precisa de uma conta no Microsoft Azure e uma chave de API para o serviço de Reconhecimento de Fala. Siga os passos abaixo para configurar o ambiente:
Crie uma conta no Microsoft Azure:
Crie um recurso de Reconhecimento de Fala:
Agora que você tem a chave de API e o endpoint, pode usar o PowerShell para enviar um arquivo de áudio e receber a transcrição.
Instale o módulo necessário:
Invoke-RestMethod
se ainda não estiver instalado:
Install-Module -Name PowerShellGet -Force -SkipPublisherCheck
Script PowerShell para Reconhecimento de Fala:
Crie um arquivo .ps1
com o seguinte conteúdo:
$apiKey = "SUA_CHAVE_DE_API"
$endpoint = "SEU_ENDPOINT"
$audioFilePath = "caminho/para/seu/arquivo.wav"
$uri = "$endpoint/speech/recognition/conversation/cognitiveservices/v1?language=pt-BR"
$headers = @{
"Ocp-Apim-Subscription-Key" = $apiKey
"Content-Type" = "audio/wav"
}
$audioBytes = [System.IO.File]::ReadAllBytes($audioFilePath)
$response = Invoke-RestMethod -Uri $uri -Method Post -Headers $headers -Body $audioBytes
Write-Output $response
Executar o Script:
.\seu_script.ps1
Além do PowerShell, você pode usar Python para reconhecimento de fala no Windows. Aqui está um exemplo utilizando a biblioteca azure-cognitiveservices-speech
:
Instale a biblioteca:
pip install azure-cognitiveservices-speech
Script Python para Reconhecimento de Fala:
Crie um arquivo .py
com o seguinte conteúdo:
import azure.cognitiveservices.speech as speechsdk
speech_key = "SUA_CHAVE_DE_API"
service_region = "SEU_ENDPOINT"
audio_file = "caminho/para/seu/arquivo.wav"
speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)
audio_input = speechsdk.AudioConfig(filename=audio_file)
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_input)
result = speech_recognizer.recognize_once()
if result.reason == speechsdk.ResultReason.RecognizedSpeech:
print("Recognized: {}".format(result.text))
elif result.reason == speechsdk.ResultReason.NoMatch:
print("No speech could be recognized: {}".format(result.no_match_details))
elif result.reason == speechsdk.ResultReason.Canceled:
cancellation_details = result.cancellation_details
print("Speech Recognition canceled: {}".format(cancellation_details.reason))
if cancellation_details.reason == speechsdk.CancellationReason.Error:
print("Error details: {}".format(cancellation_details.error_details))
Executar o Script:
python seu_script.py