简介:介绍如何使用 Python 和 OpenAI 的新 Whisper API 将语音转换为文本。我们将展示如何安装必要的库、设置 API 密钥、发送音频文件以及处理返回的文本结果。
在 Python 中使用 OpenAI 的新 Whisper API 进行语音转文本需要几个步骤。首先,你需要安装一些必要的库,然后设置你的 API 密钥。接下来,你可以上传音频文件,并处理返回的文本结果。下面是一个简单的示例:
requests 和 soundfile 这两个库。你可以使用以下命令来安装它们:
pip install requests soundfile
soundfile 库来读取音频文件,并使用 requests 库来发送 POST 请求。以下是一个示例代码:在这个示例中,我们使用
import soundfile as sfimport requests# 音频文件路径audio_file_path = 'path/to/audio/file.wav'# 读取音频文件data, samplerate = sf.read(audio_file_path)# 设置 API 密钥和其他参数headers = {'Authorization': 'Bearer YOUR_API_KEY','Content-Type': 'application/json',}params = {'max_duration_ms': 10000,'max_alternatives': 3,}# 发送 POST 请求response = requests.post('https://api.openai.com/v2/engines/davinci/completions', headers=headers, json={'prompt': 'audio:{}'.format(data)}, params=params)# 处理返回结果result = response.json()['choices'][0]['text']print(result)
soundfile 库读取了音频文件,并将其作为 JSON 格式的字符串发送到 OpenAI 的服务器。我们还设置了 max_duration_ms 和 max_alternatives 参数来限制转换的持续时间和返回的转录结果数量。最后,我们从返回的 JSON 响应中提取了转录结果并打印出来。