向量模型
更新时间:2025-04-11
什么是embedding
文本嵌入是文本的数值表示,可用于衡量语义相似度。应用场景包括:
- 推荐:根据输入文本字符推荐相关信息条目
- 聚类:按相似性对文本字符串进行分组
- 搜索:按相关性对搜索结果排序
- 异常检测:识别出相关性较小的异常值
- 多样性检测:分析文本字符的相似性分布
- 分类:按照相似性对文本字符进行分类 两个向量之间的距离决定了它们的相关性。距离小表示相关性高,距离大表示相关性低。
如何使用向量模型
调用向量模型,输入文本以获取embeddings。不同模型的文本数量限制不同,具体请参考模型列表文档。model入参您想调用的向量模型,例如embedding-v1。
Bash
1curl --location 'https://qianfan.baidubce.com/v2/embeddings' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
4--data '{
5 "model": "embedding-v1",
6 "input":["White T-shirt"]
7}'
返回中包含了向量信息(浮点list)和一些其他元数据。您可以提取向量,保存在向量数据库中在其他场景中使用。
JSON
1{
2 "id": "as-xz2r36ena8",
3 "object": "list",
4 "created": 1737030777,
5 "data": [
6 {
7 "object": "embedding",
8 "embedding": [
9 0.018346669152379036,
10 0.009424751624464989,
11 -0.009573426097631454,
12 ...,
13 -0.3628600239753723
14 ],
15 "index": 0
16 }
17 ],
18 "model": "embedding-v1",
19 "usage": {
20 "prompt_tokens": 3,
21 "total_tokens": 3
22 }
23}
同时,您也可以通过OpenAI的SDK来请求该模型。
Python
1from openai import OpenAI
2
3client = OpenAI(
4 api_key="bce-v3/ALTAK-xxxxx",
5 base_url="https://qianfan.baidubce.com/v2"
6)
7
8response = client.embeddings.create(
9 model= "embedding-v1",
10 input=["White T-shirt"])
11
12print(response.data[0].embedding)