Embeddings

新的嵌入模型

VTSTG233-API的最新嵌入模型text-embedding-3-smalltext-embedding-3-large现已推出。这些模型可节省成本、增强的多语言支持和可自定义的参数来管理其大小。

什么是嵌入?

来自 VTSTG233-API 的嵌入量化了文本字符串之间的相似性。这些嵌入特别适用于:

  • 搜索: 按搜索结果与查询的相关性对搜索结果进行排名。

  • 聚类: 将相似的文本字符串分组在一起。

  • 建议: 根据相关文本字符串建议项目。

  • 异常检测: 识别与正常值显著不同的异常值。

  • 多样性测量: 分析数据集中相似性的分布。

  • 分类: 通过将文本字符串与标记的示例进行比较来对文本字符串进行分类。

嵌入是浮点数的向量(列表),其中向量之间的距离表示它们的相关性。较小的距离表示较高的相似度,而较大的距离表示较低的相似度。

有关 Embeddings 定价的更多信息,请访问我们的定价页面。成本是根据输入中的令牌数量计算的。

示例:生成嵌入

curl https://api2.vtstg233.cc/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $VTSTG233-API_API_KEY" \
  -d '{
    "input": "您的文本字符串放在此处",
    "model": "text-embedding-3-small"
  }'

响应将包括 embedding 向量和其他元数据。

嵌入响应示例

{
  "object": "list",
  "data": [
    {
      "object": "embedding",
      "index": 0,
      "embedding": [
        -0.006929283495992422,
        -0.005336422007530928,
        // ...(省略间距)
        -4.547132266452536e-05,
        -0.024047505110502243
      ]
    }
  ],
  "model": "text-embedding-3-small",
  "usage": {
    "prompt_tokens": 5,
    "total_tokens": 5
  }
}

嵌入矢量的长度为 1536 text-embedding-3-small 或 3072 为 text-embedding-3-large。您可以使用 dimensions 参数减少嵌入的维度,而不会失去其表示概念的能力。有关嵌入维度的更多详细信息,请参阅嵌入用例部分。

嵌入模型

VTSTG233-API 提供两种强大的第三代嵌入模型(模型 ID 中以 -3 表示).

模型
~ 每美元页面数
MTEB 性能评估
最大输入Tokens量

text-embedding-3-small

62,500

62.3%

8191

text-embedding-3-large

9,615

64.6%

8191

text-embedding-ada-002

12,500

61.0%

8191

Python 中的示例

以下是在 Python 中使用嵌入 API 的方法:

import os
import json
import openai

# 初始化API客户端
client = openai.OpenAI(
    base_url="https://api2.vtstg233.cc/v1",
    api_key=os.getenv("VTSTG233-API_API_KEY"),
)

# 定义要生成嵌入的文本
text = "您的文本字符串放在此处"

# 请求嵌入
response = client.embeddings.create(
    input=text,
    model="text-embedding-3-small"
)

# 从响应中提取嵌入
embedding = response['data'][0]['embedding']

# 打印嵌入
print(json.dumps(embedding, indent=2))

这个 Python 示例展示了如何设置 API 客户端、将文本发送到嵌入 API 以及处理响应以提取和打印嵌入矢量。

最后更新于