Embedding服務是一種機器學習服務,它能夠將文本、圖像或其他類型的數據轉換為低維向量表示,
這些向量被稱為嵌入向量(Embedding Vector)。
其針對知識庫和LLM問答場景(文檔問答)有特殊優化,對用戶query的語義理解能力強,基于用戶query理解定位到看似字符重疊度少的相關信息,
檢索召回率高;同時可以支持跨語種的知識檢索,同一個api,不僅支持中英文單語種場景的知識檢索,我們還依托有道翻譯的技術積累,
在中英文跨語種場景有特殊優化。也就是我們embedding不僅可以支持英文->英文和中文->中文單語種知識檢索,
還支持中文->英文和英文->中文的跨語種知識檢索。
Hi,您好,歡迎使用有道智云embedding接口服務。
本文檔主要針對需要集成HTTP API的技術開發工程師,詳細描述embedding能力相關的技術內容。
如果您有與我們商務合作的需求,可以通過以下方式聯系我們:
商務郵箱: AIcloud_Business@corp.youdao.com
如果您對文檔內容有任何疑問,可以通過以下幾種方式聯系我們:
客服QQ:1906538062
AIGC產品技術交流群 :837394306
聯系郵箱: zhiyun@corp.youdao.com
溫馨提示:
baseUrl: https://openapi.youdao.com
Content-Type: x-www-form-urlencoded
獲取文本embedding
baseUrl + /textEmbedding/queryTextEmbeddings
POST
字段名 | 含義 | 備注 | 必填 |
---|---|---|---|
appKey | 應用標識(應用 ID) | true | |
curtime | 時間戳(秒) | true | |
q | 要上傳的文本內容 | 每個q不超過400個單詞或漢字, 最多不超過16個q文本。請求中該字段可包含多個,即批量請求。 | true |
salt | 隨機字符串 | true | |
sign | 簽名信息:sha256(appKey+input+salt+curtime+密鑰) | true | |
signType | 簽名類型 | v3 | true |
簽名生成方法如下:
signType=v3;
sign=sha256(應用ID+input+salt+curtime+應用密鑰);
其中,input的計算方式為:input=q前10個字符 + q長度 + q后10個字符(當q長度大于20)或 input=q字符串(當q長度小于等于20);
傳多個q時,需要拼接為一個字符串參與簽名計算。例:第一個q=文本1,第二個q=文本2,則參與計算簽名q=文本1文本2
參數名稱 | 描述 | 類型 |
---|---|---|
errorCode | 錯誤碼 | text |
msg | 描述 | text |
requestId | 請求id | text |
result | 結果 | |
+embeddingList | embedding結果,所有queries的embedding,每個embedding是768維,已經做了normalize | array |
+modelVersion | 模型版本號 | text |
+tokenNum | 輸入的q總共花費的tokens數量 | long |
+warning | 警告說明信息,入參不合法時存在 | text |
獲取embedding模型版本
baseUrl + /textEmbedding/queryTextEmbeddingVersion
GET
字段名 | 含義 | 備注 | 必填 |
---|---|---|---|
appKey | 應用標識(應用 ID) | true | |
curtime | 時間戳(秒) | true | |
salt | 隨機字符串 | true | |
sign | 簽名信息:sha256(appKey+input+salt+curtime+密鑰) | true | |
signType | 簽名類型 | v3 | true |
簽名生成方法如下:
signType=v3;
sign=sha256(應用ID+input+salt+curtime+應用密鑰);
其中,本接口input取值為空字符串"";
參數名稱 | 描述 | 類型 |
---|---|---|
errorCode | 錯誤碼 | text |
msg | 描述 | text |
result | 結果 | |
+modelVersion | 模型版本號 | text |
1、、請求的q,每個q的文本的單詞數不要超過400,超過部分可能不會進行計算,同時會有警告說明信息返回;
2、可用于中英文檔;
3、傳入q時,最好自己先組好一個batch(最多可傳16個q);
4、模型版本自動校驗:注意在自己的應用中加入model version的自動校驗邏輯,避免embedding模型更新之后,模型版本不一致,導致檢索失敗!
錯誤碼 | msg |
---|---|
101 | 缺少必填的參數,首先確保必填參數齊全,然后,確認參數書寫是否正確。 |
104 | 不支持的API類型 |
105 | 不支持的簽名類型 |
106 | 不支持的響應類型 |
110 | 無相關服務的有效應用,應用沒有綁定服務,可以新建服務。注:某些服務的結果發音需要tts服務,需要在控制臺創建語音合成實例綁定應用后方能使用。 |
111 | 開發者賬號無效 |
202 | 簽名檢驗失敗,如果確認應用ID和應用密鑰的正確性,仍返回202,一般是編碼問題。請確保翻譯文本 q 為UTF-8編碼. |
203 | 訪問IP地址不在可訪問IP列表 |
205 | 請求的接口與應用的平臺類型不一致,確保接入方式(Android SDK、IOS SDK、API)與創建的應用平臺類型一致。如有疑問請參考入門指南 |
206 | 因為時間戳無效導致簽名校驗失敗 |
207 | 重放請求 |
303 | 服務端的其它異常 |
401 | 賬戶已經欠費停 |
EB1001 | embedding模型請求失敗 |
EB1002 | 請求句子(q)過多 |
EB1003 | 單句(q)過長 |