文本嵌入(Text Embedding)是自然语言处理中的一个重要概念,它的目标是将文本中的词表示成固定长度的稠密向量,也称为词向量(Word Vector)。这样每个词都可以用一个连续的、低维的稠密向量来表示,比如200-300维。
M3E 是 Moka Massive Mixed Embedding 的缩写,M3E模型是文本嵌入模型(Embedding),可以将自然语言转换成稠密的向量,主要用于计算文本向量。
OpenAI 的文本嵌入模型可以计算文本字符串的特征向量,通过向量计算字符串之间的语义相关性。
Text2vec: Text to Vector, Get Sentence Embeddings. 文本向量化,把文本(包括词、句子、段落)计算为特征向量。