Embedding-Reranker

发表于2026-01-06|更新于2026-01-26

|浏览量:

Embedding 和 Reranker 模型指南

1. 理论

1.1 Embedding 模型：文字的「数字身份证」

作用：将文字转换为高维向量，建立语义空间中的坐标定位
使用场景：

🔍 搜索（”猫” → 匹配”猫咪””橘猫”）
🎥 推荐系统（科幻片→科幻片）
📊 聚类分析（自动分类用户评论）
比喻：图书馆管理员快速搬来所有「狗」相关书籍，但顺序杂乱

1.2 Reranker 模型：结果的「智能排序员」

作用：对初步结果重新排序，提升精准度
使用场景：

❓ 问答系统（从100条答案选最优解）
🔍 搜索引擎（”苹果”优先显示水果）
🎬 推荐系统（按评分/热度排序）
比喻：管理员二次整理书籍，按评分/出版时间排序

1.3 两者协作关系

	Embedding	Reranker
阶段	粗筛（召回）	精排（排序）
速度	快	较慢
目标	解决”有没有”	解决”哪个更好”

经典组合案例：

电商搜索：Embedding找”运动鞋” → Reranker按价格/销量排序
智能客服：Embedding匹配问题 → Reranker选最准回答

2. 部署实践

2.1 Ollama

官方模型库：Embedding Models
启动命令：
1
ollama run <model-name>

2.2 vLLM

Embedding 部署

vllm serve /mnt/Qwen3-Embedding-8B/ \
  --tensor-parallel-size 2 \
  --trust-remote-code \
  --host 0.0.0.0

Reranker 部署

1 2	vllm serve /mnt/Qwen3-Reranker-0.6B/ \ --hf_overrides '{"architectures": ["Qwen3ForSequenceClassification"]}'

Benchmark 测试

#https://docs.vllm.ai/en/latest/benchmarking/cli/?h=reranker#text-embeddings
vllm bench serve \
  --model /mnt/Qwen3-Embedding-8B/ \
  --dataset-name sharegpt \
  --num_prompts 1000 \
  --port 8000

文档参考：vLLM Models

2.3 SGLang

Embedding 部署

python3 -m sglang.launch_server \
  --model-path Qwen/Qwen3-Embedding-4B \
  --is-embedding \
  --port 30000

支持模型：Embedding Models

Reranker 部署

python3 -m sglang.launch_server \
  --model-path BAAI/bge-reranker-v2-m3 \
  --disable-radix-cache \
  --attention-backend triton \
  --port 30000

支持模型：Reranker Models

关键要点

RAG 流程：Embedding 提升召回 → Reranker 优化排序
硬件建议：
- Embedding：需要更大显存（8B模型约需24G）
- Reranker：计算密集型，建议使用GPU加速
版本注意：
- vLLM 需 ≥0.11.0
- SGLang 需配置 Triton 后端

相关推荐

LlamaIndex 使用指南简介LlamaIndex 是一个强大的开源工具，帮助开发者构建基于大型语言模型 (LLM) 的应用程序。提供工具和 API 连接 LLM 与外部数据源，功能类似 LangChain。快速入门环境配置123456# 创建虚拟环境python -m venv LlamaIndexsource LlamaIndex/bin/activate# 安装核心库pip install llama-index 基础依赖12345pip install \llama-index-core \llama-index-llms-openai \llama-index-embeddings-openai \llama-index-readers-file 5行入门代码1234567from llama_index.core import VectorStoreIndex, SimpleDirectoryReaderdocuments = SimpleDirectoryReader("data").load_data() # 加载文档index...

CosyVoice 安装与使用指南环境准备1. 克隆代码仓库1234git clone --recursive https://github.com/FunAudioLLM/CosyVoice.gitcd CosyVoice# 若子模块克隆失败，重复执行直到成功git submodule update --init --recursive 2. 安装Miniconda1234wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.shbash Miniconda3-latest-Linux-x86_64.sh~/miniconda3/bin/conda init bashsource ~/.bashrc 3. 创建虚拟环境12conda create -n cosyvoice python=3.10conda activate cosyvoice 4. 安装系统依赖123sudo yum install sox sox-develsudo yum groupinstall...

MCP 工具使用文档https://gofastmcp.com/getting-started/installation 工具示例基础工具定义12345678mcp = FastMCP("Demo 🚀")Starlette()@mcp.tool(name='加法')def add(a: int, b: int) -> int: """Add two numbers""" return a + b#fastmcp run my_server.py:mcp --transport sse --port 8000 JSON数据处理工具12345678910111213141516171819202122232425262728293031323334353637@mcp.tool(name='从公网URL下载JSON文件并提取产品信息')def extract_product_info(url: str) ->...

Milvus 使用文档目录 Milvus 使用文档目录 1 安装 2 使用案例 2.1 文档搜索（RAG） 2.2 图片检索（以图搜图） 2.3 以文搜图 3 集成 1 安装12345678910111213141516171819202122232425262728# 安装 Docker Composecurl -SL https://github.com/docker/compose/releases/download/v2.30.3/docker-compose-linux-x86_64 -o /usr/local/bin/docker-composesudo chmod +x /usr/local/bin/docker-composesudo ln -s /usr/local/bin/docker-compose /usr/bin/docker-compose# 下载 Milvus 配置文件wget...

SGLang 部署与使用指南目录 SGLang 部署与使用指南目录环境准备与安装基础环境配置 Docker容器部署服务启动配置单节点启动双节点分布式启动功能测试性能基准测试 PD分离部署环境准备服务部署分布式部署 (2P1D) Prefill节点配置 Decode节点配置环境准备与安装基础环境配置12345678# 禁用IPv6sysctl -w net.ipv6.conf.all.disable_ipv6=1 sysctl -w net.ipv6.conf.default.disable_ipv6=1# 设置网络接口和NCCL参数export GLOO_SOCKET_IFNAME=eth0#export NCCL_DEBUG=infoexport NCCL_IB_DISABLE=1 Docker容器部署12345678docker run -d -t --network=host --gpus all \ --privileged \ --ipc=host \ --cap-add=SYS_PTRACE \ ...

vLLM 分布式服务部署与压测指南目录 Docker 部署服务启动 API 测试压力测试 PD分离 https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7Bhttps://docs.vllm.com.cn/en/latest/getting_started/quickstart.html#installation Docker 部署启动 vLLM 服务容器1234567891011docker run -t -d \ --name="vllm" \ --ipc=host \ --cap-add=SYS_PTRACE \ --network=host \ --gpus all \ --privileged \ --ulimit memlock=-1 \ --ulimit stack=67108864 \ -v /mnt:/mnt \ ...

数据加载中