嘿姆嘿姆头像陈全 · CQ陈全 / 策略产品经理、运营
← 返回项目目录
Case File 07搜索质量2016.12 - 2020.05字节跳动 · 搜索业务

搜索满足度评估与问答式搜索探索

在没有大模型叙事的时候,先回答一个朴素问题:用户搜完到底解决了吗?

我的判断

搜索质量不是结果多不多,而是用户有没有少走弯路。很多时候,第一条结果就决定了这次搜索是不是成立。

Search SatisfactionQuery IntentEvaluation StandardDirect AnswerSemantic SearchTop1 命中Result Quality

搜索质量与问答式搜索 · One Page

搜索不是给一堆结果,而是让用户少走弯路。

这个项目不要硬讲成今天的大模型项目。当时更真实的问题是: 用户搜完以后,到底有没有解决问题。我的重点不是证明某个模型很先进, 而是先定义什么叫搜索满足,再把它转成内容引入、结果评估、排序调优和问答式结果命中的策略动作。

01

不是 AI 项目

当时还没有大模型搜索叙事。更真实的问题是:用户搜完以后,到底有没有少走弯路。

02

模型不是万能解

当时有过语义模型探索,但收益有限。很多 bad case 最后还是回到意图、供给和评估标准。

03

Top1 决定体验

搜索不像推荐可以慢慢纠偏。很多时候,第一条结果就决定这次搜索是不是成立。

核心口径

搜索满足度四问:意图、供给、Top1、答案

用户在找什么?

Query 是找事实、教程、视频、事件,还是在问一个可以被直接回答的问题。

供给够好吗?

没有好内容,排序很难救;有好内容但标准不清,也很难稳定优化。

Top1 命中了吗?

不是结果列表看起来相关就够了,要看第一条是否真正解决用户问题。

要不要直接回答?

只有适合直接回答的需求,才应该追求问答式结果、答案可信和可验证。

主线 A

供给标准 × 结果评估 × 排序调优

视频搜索质量

  • 定义哪些视频内容适合进入搜索供给
  • 建立相关性、可消费性、质量稳定性和时效口径
  • 用横向对照和人工评估校准搜索体验
  • 联动算法调优候选、排序和结果准确性

主线 B

可回答需求 × Top1 命中 × 答案可信

问答式搜索探索

  • 识别适合直接回答的搜索需求
  • 把 Top1 精准命中作为核心体验目标,而不是只看列表整体相关性
  • 评估答案是否准确、完整、可信、可验证
  • 用覆盖范围判断问答式结果对搜索满足度的增量

策略链路

从 Query 到少走弯路的质量链路

1

Query 分型

2

供给补齐

3

评估标准

4

排序调优

5

Top1 命中

6

答案承接

结果与沉淀

行业第一

多端视频搜索体验

10%+

问答式结果覆盖用户搜索需求

达到目标水平

综合搜索结果准确性

我的重点:不是证明某个模型很先进,而是先定义什么叫满足, 再让模型、供给、排序和问答式结果一起服务这个目标。

项目架构图

搜索满足度评估架构

搜索不是给一堆结果,而是让用户少走弯路。

输入01

用户 Query

事实、教程、视频、事件、可直接回答需求

判断02

需求分型

先判断用户到底想解决什么问题

供给03

供给判断

内容是否足够好、可消费、可信、时效合适

动作04

结果策略

排序调优、Top1 命中、问答式答案承接

复盘05

满足度复盘

人工评估、横向对照、bad case 归因

反馈回路:语义模型收益有限这件事很重要:模型能力之外,供给、评估和 Top1 命中同样决定搜索体验。

Quick Read

30 秒读懂这个项目

01

为什么值得做

用户更快找到答案或合适的视频结果,少在不相关结果里反复试错。

02

我怎么判断

搜索质量不是结果多不多,而是用户有没有少走弯路。很多时候,第一条结果就决定了这次搜索是不是成立。

03

结果证明什么

视频搜索体验做到行业第一,问答式结果覆盖 10%+ 搜索需求,综合搜索准确性从落后达到目标水平。

项目笔记

详细项目笔记

点击展开
01

背景

搜索和推荐不一样。推荐是在不确定兴趣里分发内容,搜索是用户带着明确需求来找东西,很多时候甚至是在要一个答案。当时还没有今天的大模型搜索叙事,当时也有语义模型探索,但在搜索场景里的收益并没有想象中那么高。后来我更清楚地意识到,很多搜索 bad case 不是因为模型名字不够先进,而是更基础的事情没被定义清楚:这个 Query 到底要什么,平台有没有足够好的供给,第一条结果有没有命中,直接答案是否可信。

02

难点

  1. 1搜索质量不能只看点击率。用户可能点了很多次,但每次都不满意;也可能没有继续点击,是因为第一条已经解决了问题。
  2. 2视频搜索的结果形态很复杂。一个视频要同时满足相关、可消费、质量稳定、时效合适,不同 Query 的满足方式也不一样。
  3. 3当时大家会自然期待语义模型带来明显收益,但语义模型探索在搜索场景里的增益没有想象中大。很多问题最后还是回到 Query 分型、供给质量、评估标准和 Top1 命中。
  4. 4问答式结果看起来更接近今天的 AI 搜索,但它当时真正的难点不是形态新,而是答案能不能准确、可信、可验证,并且只覆盖适合直接回答的需求。
03

我的判断

  1. 1我当时的判断是,搜索项目要先定义“什么叫满足”,再反推内容引入、排序调优和答案形态,而不是直接从算法指标出发。
  2. 2视频搜索要同时解决供给和排序。没有好内容,排序再好也解决不了满足度;有好内容但评估标准不清,也很难稳定优化。
  3. 3Top1 是搜索里特别关键的位置。推荐可以靠多次分发逐步纠偏,但搜索用户往往希望第一条就接近答案。
  4. 4问答式结果不是搜索的附属模块,而是搜索满足度的一种升级形态:适合直接回答的需求,应该追求 Top1 精准命中和可信表达。
04

关键动作

  1. 1制定视频搜索内容引入策略与评估标准,明确什么内容适合被搜索承接、什么结果算满足用户需求。
  2. 2围绕 Query 意图、内容供给、结果质量和 Top1 命中,联动算法完成综合搜索模型调优。
  3. 3拆解搜索 bad case,将意图识别、供给不足、排序不足、形态不匹配和答案不可信分别转成优化动作。
  4. 4推动问答式搜索场景落地,将适合直接回答的搜索需求纳入 Top1 精准命中和答案可信评估。
  5. 5通过横向对照、人工评估和线上效果反馈,持续校准搜索满足度口径。
05

结果

  1. 1推动多端视频搜索体验达到行业领先水平。
  2. 2问答式结果 Top1 精准命中覆盖用户 10%+ 搜索需求。
  3. 3综合搜索结果准确性从落后状态提升到目标水平,提升用户满意度。
  4. 4沉淀搜索满足度评估框架、视频搜索内容引入策略、搜索 bad case 归因方式和问答式结果命中判断口径。
06

复盘

  1. 1这个项目最好不要包装成“我很早就在做 AI 问答”。更真实也更有说服力的说法是:我很早就在做搜索满足度和直接答案的评估问题。
  2. 2语义模型收益有限这件事反而很重要,它让我看到:模型能力不是搜索体验的全部,供给、评估、排序和结果形态同样决定用户是否被满足。
  3. 3视频搜索体验达到行业领先水平,能说明视频搜索体验有竞争力;问答式结果覆盖 10%+ 搜索需求,能说明一部分需求确实更适合直接答案。但这不代表所有 Query 都应该被问答化。
  4. 4今天回看,这类经验可以迁移到 AI 搜索、RAG 问答、搜索结果 LLM 评估和答案可信度治理中。但它的根不是“用了 AI”,而是先定义了什么叫满足。

AI 迁移

哪些判断可以交给 AI 扩大

谨慎展开
AI NODE 01

Query 意图理解 AI 化

用大模型识别 Query 是找事实、找教程、找视频、找经验还是适合直接回答,并生成可解释的需求标签。

AI NODE 02

结果评估 AI 化

用 LLM-as-Judge 评估搜索结果是否相关、完整、可信、可消费,辅助人工评估扩量和一致性校准。

AI NODE 03

问答命中 AI 化

围绕 Top1 精准命中、答案可验证、引用来源和用户意图满足度,对 AI 答案进行自动评估。

AI NODE 04

搜索复盘 AI 化

让 AI 自动归因搜索不满足来自需求识别、内容供给、排序策略还是答案生成,辅助策略迭代。

方法资产

最后留下来的东西

搜索满足度评估框架搜索内容引入策略视频搜索评估标准问答式结果 Top1 命中判断口径