预置Data Search实现

更新时间：2026-05-13

主流程代码

                PYTHON
                
            

                # 定义一个 main 函数，传入 params 参数。params 中包含配置的输入变量。
# 需要定义一个字典作为输出变量，字典详情见输出参数
# 引用输入变量方式：params['变量名'] or params.get('变量名')
# 运行环境 Python3
# 预置 Package：databuilder_logic_sdk，使用方法见产品文档

def main(params):
    # step 0
    context = SearchContext.from_params(params)

    # step 1 --- retrieve
    retrieve_result = dict()
    try:
        retriever = Retriever()
        retrieve_result = retriever.retrieve(context=context)
    except Exception as exc:
        error_message = str(exc) or "unknown error"
        return {
            "code": -1,
            "message": f" {error_message}",
            "chunk": [],
        }

    chunks = retrieve_result.get("chunk") or []
    if chunks == []:
        return retrieve_result

    # step 2 --- rerank
    if context.rerank_enabled:
        reranker = Reranker()
        rerank_inputs: list[str] = []
        for chunk in chunks:
            content = chunk.get("content")
            rerank_inputs.append(content if isinstance(content, str) else "")
        rerank_response = reranker.rerank(
            query=context.query,
            chunks=rerank_inputs,
            top_k=context.top_k,
        )

        retrieve_result["chunk"] = reranker.sort(chunks, rerank_response.results)

    if len(retrieve_result["chunk"]) > context.top_k:
        retrieve_result["chunk"] = retrieve_result["chunk"][0 : context.top_k]

    # step 3 --- content expansion
    chunk_expansion = params.get("chunk_expansion") or {}
    if chunk_expansion:
        window_size = chunk_expansion.get("window_size") or 0
        retrieve_result["chunk"] = retriever.expand_chunks_after_rerank(
            context,
            retrieve_result["chunk"],
            window_size=window_size,
        )

    return retrieve_result
            

方法实现

                PYTHON
                
            

                from __future__ import annotations
from collections import defaultdict
from collections.abc import Iterable
import json
import builtins

from typing import Any, Sequence
from databuilder_logic_sdk.core import (
    create_embedding_service,
    create_ontology_service,
    create_rerank_service,
)
from databuilder_logic_sdk.utils import logger

# DEFAULT_TOP_K = 6
DEFAULT_SCORE_THRESHOLD = 0.1
DEFAULT_RECALL_TYPE = "fulltext"
DEFAULT_EMBEDDING_MODEL = "text-embed_7b_bf16"

# Ontology `contains` (ann_distance) may return 0 rows for very small limits
# (e.g. limit=1), even when larger limits return results. Keep a small floor
# to make semantic/hybrid recall stable.
MIN_SEMANTIC_RECALL_TOP_N = 5

BM25_NORMALIZATION_CAP = 50.0
HYBRID_AUTO_PASS_THRESHOLD = 0.9

CHUNK_TYPE_CHUNK = "chunk"
CHUNK_TYPE_SENTENCE = "sentence"
CHUNK_TYPE_CUSTOM_SENTENCE = "custom_sentence"


class SearchContext:
    def __init__(
        self,
        query: str,
        ontology_name: str,
        object_type: str,
        fulltext_column: str,
        semantic_column: str,
        chunk_id_column: str,
        parent_id_column: str,
        type_column: str,
        recall_type: str,
        top_k: int,
        score_threshold: float,
        recall_top_n: int,
        vec_weight: float,
        rerank_enabled: bool,
        metadata_filters: dict,
    ) -> None:
        """
        初始化搜索上下文

        Args:
            query: 搜索查询
            ontology_name: 本体名称
            object_type: 对象类型
            fulltext_column: 全文检索列名
            semantic_column: 语义检索列名
            chunk_id_column: 分块ID列名
            parent_id_column: 父ID列名
            type_column: 类型列名
            recall_type: 召回类型
            top_k: 返回结果数
            score_threshold: 分数阈值
            recall_top_n: 召回数量
            vec_weight: 向量权重
            rerank_enabled: 是否开启 rerank
        """
        self.query = query
        self.ontology_name = ontology_name
        self.object_type = object_type
        self.fulltext_column = fulltext_column
        self.semantic_column = semantic_column
        self.chunk_id_column = chunk_id_column
        self.parent_id_column = parent_id_column
        self.type_column = type_column
        self.recall_type = recall_type
        self.top_k = top_k
        self.score_threshold = score_threshold
        self.recall_top_n = recall_top_n
        self.vec_weight = vec_weight
        self.rerank_enabled = rerank_enabled
        self.metadata_filters = metadata_filters

    @classmethod
    def from_params(cls, params: dict[str, Any]) -> SearchContext:
        query = (params.get("query") or "").strip()
        if not query:
            raise ValueError("query cannot be empty")

        ontology = params.get("ontology") or {}
        ontology_name = ontology.get("ontology_name") or ""
        object_type = ontology.get("object_type") or ""
        if not ontology_name or not object_type:
            raise ValueError("ontology_name and object_type are required")

        fulltext_column = ontology.get("fulltext_column")
        semantic_column = ontology.get("semantic_column")

        recall = params.get("recall") or {}
        recall_type = recall.get("type", DEFAULT_RECALL_TYPE)

        if recall_type in {"fulltext", "hybrid"} and not fulltext_column:
            raise ValueError("fulltext_column is required for fulltext/hybrid recall")
        if recall_type in {"semantic", "hybrid"} and not semantic_column:
            raise ValueError("semantic_column is required for semantic/hybrid recall")

        top_k = params.get("top_k") or ""
        if not top_k:
            raise ValueError("top_k is required")
        try:
            top_k = int(top_k)
        except (TypeError, ValueError):
            raise ValueError("top_k must be an integer")
        if top_k <= 0:
            raise ValueError("top_k must be positive")

        score_threshold = float(params.get("score_threshold", DEFAULT_SCORE_THRESHOLD))
        if score_threshold < 0 or score_threshold > 1:
            raise ValueError("score_threshold must be between 0 and 1")

        recall_top_n = recall.get("top_n")
        if recall_top_n is None:
            recall_top_n = top_k * 2
        else:
            try:
                recall_top_n = int(recall_top_n)
            except (TypeError, ValueError):
                raise ValueError("recall.top_n mustbe an integer")
            if recall_top_n <= 0:
                raise ValueError("recall.top_n must be positive")

        vec_weight = recall.get("vec_weight")
        if vec_weight is not None:
            try:
                vec_weight = float(vec_weight)
            except (TypeError, ValueError):
                raise ValueError("recall.vec_weight must be a number")
            if vec_weight < 0 or vec_weight > 1:
                raise ValueError("recall.vec_weight must be between 0 and 1")
        else:
            vec_weight = 0.5

        rerank_enabled = params.get("rerank")
        if isinstance(rerank_enabled, str):
            rerank_enabled = rerank_enabled.strip().lower() in {"true", "1", "yes", "y"}
        else:
            rerank_enabled = False

        if rerank_enabled and recall_top_n < top_k:
            logger.warning(
                "recall top_n is smaller than top_k; rerank will receive fewer candidates",
                extra={
                    "top_k": top_k,
                    "recall_top_n": recall_top_n,
                },
            )
        if recall_type in {"semantic", "hybrid"} and recall_top_n < MIN_SEMANTIC_RECALL_TOP_N:
            logger.warning(
                "semantic recall_top_n too small for contains; bumping",
                extra={
                    "original": recall_top_n,
                    "bumped": MIN_SEMANTIC_RECALL_TOP_N,
                    "recall_type": recall_type,
                },
            )
            recall_top_n = MIN_SEMANTIC_RECALL_TOP_N

        metadata_filters = params.get("metadata_filters") or {}
        if not isinstance(metadata_filters, dict):
            raise ValueError("metadata_filters must be a dict")
        if len(metadata_filters) != 0:
            operator = metadata_filters.get("operator") or ""
            if operator != "":
                if operator not in {"in", "notin", "not in"}:
                    raise ValueError('operator must be one of "in", "notin", "not in"')
                field = metadata_filters.get("field")
                if field != "docId":
                    raise ValueError("field currently can only be docId")
                value = metadata_filters.get("value")
                if not isinstance(value, list):
                    raise ValueError("value must be a list for 'in'/'notin'")
            else:
                metadata_filters = {}
        chunk_expansion = params.get("chunk_expansion") or {}
        if not isinstance(chunk_expansion, dict):
            raise ValueError("chunk_expansion must be a dict")
        if chunk_expansion != {}:
            expansion_type = chunk_expansion.get("type") or ""
            if expansion_type != "":
                if expansion_type != "window_expansion":
                    raise ValueError("currently chunk_expansion type only support window_expansion")
                window_size = chunk_expansion.get("window_size") or 0
                if not isinstance(window_size, int):
                    raise ValueError("window_size must be int or not empty")
                if window_size < 0 or window_size >= 100:
                    raise ValueError("invalid window_size")

        return cls(
            query=query,
            ontology_name=ontology_name,
            object_type=object_type,
            fulltext_column=str(fulltext_column),
            semantic_column=str(semantic_column),
            chunk_id_column=str(ontology.get("chunk_id_column", "chunkId")),
            parent_id_column=str(ontology.get("parent_id_column", "parentId")),
            type_column=str(ontology.get("type_column", "type")),
            recall_type=str(recall_type),
            top_k=top_k,
            score_threshold=score_threshold,
            recall_top_n=recall_top_n,
            vec_weight=vec_weight,
            rerank_enabled=rerank_enabled,
            metadata_filters=metadata_filters,
        )


class BasePipeline:
    def __init__(self, ontology_service: Any) -> None:
        self.ontology_service = ontology_service

    @staticmethod
    def _format_output(chunks: list[ScoredChunk]) -> dict[str, Any]:
        return {
            "code": 0,
            "message": "",
            "chunk": [chunk.to_dict() for chunk in chunks],
        }

    @staticmethod
    def _format_error(exc: Exception) -> dict[str, Any]:
        error_message = str(exc) or "unknown error"
        return {
            "code": -1,
            "message": f"{error_message}",
            "chunk": [],
        }

    @staticmethod
    def _response_rows(response: Any) -> list[dict[str, Any]]:
        code = builtins.getattr(response, "code", None)
        if code not in (None, 0, "0", "SUCCESS"):
            result = builtins.getattr(response, "result", None) or {}
            sql = result.get("sql") if isinstance(result, dict) else None
            raise RuntimeError(
                f"ontology search failed: code={code} message={builtins.getattr(response, 'message', '')} sql={sql}"
            )
        result = builtins.getattr(response, "result", None) or {}
        data = result.get("data")
        if not data:
            return []
        if not isinstance(data, list):
            raise TypeError(f"ontology response data is not a list")
        return data

    def _ontology_search(self, *, dsl: dict[str, Any]) -> list[dict[str, Any]]:
        response = self.ontology_service.search(dsl=dsl)
        try:
            return self._response_rows(response)
        except Exception as exc:
            raise RuntimeError(f"ontology search failed: {exc}. dsl={dsl}") from exc

    @staticmethod
    def _require_row_field(row: dict[str, Any], field: str, *, hint: str) -> Any:
        if field not in row:
            raise ValueError(f"missing required field '{field}' in {hint}: {row}")
        return row.get(field)

    @staticmethod
    def _filter_chunks(chunks: list[ScoredChunk], *, score_threshold: float) -> list[ScoredChunk]:
        return [chunk for chunk in chunks if chunk.score >= score_threshold]

    @staticmethod
    def _sort_chunks(chunks: list[ScoredChunk]) -> None:
        chunks.sort(
            key=lambda chunk: chunk.score,
            reverse=True,
        )

    @staticmethod
    def _normalize_score(score: Any) -> float:
        try:
            return float(score)
        except (TypeError, ValueError):
            return 0.0

    @staticmethod
    def _build_chunk(
        *,
        chunk_id: str,
        content: str,
        object_type: str,
        ontology: str,
        score: float,
        doc_id: str | None = None,
        chunk_idx: int | None = None,
    ) -> ScoredChunk:
        return ScoredChunk(
            chunk_id=chunk_id,
            content=content,
            object_type=object_type,
            ontology=ontology,
            score=score,
            doc_id=doc_id,
            chunk_idx=chunk_idx,
        )

    @staticmethod
    def _extract_doc_id(row: dict[str, Any]) -> str | None:
        doc_id = row.get("docId")
        if not doc_id:
            return None
        return str(doc_id)

    @staticmethod
    def _extract_chunk_idx(row: dict[str, Any]) -> int | None:
        chunk_idx = row.get("chunkIdx")
        if isinstance(chunk_idx, bool) or not isinstance(chunk_idx, int):
            return None
        return chunk_idx

    @staticmethod
    def _apply_metadata_filters(where: dict[str, Any], ctx: SearchContext) -> dict[str, Any]:
        metadata_filters = ctx.metadata_filters or {}
        if not metadata_filters:
            return where

        operator = metadata_filters.get("operator") or ""
        if not operator:
            return where

        operator_map = {
            "in": "in",
            "notin": "not in",
            "not in": "not in",
        }
        mapped_operator = operator_map.get(operator)
        if not mapped_operator:
            return where
        metadata_node = {
            "type": mapped_operator,
            "field": metadata_filters.get("field"),
            "value": metadata_filters.get("value"),
        }

        updated_where = dict(where)
        existing_filters = list(updated_where.get("filter") or [])
        existing_filters.append(metadata_node)
        updated_where["filter"] = existing_filters
        return updated_where


class Chunk:
    chunk_id: str
    content: str
    object_type: str
    ontology: str

    def to_dict(self) -> dict[str, Any]:
        return {
            "chunk_id": self.chunk_id,
            "content": self.content,
            "object_type": self.object_type,
            "ontology": self.ontology,
        }


class ScoredChunk:
    def __init__(
        self,
        chunk_id: str,
        content: str,
        object_type: str,
        ontology: str,
        score: float,
        doc_id: str | None = None,
        chunk_idx: int | None = None,
    ):
        """
        初始化带分数的文本块

        Args:
            chunk_id: 块ID
            content: 内容
            object_type: 对象类型
            ontology: 本体
            score: 分数 (0-1)
        """
        self.chunk_id = chunk_id
        self.content = content
        self.object_type = object_type
        self.ontology = ontology
        self.score = score
        self.doc_id = doc_id
        self.chunk_idx = chunk_idx

    def to_dict(self) -> dict[str, Any]:
        return {
            "chunk_id": self.chunk_id,
            "content": self.content,
            "object_type": self.object_type,
            "ontology": self.ontology,
        }


def _normalize_bm25(score: float) -> float:
    if score <= 0:
        return 0.0
    if score > BM25_NORMALIZATION_CAP:
        score = BM25_NORMALIZATION_CAP
    return score / BM25_NORMALIZATION_CAP


def _parse_embedding(value: Any) -> list[float]:
    if value is None:
        return []

    if isinstance(value, list):
        return value

    if isinstance(value, str):
        try:
            parsed = json.loads(value)
        except json.JSONDecodeError:
            return []
        if not isinstance(parsed, list):
            return []
        out = []
        for item in parsed:
            try:
                out.append(float(item))
            except (TypeError, ValueError):
                return []
        return out
    return []


def _cosine_similarity(left: Sequence[float], right: Sequence[float]) -> float:
    if len(left) != len(right) or not left:
        return 0.0

    dot = sum(x * y for x, y in zip(left, right))
    norm_l = sum(x * x for x in left) ** 0.5
    norm_r = sum(x * x for x in right) ** 0.5
    return dot / (norm_l * norm_r) if norm_l and norm_r else 0.0


class FulltextPipeline(BasePipeline):
    def __init__(self, ontology_service: Any) -> None:
        super().__init__(ontology_service)

    def run(self, ctx: SearchContext) -> dict[str, Any]:
        try:
            sentence_rows = self._search_sentences(ctx, chunk_type=CHUNK_TYPE_SENTENCE, limit=ctx.recall_top_n)
            custom_rows = self._search_sentences(ctx, chunk_type=CHUNK_TYPE_CUSTOM_SENTENCE, limit=ctx.recall_top_n)

            all_rows = sentence_rows + custom_rows
            if not all_rows:
                return self._format_output([])

            parent_scores = self._aggregate_parent_scores(all_rows, ctx)
            if not parent_scores:
                return self._format_output([])

            parent_ids = list(parent_scores.keys())
            paragraphs = self._fetch_paragraphs_by_ids(ctx, parent_ids)

            chunks: list[ScoredChunk] = []
            for para in paragraphs:
                chunk_id = para.get(ctx.chunk_id_column)
                content = para.get("content")
                if not chunk_id or content is None:
                    continue
                if chunk_id not in parent_scores:
                    raise ValueError(f"missing bm25 for chunk {chunk_id}")
                bm25_score = parent_scores[chunk_id]
                doc_id = self._extract_doc_id(para)
                chunk_idx = self._extract_chunk_idx(para)
                chunks.append(
                    self._build_chunk(
                        chunk_id=chunk_id,
                        content=content,
                        object_type=ctx.object_type,
                        ontology=ctx.ontology_name,
                        score=bm25_score,
                        doc_id=doc_id,
                        chunk_idx=chunk_idx,
                    )
                )

            filtered = self._filter_chunks(chunks, score_threshold=ctx.score_threshold)
            self._sort_chunks(filtered)
            return self._format_output(filtered[: ctx.recall_top_n])
        except Exception as exc:
            logger.error("fulltext pipeline failed: %s", exc)
            return self._format_error(exc)

    def _search_sentences(self, ctx: SearchContext, *, chunk_type: str, limit: int) -> list[dict[str, Any]]:
        dsl = {
            "ontology": ctx.ontology_name,
            "apiName": ctx.object_type,
            "limit": limit,
            "select": [
                {"field": "content"},
                {"field": ctx.chunk_id_column},
                {"field": ctx.parent_id_column},
                {"field": ctx.type_column},
                {"field": "__SCORE", "orderBy": "desc"},
            ],
            "where": {
                "type": "and",
                "filter": [
                    {"type": "match_any", "field": ctx.fulltext_column, "value": ctx.query},
                    {"type": "eq", "field": ctx.type_column, "value": chunk_type},
                ],
            },
        }
        dsl["where"] = self._apply_metadata_filters(dsl["where"], ctx)
        return self._ontology_search(dsl=dsl)

    def _aggregate_parent_scores(self, rows: Iterable[dict[str, Any]], ctx: SearchContext) -> dict[str, float]:
        scores: dict[str, float] = defaultdict(float)
        for row in rows:
            parent_id = row.get(ctx.parent_id_column)
            if "__SCORE" not in row:
                raise ValueError(f"missing __SCORE in fulltext row: {row}")
            score = self._normalize_score(row.get("__SCORE"))
            if not parent_id:
                continue
            if score > scores[parent_id]:
                scores[parent_id] = score
        return scores

    def _fetch_paragraphs_by_ids(self, ctx: SearchContext, parent_ids: list[str]) -> list[dict[str, Any]]:
        if not parent_ids:
            return []

        dsl = {
            "ontology": ctx.ontology_name,
            "apiName": ctx.object_type,
            "limit": len(parent_ids),
            "select": [
                {"field": "content"},
                {"field": ctx.chunk_id_column},
                {"field": ctx.parent_id_column},
                {"field": ctx.type_column},
                {"field": "docId"},
                {"field": "chunkIdx"},
            ],
            "where": {
                "type": "and",
                "filter": [
                    {"type": "eq", "field": ctx.type_column, "value": CHUNK_TYPE_CHUNK},
                    {"type": "in", "field": ctx.chunk_id_column, "value": parent_ids},
                ],
            },
        }
        dsl["where"] = self._apply_metadata_filters(dsl["where"], ctx)
        return self._ontology_search(dsl=dsl)


class SemanticPipeline(BasePipeline):
    def __init__(self, ontology_service: Any, embedding_service: Any) -> None:
        super().__init__(ontology_service)
        self.embedding_service = embedding_service

    def run(self, ctx: SearchContext) -> dict[str, Any]:
        try:
            embeddings = self.embedding_service.embed([ctx.query])
            if not embeddings.results:
                return self._format_output([])

            vector = embeddings.results[0].embedding
            dsl = {
                "ontology": ctx.ontology_name,
                "apiName": ctx.object_type,
                "limit": ctx.recall_top_n,
                "select": [
                    {"field": "content"},
                    {"field": ctx.chunk_id_column},
                    {"field": ctx.semantic_column},
                    {"field": ctx.type_column},
                    {"field": "docId"},
                    {"field": "chunkIdx"},
                ],
                "where": {
                    "type": "and",
                    "filter": [
                        {"type": "contains", "field": ctx.semantic_column, "value": vector},
                        {"type": "eq", "field": ctx.type_column, "value": CHUNK_TYPE_CHUNK},
                    ],
                },
            }
            dsl["where"] = self._apply_metadata_filters(dsl["where"], ctx)
            rows = self._ontology_search(dsl=dsl)

            chunks: list[ScoredChunk] = []
            skipped_missing_embedding = 0
            for row in rows or []:
                chunk_id = row.get(ctx.chunk_id_column)
                content = row.get("content")
                if not chunk_id or content is None:
                    continue
                embedding = _parse_embedding(row.get(ctx.semantic_column))
                if not embedding:
                    skipped_missing_embedding += 1
                    continue
                similarity = _cosine_similarity(vector, embedding)
                doc_id = self._extract_doc_id(row)
                chunk_idx = self._extract_chunk_idx(row)
                chunks.append(
                    self._build_chunk(
                        chunk_id=chunk_id,
                        content=content,
                        object_type=ctx.object_type,
                        ontology=ctx.ontology_name,
                        score=similarity,
                        doc_id=doc_id,
                        chunk_idx=chunk_idx,
                    )
                )

            if skipped_missing_embedding:
                logger.warning(
                    "semantic rows missing embedding",
                    extra={
                        "skipped": skipped_missing_embedding,
                        "ontology": ctx.ontology_name,
                        "object_type": ctx.object_type,
                        "embedding_field": ctx.semantic_column,
                    },
                )

            filtered = self._filter_chunks(chunks, score_threshold=ctx.score_threshold)
            self._sort_chunks(filtered)
            return self._format_output(filtered[: ctx.recall_top_n])
        except Exception as exc:
            logger.error("semantic pipeline failed: %s", exc)
            return self._format_error(exc)


class HybridPipeline(BasePipeline):
    def __init__(self, ontology_service: Any, embedding_service: Any) -> None:
        super().__init__(ontology_service)
        self.embedding_service = embedding_service

    def run(self, ctx: SearchContext) -> dict[str, Any]:
        try:
            vec_weight = float(ctx.vec_weight)
            if not 0.0 <= vec_weight <= 1.0:
                raise ValueError("vec_weight must be between 0 and 1")

            embedding_field = ctx.semantic_column

            embeddings = self.embedding_service.embed([ctx.query])
            if not embeddings.results:
                return self._format_output([])
            query_vector = embeddings.results[0].embedding

            recall_top_n = int(ctx.recall_top_n)

            # Fulltext branch: sentence/custom_sentence -> paragraph mix.
            fulltext_rows: list[dict[str, Any]] = []
            fulltext_rows.extend(
                list(
                    self._search_fulltext_sentences(
                        ctx,
                        query=ctx.query,
                        chunk_type=CHUNK_TYPE_SENTENCE,
                        limit=recall_top_n,
                        embedding_field=embedding_field,
                    )
                )
            )
            fulltext_rows.extend(
                list(
                    self._search_fulltext_sentences(
                        ctx,
                        query=ctx.query,
                        chunk_type=CHUNK_TYPE_CUSTOM_SENTENCE,
                        limit=recall_top_n,
                        embedding_field=embedding_field,
                    )
                )
            )

            fulltext_mix, known_parent_bm25 = self._hybrid_fulltext_paragraph_mix(
                ctx,
                query_vector=query_vector,
                vec_weight=vec_weight,
                rows=fulltext_rows,
                embedding_field=embedding_field,
            )

            # Semantic branch: paragraph vector recall.
            paragraph_vec = self._semantic_paragraph_vectors(
                ctx,
                query_vector=query_vector,
                limit=recall_top_n,
                embedding_field=embedding_field,
            )

            semantic_mix = self._hybrid_semantic_paragraph_mix(
                ctx,
                query=ctx.query,
                query_vector=query_vector,
                vec_weight=vec_weight,
                paragraph_ids=list(paragraph_vec.keys()),
                known_parent_bm25=known_parent_bm25,
                bm25_recall_limit=recall_top_n,
                embedding_field=embedding_field,
            )

            merged_ids = set(fulltext_mix.keys()) | set(semantic_mix.keys())
            if not merged_ids:
                return self._format_output([])

            self._supplement_paragraph_vectors(
                ctx,
                paragraph_vec=paragraph_vec,
                paragraph_ids=list(merged_ids),
                query_vector=query_vector,
                embedding_field=embedding_field,
            )

            paragraph_mix: dict[str, float] = {}
            for pid in merged_ids:
                fulltext_score = fulltext_mix.get(pid)
                semantic_score = semantic_mix.get(pid)
                if fulltext_score is None and semantic_score is None:
                    raise ValueError(f"missing mix score for paragraph {pid}")
                if fulltext_score is None:
                    if semantic_score is None:
                        raise ValueError(f"missing semantic mix score for paragraph {pid}")
                    paragraph_mix[pid] = semantic_score
                elif semantic_score is None:
                    paragraph_mix[pid] = fulltext_score
                else:
                    paragraph_mix[pid] = max(fulltext_score, semantic_score)

            scored = self._merge_and_prerank(
                ctx,
                paragraph_mix=paragraph_mix,
                paragraph_vec=paragraph_vec,
                vec_weight=vec_weight,
            )
            if not scored:
                return self._format_output([])

            paragraph_ids = [item[0] for item in scored]
            paragraphs = self._fetch_chunks_by_ids(ctx, paragraph_ids)
            content_by_id: dict[str, str] = {}
            row_by_id: dict[str, dict[str, Any]] = {}
            for row in paragraphs:
                cid = row.get(ctx.chunk_id_column)
                content = row.get("content")
                if cid and isinstance(content, str):
                    content_by_id[cid] = content
                    row_by_id[cid] = row

            chunks: list[ScoredChunk] = []
            for cid, pre_rank_score in scored:
                content = content_by_id.get(cid)
                if content is None:
                    continue
                row = row_by_id.get(cid, {})
                doc_id = self._extract_doc_id(row)
                chunk_idx = self._extract_chunk_idx(row)
                chunks.append(
                    self._build_chunk(
                        chunk_id=cid,
                        content=content,
                        object_type=ctx.object_type,
                        ontology=ctx.ontology_name,
                        score=pre_rank_score,
                        doc_id=doc_id,
                        chunk_idx=chunk_idx,
                    )
                )

            filtered = self._filter_chunks(chunks, score_threshold=ctx.score_threshold)
            self._sort_chunks(filtered)
            return self._format_output(filtered[: ctx.recall_top_n])
        except Exception as exc:
            logger.error("hybrid pipeline failed: %s", exc)
            return self._format_error(exc)

    def _search_fulltext_sentences(
        self,
        ctx: SearchContext,
        *,
        query: str,
        chunk_type: str,
        limit: int,
        embedding_field: str,
    ) -> list[dict[str, Any]]:
        dsl = {
            "ontology": ctx.ontology_name,
            "apiName": ctx.object_type,
            "limit": limit,
            "select": [
                {"field": ctx.parent_id_column},
                {"field": embedding_field},
                {"field": "__SCORE", "orderBy": "desc"},
                {"field": ctx.type_column},
            ],
            "where": {
                "type": "and",
                "filter": [
                    {"type": "match_any", "field": ctx.fulltext_column, "value": query},
                    {"type": "eq", "field": ctx.type_column, "value": chunk_type},
                ],
            },
        }
        dsl["where"] = self._apply_metadata_filters(dsl["where"], ctx)
        return self._ontology_search(dsl=dsl)

    def _semantic_paragraph_vectors(
        self,
        ctx: SearchContext,
        *,
        query_vector: list[float],
        limit: int,
        embedding_field: str,
    ) -> dict[str, float]:
        # Ontology API orders by ann_distance(), but does not return the distance column.
        # We only use this call to get candidate chunkIds, then fetch embeddings by ids
        # and compute cosine similarity client-side.
        dsl = {
            "ontology": ctx.ontology_name,
            "apiName": ctx.object_type,
            "limit": limit,
            "select": [
                {"field": ctx.chunk_id_column},
                {"field": ctx.type_column},
            ],
            "where": {
                "type": "and",
                "filter": [
                    {"type": "contains", "field": ctx.semantic_column, "value": query_vector},
                    {"type": "eq", "field": ctx.type_column, "value": CHUNK_TYPE_CHUNK},
                ],
            },
        }
        dsl["where"] = self._apply_metadata_filters(dsl["where"], ctx)
        rows = self._ontology_search(dsl=dsl)

        chunk_ids: list[str] = []
        for row in rows or []:
            cid = row.get(ctx.chunk_id_column)
            if cid:
                chunk_ids.append(cid)

        if not chunk_ids:
            return {}

        embeddings = self._fetch_chunk_embeddings_by_ids(ctx, chunk_ids, embedding_field=embedding_field)
        paragraph_vec: dict[str, float] = {}
        for cid, embedding in embeddings.items():
            paragraph_vec[cid] = _cosine_similarity(query_vector, embedding)
        return paragraph_vec

    def _supplement_paragraph_vectors(
        self,
        ctx: SearchContext,
        *,
        paragraph_vec: dict[str, float],
        paragraph_ids: list[str],
        query_vector: list[float],
        embedding_field: str,
    ) -> None:
        missing_ids = [pid for pid in paragraph_ids if pid not in paragraph_vec]
        if not missing_ids:
            return

        embeddings = self._fetch_chunk_embeddings_by_ids(ctx, missing_ids, embedding_field=embedding_field)
        for pid, embedding in embeddings.items():
            paragraph_vec[pid] = _cosine_similarity(query_vector, embedding)

        missing_after = [pid for pid in missing_ids if pid not in paragraph_vec]
        if missing_after:
            raise ValueError(f"missing embeddings for paragraphs: {missing_after}")

    def _hybrid_fulltext_paragraph_mix(
        self,
        ctx: SearchContext,
        *,
        query_vector: list[float],
        vec_weight: float,
        rows: list[dict[str, Any]],
        embedding_field: str,
    ) -> tuple[dict[str, float], dict[str, float]]:
        paragraph_mix: dict[str, float] = {}
        # paragraph_id -> max sentence BM25 (used for semantic branch supplementation)
        known_parent_bm25: dict[str, float] = {}

        for row in rows:
            paragraph_id = row.get(ctx.parent_id_column)
            if not paragraph_id:
                continue
            if "__SCORE" not in row:
                raise ValueError(f"missing __SCORE in fulltext row: {row}")
            bm25 = self._normalize_score(row.get("__SCORE"))

            existing_bm25 = known_parent_bm25.get(paragraph_id)
            if existing_bm25 is None or bm25 > existing_bm25:
                known_parent_bm25[paragraph_id] = bm25

            embedding = _parse_embedding(row.get(embedding_field))
            if not embedding:
                continue

            norm_bm25 = _normalize_bm25(bm25)
            sent_vec = _cosine_similarity(query_vector, embedding)
            mix = vec_weight * sent_vec + (1.0 - vec_weight) * norm_bm25
            existing_mix = paragraph_mix.get(paragraph_id)
            if existing_mix is None or mix > existing_mix:
                paragraph_mix[paragraph_id] = mix

        return paragraph_mix, known_parent_bm25

    def _fetch_children_by_parent_ids(
        self,
        ctx: SearchContext,
        parent_ids: list[str],
        *,
        embedding_field: str,
    ) -> list[dict[str, Any]]:
        if not parent_ids:
            return []
        dsl = {
            "ontology": ctx.ontology_name,
            "apiName": ctx.object_type,
            "select": [
                {"field": ctx.parent_id_column},
                {"field": embedding_field},
                {"field": ctx.type_column},
            ],
            "where": {
                "type": "and",
                "filter": [
                    {"type": "in", "field": ctx.parent_id_column, "value": parent_ids},
                    {
                        "type": "in",
                        "field": ctx.type_column,
                        "value": [CHUNK_TYPE_SENTENCE, CHUNK_TYPE_CUSTOM_SENTENCE],
                    },
                ],
            },
        }
        dsl["where"] = self._apply_metadata_filters(dsl["where"], ctx)
        return self._ontology_search(dsl=dsl)

    def _fetch_chunk_embeddings_by_ids(
        self,
        ctx: SearchContext,
        chunk_ids: list[str],
        *,
        embedding_field: str,
    ) -> dict[str, list[float]]:
        if not chunk_ids:
            return {}

        dsl = {
            "ontology": ctx.ontology_name,
            "apiName": ctx.object_type,
            "limit": len(chunk_ids),
            "select": [
                {"field": ctx.chunk_id_column},
                {"field": embedding_field},
                {"field": ctx.type_column},
            ],
            "where": {
                "type": "and",
                "filter": [
                    {"type": "eq", "field": ctx.type_column, "value": CHUNK_TYPE_CHUNK},
                    {"type": "in", "field": ctx.chunk_id_column, "value": chunk_ids},
                ],
            },
        }
        dsl["where"] = self._apply_metadata_filters(dsl["where"], ctx)
        rows = self._ontology_search(dsl=dsl)

        embeddings: dict[str, list[float]] = {}
        for row in rows or []:
            cid = row.get(ctx.chunk_id_column)
            if not cid:
                continue
            embedding = _parse_embedding(row.get(embedding_field))
            if not embedding:
                raise ValueError(f"missing embedding for chunk: {row}")
            embeddings[cid] = embedding

        return embeddings

    def _calculate_sentence_bm25_batch(
        self,
        ctx: SearchContext,
        *,
        query: str,
        parent_ids: set[str],
        limit: int,
    ) -> dict[str, float]:
        if not parent_ids:
            return {}

        # Query sentence hits by BM25, then filter client-side by parentId.
        dsl = {
            "ontology": ctx.ontology_name,
            "apiName": ctx.object_type,
            "limit": limit,
            "select": [
                {"field": ctx.parent_id_column},
                {"field": "__SCORE", "orderBy": "desc"},
                {"field": ctx.type_column},
            ],
            "where": {
                "type": "and",
                "filter": [
                    {"type": "match_any", "field": ctx.fulltext_column, "value": query},
                    {
                        "type": "in",
                        "field": ctx.type_column,
                        "value": [CHUNK_TYPE_SENTENCE, CHUNK_TYPE_CUSTOM_SENTENCE],
                    },
                ],
            },
        }
        dsl["where"] = self._apply_metadata_filters(dsl["where"], ctx)
        rows = self._ontology_search(dsl=dsl)

        # parent_id -> max bm25 among matched sentences
        result: dict[str, float] = {}
        for row in rows or []:
            pid = row.get(ctx.parent_id_column)
            if not pid or pid not in parent_ids:
                continue
            if "__SCORE" not in row:
                raise ValueError(f"missing __SCORE in sentence bm25 row: {row}")
            bm25 = self._normalize_score(row.get("__SCORE"))
            existing_bm25 = result.get(pid)
            if existing_bm25 is None or bm25 > existing_bm25:
                result[pid] = bm25
        return result

    def _hybrid_semantic_paragraph_mix(
        self,
        ctx: SearchContext,
        *,
        query: str,
        query_vector: list[float],
        vec_weight: float,
        paragraph_ids: list[str],
        known_parent_bm25: dict[str, float],
        bm25_recall_limit: int,
        embedding_field: str,
    ) -> dict[str, float]:
        if not paragraph_ids:
            return {}

        children = self._fetch_children_by_parent_ids(ctx, paragraph_ids, embedding_field=embedding_field)
        if not children:
            return {}

        parent_ids_need_bm25: set[str] = set()
        for child in children:
            pid = child.get(ctx.parent_id_column)
            if not pid:
                continue
            if pid not in known_parent_bm25:
                parent_ids_need_bm25.add(pid)

        if parent_ids_need_bm25:
            supplement = self._calculate_sentence_bm25_batch(
                ctx,
                query=query,
                parent_ids=parent_ids_need_bm25,
                limit=bm25_recall_limit,
            )
            known_parent_bm25.update(supplement)

        paragraph_mix: dict[str, float] = {}
        for child in children:
            paragraph_id = child.get(ctx.parent_id_column)
            if not paragraph_id:
                continue
            embedding = _parse_embedding(child.get(embedding_field))
            if not embedding:
                continue

            bm25 = known_parent_bm25.get(paragraph_id)
            if bm25 is None:
                bm25 = 0.0
                logger.warning(
                    "missing bm25 for paragraph, fallback to 0 (no fulltext match for sentence/custom_sentence)",
                    extra={
                        "paragraph_id": paragraph_id,
                        "ontology": ctx.ontology_name,
                        "object_type": ctx.object_type,
                    },
                )
            norm_bm25 = _normalize_bm25(bm25)
            mix = vec_weight * _cosine_similarity(query_vector, embedding) + (1.0 - vec_weight) * norm_bm25
            existing_mix = paragraph_mix.get(paragraph_id)
            if existing_mix is None or mix > existing_mix:
                paragraph_mix[paragraph_id] = mix

        return paragraph_mix

    def _merge_and_prerank(
        self,
        ctx: SearchContext,
        *,
        paragraph_mix: dict[str, float],
        paragraph_vec: dict[str, float],
        vec_weight: float,
    ) -> list[tuple[str, float]]:
        top_k = int(ctx.recall_top_n)
        score_threshold = float(ctx.score_threshold)

        auto_passed: list[tuple[str, float]] = []
        others: list[tuple[str, float]] = []
        for pid, mix_score in paragraph_mix.items():
            if pid not in paragraph_vec:
                raise ValueError(f"missing vector score for paragraph {pid}")
            vec_score = paragraph_vec[pid]
            pre_rank = vec_weight * vec_score + (1.0 - vec_weight) * mix_score
            if pre_rank < score_threshold:
                continue
            if mix_score >= HYBRID_AUTO_PASS_THRESHOLD:
                auto_passed.append((pid, pre_rank))
            else:
                others.append((pid, pre_rank))

        auto_passed.sort(key=lambda item: item[1], reverse=True)
        others.sort(key=lambda item: item[1], reverse=True)

        merged = auto_passed + others
        return merged[:top_k]

    def _fetch_chunks_by_ids(self, ctx: SearchContext, chunk_ids: list[str]) -> list[dict[str, Any]]:
        if not chunk_ids:
            return []
        dsl = {
            "ontology": ctx.ontology_name,
            "apiName": ctx.object_type,
            "limit": len(chunk_ids),
            "select": [
                {"field": "content"},
                {"field": ctx.chunk_id_column},
                {"field": ctx.type_column},
                {"field": "docId"},
                {"field": "chunkIdx"},
            ],
            "where": {
                "type": "and",
                "filter": [
                    {"type": "eq", "field": ctx.type_column, "value": CHUNK_TYPE_CHUNK},
                    {"type": "in", "field": ctx.chunk_id_column, "value": chunk_ids},
                ],
            },
        }
        dsl["where"] = self._apply_metadata_filters(dsl["where"], ctx)
        return self._ontology_search(dsl=dsl)


class Reranker:
    def __init__(self) -> None:
        self.rerank_service = create_rerank_service(
            "bce-reranker-base"
        )

    def rerank(self, query: str, chunks: list[str], top_k: int):
        response = self.rerank_service.rerank(query, chunks, top_k)
        results = builtins.getattr(response, "results", None)
        if isinstance(results, list):
            response.results = results[:top_k]
        return response

    def sort(self, chunks: list[dict[str, Any]], results: list[Any]) -> list[dict[str, Any]]:
        return self.rerank_service.sort(chunks, results)


class Retriever:
    def __init__(self) -> None:
        self.ontology_service = create_ontology_service()
        self.embedding_service = create_embedding_service(
            DEFAULT_EMBEDDING_MODEL
        )
        self.fulltext_pipeline = FulltextPipeline(self.ontology_service)
        self.semantic_pipeline = SemanticPipeline(self.ontology_service, self.embedding_service)
        self.hybrid_pipeline = HybridPipeline(self.ontology_service, self.embedding_service)

    def _ontology_search(self, *, dsl: dict[str, Any]) -> list[dict[str, Any]]:
        response = self.ontology_service.search(dsl=dsl)
        try:
            return BasePipeline._response_rows(response)
        except Exception as exc:
            raise RuntimeError(f"ontology search failed: {exc}. dsl={dsl}") from exc

    def _fetch_chunk_metadata_by_ids(
        self,
        ctx: SearchContext,
        chunk_ids: list[str],
    ) -> dict[str, tuple[str | None, int | None]]:
        if not chunk_ids:
            return {}
        dsl = {
            "ontology": ctx.ontology_name,
            "apiName": ctx.object_type,
            "limit": len(chunk_ids),
            "select": [
                {"field": ctx.chunk_id_column},
                {"field": "docId"},
                {"field": "chunkIdx"},
                {"field": ctx.type_column},
            ],
            "where": {
                "type": "and",
                "filter": [
                    {"type": "eq", "field": ctx.type_column, "value": CHUNK_TYPE_CHUNK},
                    {"type": "in", "field": ctx.chunk_id_column, "value": chunk_ids},
                ],
            },
        }
        dsl["where"] = BasePipeline._apply_metadata_filters(dsl["where"], ctx)
        rows = self._ontology_search(dsl=dsl)

        metadata: dict[str, tuple[str | None, int | None]] = {}
        for row in rows or []:
            chunk_id = row.get(ctx.chunk_id_column)
            if not chunk_id:
                continue
            metadata[str(chunk_id)] = (
                BasePipeline._extract_doc_id(row),
                BasePipeline._extract_chunk_idx(row),
            )
        return metadata

    def _fetch_chunks_by_doc_and_idx(
        self,
        ctx: SearchContext,
        *,
        doc_id: str,
        chunk_indexes: list[int],
    ) -> list[dict[str, Any]]:
        if not chunk_indexes:
            return []
        dsl = {
            "ontology": ctx.ontology_name,
            "apiName": ctx.object_type,
            "limit": len(chunk_indexes),
            "select": [
                {"field": "content"},
                {"field": ctx.chunk_id_column},
                {"field": "docId"},
                {"field": "chunkIdx"},
                {"field": ctx.type_column},
            ],
            "where": {
                "type": "and",
                "filter": [
                    {"type": "eq", "field": ctx.type_column, "value": CHUNK_TYPE_CHUNK},
                    {"type": "eq", "field": "docId", "value": doc_id},
                    {"type": "in", "field": "chunkIdx", "value": chunk_indexes},
                ],
            },
        }
        dsl["where"] = BasePipeline._apply_metadata_filters(dsl["where"], ctx)
        return self._ontology_search(dsl=dsl)

    def retrieve(self, *, context: SearchContext) -> dict[str, Any]:
        recall_type = context.recall_type

        if recall_type == "fulltext":
            return self.fulltext_pipeline.run(context)
        if recall_type == "semantic":
            return self.semantic_pipeline.run(context)
        if recall_type == "hybrid":
            return self.hybrid_pipeline.run(context)

        raise ValueError(f"unsupported recall type: {recall_type}")

    def expand_chunks_after_rerank(
        self,
        ctx: SearchContext,
        chunks: list[dict[str, Any]],
        *,
        window_size: int,
    ) -> list[dict[str, Any]]:
        if not chunks or window_size <= 0:
            return chunks

        chunk_ids = [str(chunk_id) for chunk in chunks if (chunk_id := chunk.get("chunk_id"))]
        metadata = self._fetch_chunk_metadata_by_ids(ctx, chunk_ids)

        doc_to_indexes: dict[str, set[int]] = defaultdict(set)
        for chunk in chunks:
            chunk_id = chunk.get("chunk_id")
            if not chunk_id:
                logger.warning("chunk missing chunk_id for expansion")
                continue
            doc_id, chunk_idx = metadata.get(str(chunk_id), (None, None))
            if not doc_id or chunk_idx is None or chunk_idx < 0:
                logger.warning(
                    "chunk missing docId/chunkIdx for expansion",
                    extra={"chunk_id": chunk_id},
                )
                continue
            start = max(0, chunk_idx - window_size)
            end = chunk_idx + window_size
            doc_to_indexes[str(doc_id)].update(range(start, end + 1))

        expanded = list(chunks)
        for doc_id, idxs in doc_to_indexes.items():
            rows = self._fetch_chunks_by_doc_and_idx(ctx, doc_id=doc_id, chunk_indexes=sorted(idxs))
            for row in rows or []:
                chunk_id = row.get(ctx.chunk_id_column)
                content = row.get("content")
                if not chunk_id or content is None:
                    continue
                expanded.append(
                    {
                        "chunk_id": chunk_id,
                        "content": content,
                        "object_type": ctx.object_type,
                        "ontology": ctx.ontology_name,
                    }
                )
                metadata[str(chunk_id)] = (
                    BasePipeline._extract_doc_id(row),
                    BasePipeline._extract_chunk_idx(row),
                )

        seen: set[str] = set()
        deduped: list[dict[str, Any]] = []
        for chunk in expanded:
            chunk_id = chunk.get("chunk_id")
            if not chunk_id:
                logger.warning("chunk missing chunk_id for expansion", extra={"chunk": chunk})
                deduped.append(chunk)
                continue
            chunk_id_str = str(chunk_id)
            if chunk_id_str in seen:
                continue
            seen.add(chunk_id_str)
            deduped.append(chunk)

        def sort_key(item: dict[str, Any]) -> tuple[int, str, int]:
            chunk_id = item.get("chunk_id")
            doc_id, chunk_idx = metadata.get(str(chunk_id), (None, None))
            if not doc_id or chunk_idx is None or chunk_idx < 0:
                logger.warning(
                    "chunk missing docId/chunkIdx for ordering",
                    extra={"chunk_id": chunk_id},
                )
                return (1, "", 0)
            return (0, str(doc_id), int(chunk_idx))

        deduped.sort(key=sort_key)
        return deduped
            

评价此篇文章

有帮助没帮助

预置Data Search设计

依赖服务使用指南

百度智能云

百度胜算

百度胜算

预置Data Search实现

主流程代码

方法实现