英文文本质量评分
更新时间:2026-06-15
简介
英文文本质量评分算子 - 基于FastText的文本质量评估
功能描述
- 质量评分**:使用FastText模型对英文文本质量进行评分,偏好于科学知识,只支持CPU环境。
- 批量处理**:支持批量处理文本,提高处理效率
- 0: 低质量 (Low)
- 1: 中等质量 (Mid)
- 2: 高质量 (High)
- 最终得分为0-2之间的浮点数,分数越高表示质量越好
- 一般来讲,分数超过0.5,则表示文本质量较好。
算子参数
输入
| 输入 | 含义 |
|---|---|
| texts | 包含待处理文本的列,元素类型为字符串。 |
输出
| 输出 | 含义 |
|---|---|
| result | pyarrow.Array: 包含文本质量分数的列,元素类型为float64。 |
参数
| 参数名称 | 类型 | 默认值 | 描述 |
|---|---|---|---|
| model_path | str | '/opt/aihc/models' | 模型文件所在的基础路径 默认值:"/opt/aihc/models" |
| model_name | str | 'llm-data-textbook-quality-fasttext-classifier-v2/model_quantized.bin' | 模型文件名 默认值:"llm-data-textbook-quality-fasttext-classifier-v2/model_quantized.bin" |
调用示例
Python
1from __future__ import annotations
2
3import os
4
5import daft
6from daft import col
7
8from daft.aihc.common.udf import aihc_udf
9from daft.aihc.functions.text.en_text_quality_scorer import EnTextQualityScorer
10
11if __name__ == "__main__":
12 if os.getenv("DAFT_RUNNER", "native") == "ray":
13 import ray
14 ray.init(dashboard_host="0.0.0.0", ignore_reinit_error=True)
15 daft.set_runner_ray()
16 daft.set_execution_config(actor_udf_ready_timeout=6000, min_cpu_per_task=0)
17
18 # TODO: 根据实际场景准备样本数据
19 samples = {"texts": [...]}
20 ds = daft.from_pydict(samples)
21 constructor_kwargs = {
22 "model_path": '/opt/aihc/models',
23 "model_name": 'llm-data-textbook-quality-fasttext-classifier-v2/model_quantized.bin',
24 }
25 ds = ds.with_column(
26 "result",
27 aihc_udf(
28 EnTextQualityScorer,
29 construct_args=constructor_kwargs,
30 num_cpus=1,
31 concurrency=4,
32 batch_size=8,
33 )(col("texts")),
34 )
35 ds.show()
评价此篇文章
