版权声明移除
更新时间:2026-05-18
版权声明移除
简介
版权声明移除算子,从文本中识别并移除版权声明(Copyright、©、All Rights Reserved 等),用于清洗训练数据中的版权信息。
功能描述
- 识别并移除常见的版权声明模式(英文 Copyright、中文版权声明等)
- 支持多行版权声明的识别与清除
- 空文本或 None 返回 None
算子参数
输入
| 输入 | 含义 |
|---|---|
| texts | 文本字符串数组 |
输出
| 输出 | 含义 |
|---|---|
| cleaned_text | 移除版权声明后的文本(large_string),空文本返回 None |
参数
无
调用示例
Plain Text
1from __future__ import annotations
2
3import os
4
5import daft
6from daft import col
7
8from daft.aihc.common.udf import aihc_udf
9from daft.aihc.functions.text.copyright_cleaner import CopyrightCleaner
10
11if __name__ == "__main__":
12 if os.getenv("DAFT_RUNNER", "native") == "ray":
13 import ray
14 ray.init(dashboard_host="0.0.0.0", ignore_reinit_error=True)
15 daft.set_runner_ray()
16 daft.set_execution_config(actor_udf_ready_timeout=6000, min_cpu_per_task=0)
17
18 samples = {
19 "text": [
20 "Some article content.\nCopyright © 2024 Example Corp. All Rights Reserved.",
21 "Normal text without copyright.",
22 "版权所有 © 2023 某公司\n文章内容在这里。",
23 ]
24 }
25 ds = daft.from_pydict(samples)
26 ds = ds.with_column(
27 "cleaned_text",
28 aihc_udf(
29 CopyrightCleaner,
30 num_cpus=1,
31 concurrency=4,
32 batch_size=1024,
33 )(col("text")),
34 )
35 ds.show()
评价此篇文章
