logo
10

【AI辅助打标】使用千帆平台进行企业级打标模型训练

1.1背景
随着信息技术的飞速发展,人工智能已经成为了当今社会的热门话题。在党和国家的政策推动下,人工智能技术的研究和应用在我国得到了广泛的关注和重视。为了进一步推动人工智能技术的发展,我们计划开发一个生成式人工智能模型,以实现让打标人员减负,让数据质量更高的目标。
我们相信人工智能技术将成为未来社会发展的重要引擎。因此,开发生成式人工智能模型是满足社会和经济发展的需求。通过深入研究和探索人工智能技术的应用场景和方法,不断推动人工智能技术的发展和应用,为我国的社会经济发展和人民生活质量的提高做出贡献。而现如今人工智能最出色的便是大模型。
大模型是“大算力+强算法”相结合的产物,是人工智能的发展趋势和未来。目前,大规模的生态已初具规模。其可以实现从“手工作坊”到“工厂模式”的AI转型。大模型通常在大规模无标记数据上进行训练,以学习某种特征和规则。基于大模型开发应用时,可以对大模型进行微调,或者不进行微调,就可以完成多个应用场景的任务;更重要的是,大模型具有自监督学习能力,不需要或很少需要人工标注数据进行训练,降低训练成本,从而可以加快AI产业化进程,降低AI应用门槛。
与传统机器学习相比,深度学习是从数据中学习,而大模型则是通过使用大量的模型来训练数据。深度学习可以处理任何类型的数据,例如图片、文本等等;但是这些数据很难用机器完成。大模型可以训练更多类别、多个级别的模型,因此可以处理更广泛的类型。另外:在使用大模型时,可能需要一个更全面或复杂的数学和数值计算的支持。深度学习算法不需要像大模型那样训练大量数量的模型来学习特征之间的联系。深度学习算法是基于神经元的,而大模型是利用大量参数训练神经网络。本文从大模型与深度学习方面入手,解决大模型是否是深度学习的未来的问题。
而微调大模型就很难不对大量数据进行标注,而标注数据的同时数据清洗又是必不可少的一环。数据清洗是对业务数据中不符合标准规范或者无效的数据进行相关操作。在进行数据整合之前先定义数据的清洗规则,并对符合清洗规则的数据设置数据的错误级别。当进行数据整合过程中遇到符合清洗规则的数据时,系统将把这些业务数据置为问题数据,并根据错误的严重程度进行归类。对出现的问题数据进行标记后存入问题数据库中,经确认后再决定是通过清洗转换后入库,还是直接放弃,抑或其他方式处理。对于清洗前后的数据还需进行一致性检查,以保证清洗结果集的质量。
使用模型进行数据清洗可以达到省去人力成本和时间成本的目的,为项目降本增效。同时模型可以将大模型标注数据原本脏数据生成质量更优的数据,模型对数据进行评分又能更好的对质量极低的数据进行剔除。同时模型还能对数据进行分类,达到比人工主观判断更好的效果。
1.1发展形势
1.2.1国内趋势
2022年我国数据产量已达8.1ZB,同比增长22.7%,全球占比10.5%,位居世界第二,数据已成为我国重要的资源禀赋优势。与此同时,我国数据要素市场化配置进程加速,政策加持国内 AI 产业发展,市场对高质量数据标注需求激增。根据艾瑞咨询、华经产业研究院数据,2021年我国数据标注市场规模为43至44亿元,2025年有望突破百亿元。此外,数据标注是劳动力资源密集省市政府解决就业难的抓手,多个省市纷纷出台政策支持数据标注产业发展或建立数据标注产业园,如山西省出台了《山西省数据标注产业发展规划(2019-2025 年)》、《山西省加快数据标注产业发展的实施意见》、《山西人工智能基础数据产业专项资金管理办法》等,山西、河南、四川、贵州等省已形成了众多数据标注小镇,全国范围来看,集数据采集、存储、标注、服务等于一体的AI基础数据相关产业持续壮大,进入高速发展期。
1.2.2整体趋势
人工智能的巨大突破对社会发展产生了重大的影响,尤其是在以ChatGPT为首的AI大模型诞生后,使AI技术得以更普遍地下沉到更多的应用场景,众行业因此迎来了全新的变革。
以ChatGPT为代表的大模型成功实现商业化落地,并引发了业界震动。人工智能也正在从感知理解走向生成创造,这是一个关键里程碑。大模型已成为发展趋势,推动AI迈向通用人工智能。
艾瑞咨询发布的研究报告显示,2022年中国人工智能产业规模达1958亿元,年增长率7.8%,整体平稳向好。目前中国大型企业基本都已在持续规划投入实施人工智能项目,未来随着中小型企业的普遍尝试和大型企业的稳健部署,在AI成为数字经济时代核心生产力的背景下,AI芯片、自动驾驶及车联网视觉解决方案、智能机器人、智能制造、决策智能应用等细分领域增长强劲。2027年人工智能产业整体规模可达6122亿元,2022~2027年的相关CAGR为25.6%。
具体来看,AI应用已经开始落地医疗、工业、办公、金融等领域,其中金融行业因数据丰富成为AI大模型率先落地的垂直领域之一。除此之外,AI技术下游应用领域广泛,包括电力、游戏、电商等。多元应用领域中,各色AI应用正在崛起,有愈来愈多的应用厂商积极拥抱AI。
以ChatGPT为代表的大模型成功实现商业化落地,并引发了业界震动。人工智能也正在从感知理解走向生成创造,这是一个关键里程碑。这一跨越让人工智能融入到我们的生活,改变信息入口;融入到我们的工作,改变创作方式;融入到生产系统,改变商业逻辑,也为我们创造出了无限的想象空间。
数据标注市场有两类参与者,一类是专业的第三方数据标注公司,如Testin云测、澳鹏appen、海天瑞声、数据堂、龙猫数据、曼孚科技等;一类是AI科技公司内部的标注部门。两类数据标注力量都在壮大,第二类发展更快,越来越多的AI头部企业自建标注工具平台和标注基地,如百度在山西建立人工智能基础数据产业基地、推出数据标注开放平台,京东在山东设立京东众智大数据标注助残基地、推出 Wise 开放标注平台,字节跳动在全国设立了六个标注基地。这些AI头部企业资本雄厚、数据需求旺盛、技术实力强,后发优势显著,百度、京东已进入数据标注市场第一阵营。
人工智能基础数据表
1.2.3行业支持
所谓大模型,是指通过训练,从大量标记和未标记的数据中捕获知识,并将其存储到大量的参数中,以实现对各种任务进行高效处理的技术架构。一般来说,参数越多,模型越大;ChatGPT作为大模型应用的代表,其参数已经达到了千亿级别。
华为在2018年发起了昇腾AI计算产业,昇腾AI得到了快速蓬勃发展。据张迪煊介绍,“昇腾AI”基础软硬件平台已孵化和适配了30多个主流大模型,我国一半以上的原生大模型是基于“昇腾AI”基础软硬件平台打造。
据悉,目前鹏城云脑、“紫东太初”大模型等均是基于昇腾生态打造。中国工程院院士、鹏城实验室主任高文表示,今年下半年将启动鹏城云脑III的建设,原型机将在2023年建成,鹏城云脑III预计2025年年底前建成。鹏城云脑III将是面向6G超宽带通信的云网合一智能化工具平台,提供预训练大模型底座。
行业内打标竞品优势表
1.3现状与问题
1.3.1打标现状
ChatGPT,这一人工智能聊天机器人在发布后迅速获得了百万用户。然而,其背后的一群为OpenAI工作的外包数据标注员在训练ChatGPT的过程中遭受了非人的精神折磨。
这些标注员通常是一个被边缘化和遗忘的群体,但他们在训练人工智能模型方面扮演着至关重要的角色。为了满足ChatGPT的需求,OpenAI雇佣了大量时薪不到2美元的外包肯尼亚劳工,他们负责数据标注、打标签、分类、调整和处理等工作。
在训练类似ChatGPT这样的语言模型时,如果没有人工标注来筛选不恰当的内容,这些模型不仅会提供错误的信息,还可能对用户造成心理不适。因此,数据标注是构建AI模型数据准备和预处理工作中不可或缺的一部分。
此外,类似ChatGPT这样的预训练模型在训练过程中需要大量的数据样本,因此数据标注的需求也较高。这些外包标注员的工作不仅对ChatGPT的发展起到了关键作用,也为其他人工智能应用的开发提供了宝贵的数据资源。
1.3.2面临问题
场对数据采集标注的要求较低,准入门槛低,行业内云集了大量中小规模的服务商和灵活就业/兼职个人,数据标注领头企业主要采用转包、众包模式提供服务,行业存在标注效率低下、数据质量参差不齐、高技能人才不足、全程数据安全合规风险高等问题。
一是标注效率低下、数据质量参差不齐。当前数据标注高度依赖人力,十分枯燥、耗费眼力体力,很多中小供应商缺少AI辅助标注、AI质检能力,标注师个人能力素质直接影响标注效率和数据质量,形成行业生产效率低下、数据质量不均衡的局面。
二是高技能产业人才缺乏。从任务需求来看,以较为复杂的语音标注、计算机视觉标注为主,医疗医药、法律、金融、电力等专业数据集标注生产,还对标注师的学科知识储备有一定要求。从人才培养来说,人工智能训练师新型岗位培养、专业设立并没有受到社会重视,市场上缺乏经过系统性训练的高技能人才。
三是全程数据安全合规风险高。根据中国信通院报告,80%的安全风险发生在数据流通环节。从行业现状来看,数据标注的链条较长,包括采集、标注、存储、传输等环节,转包模式下信息链条更长,黄赌毒/暴力信息过滤、隐私保护、数据不当使用等都是标注和审核企业面临的难题。
国内缺乏高质量数据集原因
1.4建设必要性
1、大模型是发展趋势,打标业务势必成为行业新型产业。
大模型是人工智能领域的发展趋势,而数据标注业务则有望成为行业的新型产业。随着人工智能技术的不断发展和应用场景的不断扩大,对高质量数据的需求也在不断增加。在这个背景下,数据标注业务的重要性逐渐凸显出来,成为行业中的新兴产业。
大模型需要大量的数据进行训练和优化,而数据标注业务则是为大模型提供高质量数据的重要途径。通过数据标注,可以将大量的原始数据转化为可供大模型训练和优化的数据。在这个过程中,需要对数据进行清洗、分类、标注、审核等操作,这些操作需要专业的技术和工具,同时也需要大量的劳动力。因此,数据标注业务成为了大模型发展的重要支撑。
随着人工智能应用场景的不断扩大,数据标注业务的需求也在不断增加。例如,在智能驾驶领域,需要对道路、车辆、行人等元素进行标注,以确保自动驾驶系统的安全性和准确性;在医疗领域,需要对医学图像、病例报告等进行标注,以确保人工智能辅助诊断的准确性和可靠性。因此,数据标注业务成为了人工智能应用中的重要环节。
数据标注业务也需要不断更新和升级。例如,随着自然语言处理技术的进步,数据标注的业务范围也需要不断扩展,包括对文本、语音等数据的标注和处理。同时,数据标注的准确性和效率也需要不断提高,以满足人工智能应用的需求。
2、标注企业成本的降低代表着员工福利的提高。
标注企业成本的降低意味着企业可以更好地控制其运营成本,从而提高盈利能力和经营效益。这可以为员工福利提供更多的资金支持,从而提高员工的福利待遇和工作环境。
企业成本的降低可以带来更高的利润率,这可以为标注企业提供更多的资金来改善员工福利。此外,标注企业成本的降低还可能带来更高的市场竞争力。如果一个标注企业可以通过降低成本来提高其产品的价格竞争力,那么这不仅可以吸引更多的客户和市场份额,也可以为员工的福利待遇提供更好的保障。
标注企业成本的降低也可以带来更好的管理效益。如果一个标注企业可以通过降低成本来提高其管理效率和效益,那么这不仅可以提高企业的经营效率和生产力,也可以为员工的福利待遇提供更多的保障。
3、模型数据清洗为新竞争力,助推行业从劳动密集转向技术密集。
从全球范围来看,美国由于人力成本较高,较早使用机器替代人力,谷歌、微软等互联网巨头都推出了自动标注系统,Playment和Scale AI合作,为全球高分辨率 LiDAR传感器制造商 Data 联合开发了高级深度学习标注工具。在中国,用工管理日趋规范以及标注需求量的激增,纯人工标注在效率和成本上的优势将很快消失,使用AI赋能的自动标注能力与相关工具来提升效率和质量,将逐渐成为数据标注企业提高市场竞争力、降本增效的利器。AI辅助标注、自动标注不仅提升了数据的产出效率,同时也在标注模型工具的迭代中打造出了完善的 AI 基础设施,从而助推行业向技术密集转型。
1.5建设目标
以基于千帆平台的Llama2为底座训练数据清洗模型来达到提高数据质量和准确性,提高数据处理效率,实现数据标准化和规范化,脏乱数据重新生成,提高数据内容质量分类效率,实现数据内容自动判断好坏的目标。
1.6产品说明
Llama2的第一种应用场景是对打标数据进行清洗。在许多行业中,为了训练人工智能模型,需要大量的标注数据。然而,标注数据是一项非常昂贵且耗时的任务,因此,提高打标数据集的质量标准对于企业来说至关重要。
通过使用Llama2,企业可以对打标数据进行自动清洗,从而提高数据集的质量标准。具体而言,Llama2可以通过以下方式对打标数据进行清洗:
格式清洗:Llama2可以对爬取的数据进行格式清洗,将爬取的数据生成统一格式的Json。
数据评分:Llama2可以对自然语言文本进行处理,例如分词、词性标注、命名实体识别等。这些功能可以帮助企业对数据进行准确的标注和清洗。
数据筛选:Llama2可以通过对数据的分析,筛选出高质量的数据,从而避免人工筛选的繁琐过程。例如,在语音识别任务中,Llama2可以将清晰、准确的语音数据筛选出来,从而提高模型的准确性。
数据补全:当数据存在缺失或异常时,Llama2可以通过预测和补全技术,对数据进行修复。例如,在表格数据中,如果某个单元格为空,Llama2可以通过上下文信息,对该单元格进行预测和补全。
1.7应用场景
大模型的种类繁多,涉及标注的数据也来自各行各业,下面举例Llama2清洗模型可以在哪些场景中起到效果。
政务类模型项目通常涉及到大量的文本数据,例如政策文件、新闻报道、社交媒体评论等。Llama2可以对这些文本数据进行清洗和预处理,例如去除停用词、分词、词性标注等,从而提高数据的质量和准确性。
在金融类模型项目中,Llama2数据清洗模型的应用场景也非常广泛。金融行业是数据处理和分析的重要领域,需要大量的清洗后的数据来支持决策和风险管理。
医疗行业是数据处理和分析的重要领域,需要大量的数据来支持疾病诊断、治疗建议和资源管理等方面的工作。而普通的模型格式不一致,内容繁杂通过Llama2数据清洗模型可以让数据质量提高。
1.8经济与社会效益
数据未来增长预测
在人工智能时代,标注数据已经成为一个大模型好坏的关键,数据的数量和质量直接影响到模型的可用性。然而,在实际应用中,由于数据来源的复杂性、多样性以及数据采集和处理过程中可能存在的各种问题,往往会导致数据存在各种缺陷和错误,例如数据不准确、不一致、缺失、冗余等。这些问题的存在不仅会影响到模型回答效果,还会对用户造成误导。因此,为了提高数据的质量和使用价值,企业需要进行数据清洗。
数据清洗是指对数据进行预处理和清洗,去除其中的缺陷和错误,提高数据质量和可信度,使其符合特定的规范和标准,以便更好地支持业务决策和分析。数据清洗模型是数据清洗的一种重要手段,它通过一系列的数据清洗技术和方法,实现对数据的清洗和规范化处理。
1.8.1经济效益
数据清洗模型的经济效益是显而易见的。首先,通过数据清洗,企业可以提高数据的质量和可信度,从而更准确地制定决策,提高客户群,增加销售量并提升品牌忠诚度。这可以带来直接的经济效益。其次,数据清洗还可以提高企业的生产效率和降低成本。通过对数据的清洗和规范化处理,企业可以更好地管理和优化业务流程,减少资源浪费和成本开支。最后,数据清洗还可以帮助企业更好地遵守相关法规和规定,例如数据保护法规和环保法规等,这可以避免企业的违规行为和法律风险,保障企业的合法经营和发展。
1.8.2社会效益
数据清洗模型还具有积极的社会效益。首先,数据清洗可以促进社会公平和透明度。通过对数据的清洗和规范化处理,企业可以更好地保护个人隐私和权益,避免数据滥用和不当使用,从而维护社会的公平和公正。其次,数据清洗有助于提高数据的使用效率和社会效益。通过对数据的清洗和整合,企业可以更好地实现数据的共享和利用,避免数据的冗余和浪费,从而更好地支持社会的创新和发展。
2.1.1数据流图
业务逻辑图
打标部分数据流图(部分)
整体数据流程是通过Python爬取数据,然后用Llama2将爬取后的数据生成可供大模型使用的Json格式{"input":"","output":""}的数据。生成的数据去筛选是否符合字数长度,是否被模型进行截断,再判断output是否是和input内容不符合,回答不完全。例如output是input生成的摘要,但是output中并未包含摘要任务所能截取出所有的关键字。接着再判断生成的output数据内容是否符合input提问,如果不符合则让模型重新生成。最后,再对每条模型的数据进行评分,通过各类模型不同的评分标准查看模型的output是否达到可用于训练模型的分数,如果分数太低则重新生成。将上述处理完的数据集再进行人工打标,数据的质量将会得到显著提升。
2.2千帆平台
2.2.1千帆平台介绍
百度智能云千帆大模型平台(以下简称千帆或千帆大模型平台)是面向企业开发者的一站式大模型开发及服务运行平台。千帆不仅提供了包括文心一言底层模型(ERNIE-Bot)和第三方开源大模型,还提供了各种AI开发工具和整套开发环境,方便客户轻松使用和开发大模型应用。
支持数据管理、自动化模型SFT以及推理服务云端部署的一站式大模型定制服务,助力各行业的生成式AI应用需求落地。
2.2.2千帆平台使用步骤
2.2.2.1数据集上传
首先访问https://console.bce.baidu.com/qianfan/data千帆平台控制面板
点击数据集管理
点击创建数据集
选择文本对话,创建并导入
选择有标注信息,点击上传jsonl文件,并点击确定,数据集我们这里使用huggingface上悟道开源的打标数据集。
导入完毕后点击详情即可看到数据内容
2.2.2.2模型训练
点击SFT,选择创建训练任务
选择Llama-2-7B,迭代选择10,批处理选择2
点击确定
SFT结束后,就能看到我们训练后的模型了
2.2.2.3创建服务
当模型训练完后,我们想使用自己的模型,我们可以选择模型服务来创建服务
然后我们就可以根据API来进行模型的使用了。
3.1千帆优势
基础强大、知识丰富
千帆大模型平台基于百度智能云,采用飞桨深度学习框架作为底层支撑,并内置大模型技术。用户通过少量数据调整,可轻松获得高精度和高性能的大模型。
流程完善、发布便捷
提供一站式服务,涵盖数据集管理、模型训练、服务发布与监管。通过可视化界面实现模型全生命周期管理,简化从数据到服务的大模型实施过程,易于上手与理解。
运行稳定、共建生态
千帆大模型平台具备完整技术栈、长期稳定的模型开发引擎以及卓越性能。平台低技术门槛,适合各行各业接入,助力完成行业大模型的开发建设。
安全可靠、一键启用
千帆大模型平台提供文心一言企业级服务,结合百度智能云安全控制机制及文心底层内容安全功能,对推理内容进行审核与敏感词过滤,确保安全可信。
评论
用户头像