数据众包服务

Data Crowdsourcing Service

一站式的数据众包服务,提供人工采集、自动化采集、数据标注加工的整套服务,可支持文本、图像、音频、视频、网页等多元化数据类型。

产品概述

数据众包服务使用低成本高效率的众包模式满足客户对数据的需求,可采集到大量的原始数据,通过数据标注对原始数据进行加工,最终提供计算机可以识别的高质量数据,帮助数据科学家更精准地训练算法模型、开展机器学习工作,提高在AI领域的竞争力。

产品优势

专业的众包平台(支持定制化开发)

强大的平台功能和多样化基础工具保障了用户数据需求的速度和质量,另可为用户量身定制特殊的采集、标注工具。

数量庞大的高质量采集、标注人员

众包模式具有强大人力优势,平台每天有超过5000名采集、标注人员在线,更有超过100名专家满足用户所有场景和数据量的需求。


专业项目人员策划方案、实时跟进

需求接洽、方案设计、众包执行、质量保障、结果验收,全流程均有专业项目人员跟进,为用户提供更加全面和优质的服务。

多重审核机制保障数据高质量

众包平台设置多道数据质保屏障,通过多人拟合、答案先验、后验等机制进行数据质量的验证和调优。


使用场景

定制化数据众包平台,支持文本、图像、音频、视频、网页等多元化数据类型的采集、标注,提供更快速、更低价的高质量数据服务。

采集:

支持对指定的文本数据源进行定制化采集,如:采集指定地铁广告语、公交站台广告内容、指定年份期刊/杂志/报纸内容等。

标注:

支持对文本进行客观、主观、有倾向性的标注、清洗,如:本文内容实体属性归类、垃圾数据识别、负面评价内容识别等海量数据的处理。因此非常适用于舆情监控、评价分类的相关数据处理。

提取:

支持对文本中的关键词、名词实体、特定类型文字等文本片段进行提取,甚至是撰写新的文本(如网页摘要)。适用于自然语言处理的样本数据生成,电商、搜索等数据处理。

校验:

可处理中英文文本校验、纠正,特别针对中文这种语法多变、词义复杂的语种,可定制化多种类型校验,如:句子分词词性标注,中文拼音校验等。适用于自然语言机器学习、机器翻译等数据处理。

采集:

支持特定人群人脸图片采集、药盒图片采集、医疗单图片采集、街道全景采集、名片采集、商铺多角度照片采集等。

筛选:

支持图片分类处理、有效图片筛选、图片标签标注等图片批量处理。如:动漫图片筛选、淫秽图片筛选、服饰图片样式标记、菜品图片口味判断等。适用于电商平台开发方、图片机器学习机构等进行准确高效的数据处理。

内容提取:

支持图片中的区域框选标注,标注形式包括:矩形框、矩形框带文本、多分类矩形框、多边形、多分类多边形等,具体实践如人脸标注、交通元素标注、车道线标注、OCR文字标注等。

采集:

支持语音采集类型包括各地方言、多国外语、男/女/童声、多种录音环境等。语音内容可为单词、短句、诗词、短文等。支持视频采集类型包括指定人物、操作的视频,指定环境的视频,甚至是航拍。

清洗:

支持对各种语音预料、视频内容进行特定条件筛选、清洗,用以筛选不符合要求的多媒体文件,或者用以为多媒体文件分类。适用场景有:语音与文本匹配筛选、语音清晰度筛选、语言种类筛选、音乐类型鉴别、视频质量筛选、视频内容与描述一致性筛选等。

文本化:

支持语音、视频内容文本化处理。语音可支持的处理类型有:短句转文本、方言转普通话文本、长语音分段截取文本等。视频可支持:规定内容撰写、视频关键帧截取等处理。

网页采集:

通过多地域的自动化采集终端,可大流量高并发的采集海量原始网页数据,另外可以指定地域来定制采集网页数据。

对比:

支持对搜索引擎query搜索结果对比标注、网页展示对比选择等网页相关或者搜索query相关的处理。适合搜索引擎开发方、海量网页监控机构等做网页相关数据处理。

清洗:

可处理的类型包括搜索结果相关性判断、网页内容与query匹配度判断、网页广告体验评价等。

采集:

支持O2O商家店铺信息采集、商场信息采集(包含商铺)、020店铺信息清洗校正(商铺运营情况、位置、电话、店铺实景图等)、公共场所WiFi信息采集等。适合于O2O服务平台处理庞大的数据,保证服务数据的有效性。

POI及AOI挂接:

支持基于地理位置的位置点(POI)及位置区域(AOI)的挂接标注,类型包括:根据提供地址名称及信息进行位置挂接获取经纬度信息、根据兴趣点坐标及地址名称进行有效区域的标注。