相关文章
中国AIGC数据标注全景报告:百亿市场规模,百万就业缺口
2024-11-10 17:44

量子位智库 发自 凹非寺量子位 | 公众号 QbitAI

中国AIGC数据标注全景报告:百亿市场规模,百万就业缺口

数据标注,正迎来关键洗牌时刻。

大模型时代到来,以数据为中心的AI开发模式加速走向台前,数据的价值从未向今天这样被充分挖掘——

大模型从训练到部署应用迭代,AIGC众多垂直场景落地,通用智能、具身智能等前沿领域探索,都与高质量、专业化的场景数据密不可分。

作为底层基础服务,数据标注也从未像今天这样受到关注,但与此同时机遇与挑战随之而来。

  • 数据标注要求从客观到主观,标准如何统一?标注人才要求又有什么样的新变化?
  • 大模型公司/AI企业涌入赛道,专业数据服务厂商如何自处?
  • 合成数据作为新兴赛道,又有怎样的增长空间?

带着这些问题,量子位智库《中国AIGC数据标注产业全景报告》由此而来,并尝试解答。

报告中,量子位智库将从我国数据标注行业现状、四大关键变化、三大影响要素、行业发展及市场规模等多角度、多方向地全面立体描绘中国数据标注产业全景。

核心观点如下:

  • 数据标注服务贯穿大模型全生命周期,上下游合作关系更为紧密耦合
  • 大模型范式涌入数据标注,自动化标注效率进一步提升;
  • 标注人才高学历多领域成硬指标,缺口或达百万
  • 产业链重构,专业数据服务商更多机会将在垂直领域,帮助企业私有化部署;
  • 传统依靠渠道人力等因素聚合飞轮效应已失效,数据标注朝着知识密集型转移;
  • 国内市场规模将达百亿量级合成数据增速最高。

大模型时代下的数据标注

数据标注,是将原始数据进行加工处理,比如分类、拉框、注释、标记等操作,转换成机器可识别信息的过程。

国内数据标注厂商,广义也被叫做基础数据服务商,通常需要完成数据集结构/流程设计、数据处理、数据质检等工作,为下游客户提供训练数据集、定制化服务。这也是本次主要研究对象。

大模型时代到来,数据标注受到前所未有的关注。

上市公司股价狂飙,创业代表公司融资加速

国内唯一一家AI数据上市公司海天瑞声受到ChatGPT热潮,今年2月以来股价曾一度狂飙。创业公司也同样融资进展频频,包括像星尘数据、标贝科技、整数智能、柏川数据、曼孚科技、恺望数据等代表公司均获得新融资。

大模型数据解决方案多处开花,以一站式、定制化服务为主

围绕大模型开发全生命周期(包括预训练、监督微调、RLHF、基准测试等),专业数据服务商、大模型企业、AI公司等各方都拿出相关数据解决方案。

大模型范式涌入数据标注,自动化标注⻔槛大幅降低

以「Segment Anything」为代表的图像分割模型开源,可通过提示词对图像或视频中任意对象进行分割,并可扩展到任何新任务和新领域,被称为是CV领域的「GPT-3」时刻,大大降低了图像领域的标注门槛。

智能驾驶新感知范式,BEV+Transformer是机遇也是挑战

作为最具代表性应用场景,智能驾驶迎来新感知范式——

以BEV+Transformer为代表的四维感知替代掉2D+CNN为代表的二维感知方案,给数据服务厂商带来更多机遇与挑战,包括不限于标注场景难度大、数据量产能力要求高等。

四大关键变化

需求变化:与行业场景强相关,高质量数据需求长期且持续

大模型时代的到来,正加速推动人工智能开发从以模型为中心朝着以数据为中心的方向转变。

△图源:Data-centric AI: Perspectives and Challenges

大模型作为以数据为中心的产物,数据数量和质量很大程度决定着大模型能力的上限。尤其像训练流程中的后两个阶段,直接决定了大模型性能好坏——

需要专业人士生成数据或对数据进行改写或排序,最终形成符合人类标准(比如专业逻辑、核心价值观等)高质量数据。

处理流程侧变化:标准从客观到主观,高学历多领域成人才硬指标

从数据流程上来看,传统数据标注是以目标任务为导向,通过拉框、描点、转写等方式进行人工或自动化标注,评价标准主要以准确率和效率为指标。

而大模型数据标注,则是按照阶段来划分,通常对自然语言要求很高,需要更专业的人才参与,标注要求偏主观,难以形成统一的标准。

数据标注从劳动密集朝着知识密集型转变

其中像百度在海口专为大模型建设的数据标注基地,本科比例100%,培训专业人才已达1000人。未来五年,数据标注相关专业人才缺口将达百万量级。

业务变化:合成数据新衍生赛道,潜在市场空间巨大

合成数据作为新衍生赛道,正受到广泛关注。所谓合成数据,即是用AI生成数据而非真实产生,能够替代真实数据来训练、测试和验证大模型。OpenAI CEO Sam Altman曾方言:

  • 未来所有数据都将变成合成数据。

除了能降本增效外,它可以补充更多边缘、长尾场景数据,能有效解决大模型时代下的“数据鸿沟”,并自然规避掉数据隐私安全、合规等方面问题。

像在数据增强、模型验证、可解释AI等领域,以及自动驾驶、机器人、生物医药等领域都有相关应用。

量子位智库预计,合成数据将成为未来增速最快赛道,年增⻓率可达45%。

供应链变化:产业链重新洗牌,大模型公司/AI企业涌入

大模型公司/AI企业自建数据处理管线,并对外输出大模型数据解决方案,产业链重新洗牌。

部分厂商还具备云服务能力,可与数据服务打包输出,能有效建立起客户之间的口碑和信任。

三大影响因素:以技术+场景聚合的飞轮效应

一看技术能力

作为AI底层服务,数据标注最本质的就是为下游客户降本增效。而技术是降本增效的最优解决路径,持续迭代技术能力的企业将有机会脱颖而出。

包括不限于以下几点:数据闭环工具链的智能化水平、对大模型/AI算法的理解、数据工程化能力、基础设施建设等。

二看场景资源

场景资源能力主要包括数据和人才两个层面:高质量的场景数据以及场景人才(领域专家、深度用户等)

这与行业持续多年的深耕不无关系——企业懂得行业know-how,能够根据客户需求,快速找到并利用与场景最为贴合的数据和人才资源。

三看飞轮效应

数据标注仍具有飞轮效应。以往靠销售渠道、人力成本等驱动因素,服务商实现业务量增长,进而赢得市场获得口碑,获得新客户也会越来越容易。

如今在技术和场景资源能力双重驱动下,数据处理能力越强,大模型标注经验越丰富,落地案例越来越多,数据处理的可扩展性和灵活性也越高。

这样一来,新创业公司入局门槛将进一步提高,专业数据服务提供商更多机会将在垂直场景,帮助企业完成私有化部署。

国内基础数据服务百亿市场规模

数据标注行业传统依靠渠道、人力等形成的低成本优势将被重塑,数据需求方将更看重数据质量、场景多样性和可扩展性。基于以上原因,量子位智库将从数据基础设施、场景资源两个方面来分析国内市场分布及现状。

第一象限:有技术有场景的明星公司

该象限存在两种情况:

第一种是模型层公司本身有大模型技术范式以及场景落地经验积累,可快速输出数据解决方案,与云服务打包输出建立信任;

第二种则是主要以技术驱动的明星企业,大部分拥有数据闭环工具链,再结合几年来行业经验,在大模型浪潮下易受到企业用戶⻘睐。

第二象限:有强技术支撑的创业新势力

该象限主要聚焦在近两年创立的创业公司,主要以自动驾驶场景作为切入点,再覆盖 到AIGC及其他领域。他们饱受资本市场认可,以恺望数据为例,一年半时间就是完成了三轮融资。

第三象限:包括中小团队、企业自建数据管线等

第四象限:场景壁垒更为深厚的行业玩家

该象限着更为深厚的行业数据壁垒,可为下游用戶提供高质量数据集或拥有大模型数据标注团队, 以海天瑞声为例,不仅是LIama2的唯一中国伙伴,还发布超大规模中文多轮对话数据集DOTS-NLP-216,合作企业超810家,覆盖全球近200个主要语种及方言,有近20年行业深耕。

量子位智库认为,数据标注处于重新洗牌的时期,更高质量、专业化的数据标注成为刚需。

未来五年,国内AI基础数据服务将达到百亿规模,年复合增长率在27%左右。

以下为我国值得关注行业代表机构TOP20:

具体报告详情以及代表玩家案例集可点下方链接。

    以上就是本篇文章【中国AIGC数据标注全景报告:百亿市场规模,百万就业缺口】的全部内容了,欢迎阅览 ! 文章地址:http://nhjcxspj.xhstdz.com/news/3387.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://nhjcxspj.xhstdz.com/mobile/ , 查看更多   
最新文章
适合中老年游戏活动的项目有哪些?
引言:为何中老年游戏活动尤为重要 随着社会的不断发展和生活水平的提升,中老年人的生活方式也随之改变。对于他们来说,健康和快乐成为了生活的重要组成部分。而游戏活动,不仅能够增加社交互动,还能锻炼身体与思维。因此,选择适合中老
上海旅游攻略:探访繁华之都的风情韵味
引言:开启上海的奇妙之旅 上海,这座迷人的城市,拥有着深厚的文化底蕴与现代化的繁华景象,无论是初次造访还是再次归来,都会让人惊叹于它独特的风情韵味。在这里,历史与现代交融,传统与创新并存,等待着你去探索这座繁华之都的每个角
高新企业网站优化方法大揭秘!
高新企业网站的重要性 随着互联网的快速发展,企业网站已经成为企业宣传、推广和营销的重要渠道。对于高新技术企业来说,网站更是展示企业形象、产品技术、行业影响力的窗口。因此,如何优化企业网站,提升网站的曝光率和用户体验成为了高
探索旅游景区的独特魅力:人文、自然与体验的完美结合”
引言:旅游景区的魅力所在 在如今快节奏的生活中,越来越多的人选择通过旅行来放松身心,寻找内心的宁静。在旅游的过程中,景区的选择则显得尤为重要。一个优质的旅游景区不仅仅是壮丽的自然风光,还有深厚的人文底蕴和丰富的体验活动。本
提升健康与活力:探索运动健身的多样化内容与方法
引言:健身的时代已来临 随着人们生活水平的提高,越来越多的人开始关注自身的健康与活力。运动健身不再是一种单一的方式,而是发展出了多样化的内容与方法。无论是为了减肥、塑形,还是增强体质,运动健身都成为了许多人的日常习惯和生活
80岁老人旅游规定的常见问题及注意事项解析
引言:老年人的旅游热潮 随着社会的发展和生活水平的提升,越来越多的老年人开始积极参与到旅游活动中。他们用实际行动证明,年龄并不是旅途的限制,反而是丰富人生经验的体现。虽然老年游客在旅途中享有更多的自由和乐趣,但在旅游规定及
AI写作论文是否会被检测?解密检测机制!
引言:AI写作的崛起 近年来,人工智能(AI)技术的发展迅猛,尤其是在写作领域。AI写作工具不仅能生成高质量的文章,还能满足不同用户的需求,成为内容创作的得力助手。然而,伴随着AI写作的普及,一个新的问题也逐渐显现出来:AI写作论文
几月份去兰州旅游最宜?
探索兰州的四季魅力 兰州,作为甘肃省的省会,坐落于黄河之畔,是一座历史悠久的城市,兼具独特的自然风貌与深厚的人文底蕴。每个季节,兰州展现出不同的面貌,吸引着四面八方的游客前来探索。那到底几月份去兰州旅游最为宜人呢?接下来,
探索中国旅游标志的原型与文化内涵的深度解读
探索中国旅游标志的原型与文化内涵 中国作为一个拥有悠久历史和丰富文化的国家,其旅游标志更是象征着一种独特的文化内涵。中国旅游标志的原型多取材于中国传统艺术元素,加之对中国文化的理解与诠释,形成了独具魅力的形象。 中国国徽与中
轻松搞定!服务器配置RAID:提高性能数据安全双保险!
轻松搞定!服务器配置RAID:提高性能数据安全双保险! 随着信息技术的不断发展,服务器在企业中扮演着至关重要的角色。为了提高性能和数据安全,服务器配置RAID已经成为了一种常见的选择。RAID(Redundant Array of Independent Disks)即
相关文章