湖北科技学院2024届毕业生杜馨悦,用一份数据质检工作踏准了人工智能时代的新节拍。去年求职季,她通过校招入职览易(武汉)智能数据服务有限公司(以下简称览易智能)后,快速成长为业务骨干。
杜馨悦所投身的,正是为人工智能时代筑牢基石且能创造大量就业机会的新兴产业——数据标注。“这份工作完全符合预期,不仅身处人工智能行业风口,还能学到大量前沿的数据处理技能,对今后长远发展颇有益处。”杜馨悦的职业感受,侧面反映出数据标注产业对年轻人的就业吸引力。
在国家战略布局与政策引导下,数据标注产业正成为新质生产力的重要组成部分,迎来前所未有的发展机遇。
AI时代“数字新基建”
数据标注产业,是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业。数据标注师如同数字世界的“翻译官”,通过对海量的图像、语音、文本等原始数据进行筛选、分类、注释和标记,将其转化为大模型可理解的语言,助力人工智能实现精准认知与决策。
培育壮大数据标注产业,对于提升数据供给质量、推动人工智能创新发展具有重要支撑作用。从自动驾驶汽车识别路况,到“黑灯工厂”中的机械臂自动抓取零部件,再到AI辅助医疗影像诊断,背后都离不开数据标注产业的支持。
近年来,数据标注产业相关企业如雨后春笋般大量涌现。成立于2020年的览易智能是湖北武汉一家专注从事智能数据服务与人工智能技术应用的高新技术企业,重点面向车企提供智能驾驶领域的数据标注服务,合作客户包括蔚来、吉利、理想等车企。
“智能驾驶对数据的精准度和专业性要求极高,需要进行4D标注、多模态融合标注等复杂作业,因此我们在第一时间自研并上线了4D、多模态融合等复杂场景标注工具及时匹配客户需求,这不仅推动企业实现自身技术沉淀,也构建了极高的行业壁垒。”览易智能总经理张雪娇介绍。
即便仅成立一年多,位于安徽合肥的安徽飞数信息科技有限公司(以下简称飞数科技)已在行业内展现出强大的技术实力。“我们专注于人工智能高质量数据集建设、数据应用全场景平台开发和企业数据治理服务,自研的‘飞智标’平台整合了30多种AI预标注模型和140多类标注工具,能将标注效率提升21%,综合人力成本降低50%。”该公司副总经理谭昶说。
更值得关注的是,飞数科技已经开始探索合成数据这一前沿技术,通过算法生成高精度的合成数据,有效解决了高质量数据稀缺的行业难题,目前已支持多项大模型任务,准确率超98%。
国家数据局发布的数据显示,截至今年3月,全国7个数据标注基地已培育企业超220家,赋能120余个国产人工智能大模型研发。另有市场分析机构的统计显示,截至2024年底,我国数据标注企业数量已超4000家。
多元群体就业“蓄水池”
数据标注产业正展现出强大的就业吸纳能力,它如同一片新兴蓝海,为不同学历、不同背景、不同地域的人群提供广阔就业空间,成为稳定和扩大就业的“蓄水池”。
2024年,重庆科技大学研究生彭孟银毕业后便入职了飞数科技,负责利用大模型生产高质量数据,为教育领域的AI模型提供“养料”。据了解,飞数科技目前已吸纳就业人员近2000人,岗位类型主要包括数据生产与处理、技术研发等,团队平均年龄约30岁,本科及以上学历占比超过90%。
作为新兴数字职业,数据标注产业吸引了大量“90后”“00后”。“数据标注属于伴随人工智能兴起的新兴行业,因此个人学习能力和工作态度就显得尤为重要,也对年轻人更具吸引力。”张雪娇透露,览易智能成立至今已经累计吸纳5000余人就业,绝大部分为“95后”“00后”。
除了吸纳青年人才,数据标注产业的普惠性和包容性更值得关注——为欠发达地区、农村劳动力和需要灵活就业的群体打开了一扇通往数字世界的大门。
在陕西清涧县,2019年地方政府主导设立国有科技企业清涧爱豆科技有限公司,专门从事人工智能数据标注业务。“今年新招聘了20多人,目前员工规模稳定在100人左右。”公司总经理鱼涛告诉记者,招聘时优先录用宝妈、残疾人、脱贫人口等就业困难群体,帮助其融入数字经济、实现自身价值。
在湖北省武汉市新洲区凤凰镇刘家湾村,由武汉软件工程学院支持发起的人工智能务工项目,让一群农村女性实现了在家门口就业。通过标注图像、视频、文本、语言等数据,她们每月能挣到数千元的工资,而且还能兼顾家庭。
放眼全国,数据标注产业和基地正在各地落地开花,为促进区域协调发展、提振县域经济、助力乡村振兴注入了新动能。以百度为例,该公司与地方政府、运营公司三方合作,在山西太原等地成立了超过20个数据标注基地,累计提供数万个就业岗位。
政策加力注动能
数据标注产业的蓬勃发展,离不开国家层面的战略引导和地方政府的积极作为。
2024年是行业发展的关键节点:5月,国家数据局公布首批全国数据标注基地建设城市名单,合肥、成都、沈阳等7城入选,标志着数据标注产业正式纳入国家战略布局;年底,国家数据局、财政部等四部门联合出台《关于促进数据标注产业高质量发展的实施意见》,明确统筹资金、数据、人才等要素资源,加大对产业发展的支持力度。
以此为契机,各地纷纷出台举措打造产业高地。作为首批入选全国数据标注基地建设城市的地区,合肥的行动尤为迅速。“我们拥有中国科大等一流高校、科研院所,以及科大讯飞、比亚迪等龙头企业,为产业发展提供了丰富的技术源头和应用场景。”合肥市财政局相关负责人介绍。
为了将优势转化为胜势,合肥打出了一套“组合拳”——近两年投入近6000万元产业政策资金,精准滴灌产业发展的关键环节;对入选国家级典型案例的项目给予最高100万元奖补,对首次认定的省级大数据企业给予10万元奖补;支持数据要素流通平台建设,激活数据价值。截至今年8月底,合肥市数据标注产业已吸引企业超60家,带动就业超11万人。
作为中部腹地重要城市,武汉也正全力冲刺数据标注产业新赛道。该市统筹整合财政资金5250万元,重点支持“汉数通”等国家级重点项目;积极搭建支持平台,推动武汉数据标注产业成果持续涌现;深化产教融合,支持加强专业人才培育。目前,全市已集聚重点数据标注企业60余家,数据资源汇聚能力与要素供给优势初步显现。
产业扩张态势可期
《全国数据资源调查报告(2024年)》显示,2024年我国高质量数据集数量同比增长27.4%,标志高质量数据集建设进入加速期。
事实上,高质量数据集是决定人工智能大模型“智商”的核心变量,直接影响模型的认知精度与决策能力。而数据清洗、标注正是将无序的原始数据转化为标准化训练资源的关键环节,是构建高质量数据集的核心支撑。
当前,伴随着人工智能产业的快速发展,作为数据集建设核心环节的数据标注产业迅速壮大。我国已明确发展目标:到2027年要实现数据标注产业规模大幅跃升、年均复合增长率超过20%,并培育一批具有影响力的科技型数据标注企业,建设一批特色鲜明的数据标注基地。
这一规划和目标释放了清晰的政策信号,再加上不久前出台的“人工智能+”行动计划拟推动人工智能与科学技术、产业发展、消费提质等深度融合,这些政策举措都将进一步释放海量数据标注需求。这同时也意味着,未来2年数据标注产业将继续保持快速扩张态势。
身处风口的企业家们对行业发展信心十足。“数据标注产业正处于上升趋势的早期阶段,后续上升空间广阔,对企业和从业人员的综合能力和专业性要求也会不断提高。”张雪娇认为,AI模型的持续更新迭代,以及新场景、新应用的不断涌现,将推动整个行业持续快速发展,览易智能也将继续在技术研发和行业垂直领域精耕细作,在人工智能浪潮中挺立潮头。
在谭昶看来,数据标注产业正进入一个由技术驱动和需求深化共同推动的新阶段。他从更宏观的视角描绘行业发展趋势——合成数据技术逐步成熟,成为解决数据稀缺和质量瓶颈问题的关键;垂直行业对专业化、场景化标注需求增长迅猛,尤其是法律、医疗、金融等领域;标注服务开始呈现全球化、多语种和跨文化协作特征,国际化数据服务能力将成为企业的重要竞争力。
“飞数科技不仅定位于数据服务商,更致力于成为行业标准的制定者和产教融合的推动者。”谭昶表示,公司将持续投入自研平台,深化合成数据生成能力,打造覆盖更多复杂场景的标注基础设施,并计划布局国际业务,构建多语言标注团队和服务能力,助力中国数据服务走向世界。
|