2025年10月31日
燕鼎数据标注车间内,工作人员正在进行数据标注工作。 保定晚报记者 刘琦 摄
□保定晚报记者 刘琦
10月29日,在位于高新区科技产业园的河北燕鼎数据处理有限公司里,数百名数据标注员专注地在屏幕上标记大模型训练所需的文本语义、图像特征、音频情感倾向与多模态关联关系……这火热的工作场景,正是保定数据标注产业加速崛起的生动缩影。
“文本要拆解到语义单元,图像得标注物体属性与场景关联,连音频的情绪倾向都要精确到‘愉悦’‘中性’‘低落’三级,这样大模型才能在交互中精准理解人类意图。”燕鼎数据标注车间组长边姗姗指着屏幕上的多模态标注界面介绍,她面前的电脑后台正滚动更新着发往头部AI企业的数据包,这些经过精细处理的数据,将成为大模型迭代的“认知基石”。
这家2021年成立的本土企业,如今已成长为国家级高新技术企业。
“今年营收突破2000万元,员工规模也从200多人扩展到500余人。”公司董事长赵猛的话语里透着底气,企业年处理大模型基础素材超亿条,业务覆盖通用大模型、行业垂直大模型、智能交互等多领域,还成为多家头部互联网公司的战略供应商。
在燕鼎数据的大模型标注车间,20名保定学院的实习生正在进行实训。“通过‘教室变职场’模式,学生已完成近万组多模态素材标注,文本语义标注准确率超98%,图像特征标注吻合度达97.5%。”赵猛表示,对于愿意投身于此的从业者来说,这不仅是一个技术性工作,更是一个充满挑战和机遇的职业选择。
燕鼎数据的崛起,离不开保定坚实的数字底座。
作为京津冀区域唯一的国家数据标注基地试点城市,保定已集聚数据服务企业500多家,涵盖数据采集、数据存储、数据加工、数据标注、数据应用等细分领域,从业人员超3万。
“我们持续推动‘京数保标’,逐渐形成涵盖数据采集、清洗、标注、质检、应用的数据标注产业全链条生态。”市数据局副局长郭卉介绍,政策引领下,保定数据产业迎来蓬勃发展,数据堂、海天瑞声等头部数据服务企业纷纷落地扎根;数据湾、深圳园、高新科创园等数字产业园区承载能力突破百万平方米;杭州数商保定基地正式开园……我市已初步构建起东部片区以数据服务为主、西部片区以数据创新为主的产业发展新格局。
从车间里的标注鼠标到企业的智能办公系统,从居民的语音交互设备到园区的智慧管理平台,数据正重塑着我市的产业形态与生活方式。
夕阳西下,燕鼎数据的车间依旧灯火通明。屏幕上不断延伸的标注线,不仅勾勒出大模型进化的清晰路径,更描绘着保定从“数据洼地”迈向“价值高地”的坚定轨迹。
保定这座新晋的国家数据基础设施先行先试城市,正以数据为笔,书写着京津冀数智协同创新的新篇章。