羊城晚报,让AI链接全世界实现“沟通无障碍”
如果您有SEO优化、网站建设需求请致电:18510193015
深译信息科技有限公司位于珠海市香洲区,选择了认知智能这条艰难的研发道路。该公司围绕人工智能的三大要素 —— 数据、算法、算力,构建起独有的 AI 产业小生态和核心壁垒。
突破行业数据困境
在竞争激烈的人工智能领域脱颖而出并非易事,在深译科技涉足的多模态多语言赛道更是困难重重。原因在于数据获取渠道与方式极为不便,而且进入精细化行业大模型的业务数据对流通性、准确率和版权要求极高。
深译科技董事长林余楚介绍,凭借多年在多模态大数据挖掘、自然语言处理、人工智能等前沿技术的先发优势,公司抢占资源,沉淀积累了大量稀缺的多模态多语言 AI 大数据资源集。公司的多模态数据集在存量和质量上,在国内外均处于行业前列,尤其在葡语系、共建 “一带一路” 的小语种国家及大语种专业领域中,深译科技已成为国内大模型数据服务商的佼佼者,并致力于成为全球领先的 AIGC多语言多模态数据提供商。
林余楚认为,当前行业数据大多不在互联网上公开,相关数据获取渠道有限。公司产品主要服务于 AI 或 AI 企业,这些企业的模型要实现智能化甚至达到专家级,核心是数据支撑,就像数据驱动的人工智能 “训练师”,打破了不同行业间的数据壁垒。
目前,公司依托自研的深数引擎技术矩阵产品,形成了高质量的多语言多模态多领域数据集,包括多模态多语言的预训练数据和多任务多领域的行业数据,这些数据质量优、规模大、具有稀缺性且品类全,是构建 AI 产业生态的关键因素。
构建世界级 AI 大模型
林余楚表示,大模型是第四代革命的代表,如果大模型没有应用、无法产生生产力,就难以形成产业经济效益。一方面,公司选择优势赛道,自主研发建设多语言内容行业大模型。公司依托澳门大学中葡自然语言处理实验室等粤港澳大湾区高校资源,大力拓展计算机视觉、自然语言处理、大数据学科等产学研项目。
当前,深译科技团队凭借 20 多年的模型训练调参经验和积累,自主研发多语言内容行业大模型底座 —— 深意大模型,基于自研 2B - 13B 参数集的行业大模型能力构建百行千业多模态智能体应用,为各类场景提供更专业、更安全、更具性价比的具身智能服务。
另一方面,公司依托粤港澳大湾区国家枢纽节点,积极推进构建智能算力 saas 服务和智能算力中心、建设新型智算应用服务平台,联动 AI 产业小生态,打造 “大数据、大模型、大算力、大应用” 四位一体的基础设施,为公司 AI 小生态闭环奠定基础。
在语言大模型中,除了主流的中文、英文,还包括方言和一些小语种,且细分不同领域。数据从何而来?算法怎样?林余楚称,公司在数据增强技术上取得众多突破才形成如今局面。公司模拟行业真实专业行为生成数据,进行标注后再对模型进行二次训练,从而形成真正的智能行业专家级模型。
政府扶持推动企业发展
作为人工智能创新企业,深译科技重视技术研发。林余楚表示,这个行业对人才和科研要求极高。公司在自身核心技术基础上,通过产学研合作增强技术人才配置和可持续科研力量,降低了赛道成本。目前,公司研发人员占比高达 80%,每年研发投入占总营收近 50%,拥有发明专利 12 项。持续的研发投入让公司在激烈市场中保持创新和竞争优势,还带来了可观经济效益,近三年公司总产值逐年翻番。
深译科技的快速发展离不开香洲区的大力扶持。林余楚认为,香洲区产业配套成熟,利于企业成长,而且公司有多种语言和国际化背景,香洲区毗邻港澳,有助于企业走向全球。在这个过程中,香洲区政府在人才政策支持和科技研发投入方面给予很大帮助,让初创企业能安心创业。
深译科技的愿景是 “AI 链接全世界”,打造世界级 AI 大模型,在葡语系国家全球领先、“一带一路” 共建国家小语种国内领先、大语种专业领域应用领先的行业地位和产品体系。接下来,公司将巩固第一阶段的数据和行业模型基础,基于产业生态拓展业务,预计 2025 年营收达一亿元,希望三年内成为人工智能领域的独角兽公司,努力成为全球领先的多语言多模态 AI 数据提供商和基于多语言内容行业大模型的多模态智能体应用平台。