“曹植”大语言模型是如何诞生的?来看达观数据CTO的讲述
创始人
2024-05-08 12:25:51
0

原标题:“曹植”大语言模型是如何诞生的?来看达观数据CTO的讲述

“曹植七步成诗,他写的最著名的篇章《洛神赋》就是古代文学作品里典型的首屈一指的长文本。这也是‘曹植’大模型的专长,做长文档资料智能化的分析写作工作。”2023年世界人工智能大会(以下简称“WAIC2023”)上,达观数据董事长陈运文正式发布“曹植”垂直领域大语言模型(以下简称“曹植”大模型)时如此介绍道。

这是国内首个垂直行业专用的自主可控的国产GPT大语言模型,可准确完成多类型、复杂结构的长文本写作,自动起草多种类型的文档,未来将实现多模态内容生成,如长文档中的表格、图表、图片等。那么“曹植”是如何诞生的呢?来听达观数据CTO纪达麒的讲述。

深耕NLP领域

达观数据成立于2015年,成长于上海浦东软件园,其创始团队都是与中国文字打过十几年交道的程序老兵,并深耕于NLP(自然语言处理)领域。今年3月,随着垂直、专用、自主可控的国产版ChatGPT“曹植”大模型的发布,达观数据正不断推动着NLP技术向不同行业领域深度结合。

NLP被誉为AI皇冠上的明珠。从互联网拓宽至更广泛行业,达观数据在金融、政务、制造等行业积累了垂直领域的大量数据、人才与NLP传统架构。在与来自金融、政务、制造等行业的客户进行了广泛的交流后,达观数据联合创始人、CTO纪达麒逐渐发现,NLP技术在办公文档方面有着广阔的应用前景。

2017年,谷歌发表的论文中提出,NLP关于“理解”和“生成”的两个技术路线。“基于达观数据当时的优势资源和未来发展,我们一开始就选择了‘理解’这条技术路线。”纪达麒介绍。这一年,纪达麒和研发团队运用知识图谱、文字识别等技术开发的IDP智能文档审阅系统进入市场。

随着人工智能的不断发展,机器智能处理长文本的需求日益紧迫。随后,达观数据便投入到大语言模型的开发工作中,纪达麒担任该项目总负责人。这就是如今的“曹植”大模型诞生的起点。

“培养”出人工智能版“曹植”

“我们想‘培养’出人工智能版的‘曹植’,希望它能像我国的历史名人曹植一样快速地生成长文本。”提及“曹植”大模型这一名称的由来,纪达麒笑言,“这是我们员工在四五十个名字中票选出来的。”

“长文本”是“曹植”大模型的目标任务。区别于一问一答的简单短文本生成,“曹植”大模型可准确完成多类型、复杂结构的长文本写作,自动起草多种类型的文档,同时具有自动排版、智能纠错、文本润色、自动生成摘要等特色功能;还可实现多模态内容生成,比如长文档中的表格、图表、图片等;支持中文、英文、法语、德语、日语、韩语等数十种语言的写作,辅助人工大幅提高办公效率;在长文档翻译方面,对原文的标题、段落等内容实现1:1版式还原,提供实时的翻译体验,广泛应用于多语言文档密集处理的场景。

这也是国内大规模语言模型中首批可落地的产业应用级模型,目前已在金融领域AIGC多场景投入应用。基于“曹植”系统,“曹植”大模型进一步夯实了达观数据产业应用智能化基座,全面增强AI全产品矩阵能力。

来源:浦东发布

相关内容

原创 ...
距离WTT中国大满贯开打还有5天时间,很多球迷也发现了,教练组在混...
2025-09-20 23:20:54
原创 ...
据犹太新闻辛迪加JNS报道,当地时间9月15日,以色列总理内塔尼亚...
2025-09-20 18:01:21
原创 ...
2025年初,伊朗总统公开表示不会研发核武器,这番表态揭示了一个国...
2025-09-20 12:20:46
编剧行业生态观察③|行业变...
要做好内容,好故事,剧本是基底,编剧的价值无法被忽视。艺恩数据在2...
2025-09-20 02:00:39
原创 ...
最近,一位外国网友在问答平台上提出了一个引人深思的问题:“中国是不...
2025-09-20 00:02:35
原创 ...
我真的想不明白你们湖人为什么要抛弃我,我为你们立下汗马功劳,让你们...
2025-09-19 10:02:58

热门资讯

存款利息怎么算?湖南农商行存款... 导读湖南农商行存款利息怎么算?湖南农商行作为湖南最大的股份制银行,它是一家地方性、集约化、国际化、股...
孕妈检测出胎儿没有“胎心”究竟... 原标题:孕妈检测出胎儿没有“胎心”究竟为何?多半是这4种原因,预防下 昨天小樱...
原创 如... 肺是人体非常重要的器官,空气中的很多灰尘和垃圾都会随空气进入肺部,所以肺部的清洁是非常重要的。我们可...
处暑节气如何做好养生?这些秘笈... 原标题:处暑节气如何做好养生?这些秘笈请收好 处暑的天气多变,可能给我们的身体...
原创 婴... 在宝宝的成长过程中,奶粉作为重要的营养来源,其选择至关重要。那么,什么样的婴儿奶粉比较好呢?奶粉的营...
激光术后护理指南:如何科学恢复... 二氧化碳激光是一种常用于去除瘢痕、色素沉着、皱纹和其他皮肤问题的治疗方法。它通过发射高能量的二氧化碳...
耳聋耳背知识分享-----耳朵... 耳朵听力下降恢复方法首先要找出听力下降的病因,其次针对病因进行对症治疗。 耳朵听力下降,如何恢复听...
新农保一年缴费180元60岁后... 导读新农保一年缴费180元,60岁后能拿多少钱呢?我们这一个月是208块。农村大多是买这种农保吧,刚...
金三角李国辉,率领三千残部打败... 原标题:金三角李国辉,率领三千残部打败泰国政府军,到台湾后结局如何? 解放战争...
假发毛躁如何解决?简单方法一学... 原标题:假发毛躁如何解决?简单方法一学就会 在日常生活中,假发已经成为许多人的...