【AI大模型展】TARS大模型——任务畅所欲言，电脑自动完成

AI大模型展 TARS 大模型

原创实在智能 | 2024-06-28 21:10

【数据猿导读】实在智能基于在自然语言处理（NLP）领域深厚的技术积累和落地经验，推出自研垂直大模型TARS（塔斯），在千亿级高质量Tokens上进行了充分训练，完整复现Pretrain、SFT和RLHF三个阶段，可提供百亿级参数，具备“效果可用、成本可控、定制化训练、私有化部署”等差异化优势。...

实在TARS大模型

该AI大模型由实在智能投递并参与数据猿与上海大数据联盟联合推出的《2024中国数据智能产业AI大模型先锋企业》榜单/奖项”评选。

实在智能基于在自然语言处理（NLP）领域深厚的技术积累和落地经验，推出自研垂直大模型TARS（塔斯），在千亿级高质量Tokens上进行了充分训练，完整复现Pretrain、SFT和RLHF三个阶段，可提供百亿级参数，具备“效果可用、成本可控、定制化训练、私有化部署”等差异化优势。

TARS行业垂直大模型目前有13B和70B两个版本，具备垂直领域的知识问题和语义理解能力，能够作为基础能力供应用方调用，嵌入到其已有的产品结构中，例如问答系统等；也可以作为单独的能力提供服务，支持私有化部署。

应用场景/使用群体

实在智能TARS大模型是一款“自研、有效、安全、可信任、可落地”的大模型。除垂直领域本身的应用外，还结合机器人流程自动化（RPA）推出实在Agent及结合智能文档审阅产品（IDP）推出新一代文档审阅产品ChatIDP。

实在Agent是结合了实在TARS大模型的RPA新产品，能够支持以问答的方式生成RPA流程和代码，从而减小RPA的使用者在开发RPA流程时的成本，提高产品的使用体验。新一代的实在Agent平台面向零基础或者轻基础的RPA用户或开发者，根据应用方的需要可以支持以SaaS的方式调用大模型的能力生成RPA流程或代码，或者私有化部署到本地以提供支持（私有化部署的推理成本如实在TARS大模型所要求）。

ChatIDP是结合了实在TARS大模型的IDP新产品，是在底层将传统的自然语言模型替换为实在TARS模型后推出的全新智能文档审核产品；支持以交互的形式进行文档的识别、比对、抽取、审核和分析等，能够为企业的法务、财务、合规等部门提供更加智能、更加方便的文档审阅和管理工具，大幅减少相关人员花在文档检查和信息提取上的时间，提高工作效率。根据需要可以支持以SaaS的方式调用大模型的能力进行长篇文档的理解和抽取，或者私有化部署到本地以提供支持，私有化部署的推理成本如实在TARS大模型所要求。

AI大模型展_TARS_大模型-1

产品功能

1.流程自动生成

准确理解用户意图，生成行动计划流程模块

实现所说即所得的RPA流程自动生成

支持根据用户描述和提示，生成代码组件

结合智能屏幕语义理解技术实现组件属性填充

AI大模型展_TARS_大模型-2

2.人机对话问答

垂直行业上更准确、更强大的语义理解能力

更自然的多轮交互，提升对话类产品的智能感

支持快速接入和配置用于不同平台的对话机器人

能够方便地与用户的历史知识库进行整合

AI大模型展_TARS_大模型-3

3.智能文档理解

全面提升针对文档的关键内容抽取和审核能力

实现“你问我答”的全新文档处理体验

更智能、更精准的历史文档检索

AI大模型展_TARS_大模型-4

4.NLP基础能力

支持情感分类、实体抽取、机器翻译等多种任务

不断调整Prompt让模型输出更高质量的内容

支持小样本学习的方式完成特定的自然语言任务

支持添加用户自有数据进行模型的定制调优

AI大模型展_TARS_大模型-5

产品优势

实在TARS基于垂直行业的千亿级高质量Tokens上进行训练，完整复现、改进了大型语言模型训练的Pre-train、SFT和RLHF三个阶段并在语言理解、指令跟随等方面取得良好效果。此外，TARS大模型为了追求更高安全标准，进一步集成如不当言论判别等多项NLP前沿技术，帮助企业在数字化、智能化的转型浪潮中快人一步。

1.灵活部署/私有化部署、调用灵活

全面支持私有化部署、支持多种部署、调用方式、模型管理和监控工具配套完善

2.行业定制训练/行业定制、模型调优

针对垂直领域效果领先、根据不同行业、场景定制调优、垂直领域和通用领域能力兼具

3.安全可靠/全国产、信息安全过滤

不当言论判别、有害信息筛除、支持自定义配置模型过滤范围、私有化部署确保信息安全

4.完整落地方案/可落地硬件需求优化

模型量化技术有效降低模型需求、现有Chatbot无缝集成调用LLM、支持其他产品快速集成嵌入。

技术说明

实在智能TARS大模型采用的技术路线是在开源基座模型的基础上，遵照GPT系列（尤其是InstructGPT）和其他基座模型如BLOOM、LLaMA、GLM等的训练思路来对大模型三个阶段，即：预训练、指令微调、人工反馈强化学习进行各项技术的设计和准备；包括数据处理、模型设计、训练策略制定等。

总体来说，实在TARS模型的亮点和创新点主要体现在以下三个方面：

1.TARS大模型在垂直领域进行了充分的训练和完整的复现，对大模型常见的三个阶段都进行本地化复现和针对性优化；同时总计收集、处理、标注和投入超过一千亿个语料Tokens，使得模型能够充分理解垂直领域的语义内容和表述方式；在技术上除了复现三个阶段外，尤其对人类反馈强化学习阶段，解决了垂直领域中的数据标注困难、模型训练困难等问题，综合采用RPA技术做高效、持续、7X24小时的数据收集；采用多种数据去重和处理方式；采用自研的Rank排序标注平台等进行人类反馈强化学习阶段的数据标注；同时在技术层面优化了强化学习的训练框架，对齐部分算子操作，使得强化学习模型的训练过程更加快速。

2.TARS大模型除了在垂直领域有更加出色表现之外，在模型的可控性和安全性等层面也做了大量的工作，包括创新地利用最新的生成结果控制技术，训练了一个不当言论判别和过滤模型，来辅助大模型对生成结果的安全性、无害性和无偏性进行提升；实在TARS配套的不当言论判别和过滤模型区别于一般的文本判别模型，是结合在整个TARS大模型之中，并采用联合训练的方式进行优化，最终解决模型输出结果往往存在不当言论、有害信息的问题。

3.TARS大模型支持私有化部署和高效的模型推理，结合模型量化技术使得模型在推理时所占用的显存空间等降低，从而使得最终应用方能够以降低的软硬件成本使用TARS模型的能力，进行直接调用或下游集成；解决了大模型的落地难、落地贵等问题，可以支持较低成本配置的情况下，运行实在TARS垂直领域模型。

实在智能TARS大模型在其他方面的创新还包括研究大模型和向量数据库的结合，大模型在大段文本的输入支持等方面的工作。

服务客户

目前实在智能已联合湘财证券、天翼数科推出了金融领域垂直大模型，已开始在智能客服、智能投顾等场景落地应用；基于大模型，在行业内首推的实在Agent数字员工，可以实现高效的人机协同。

关于企业

·实在智能

实在智能是一家通过自研AGI大模型+超自动化技术领跑人机协同时代的人工智能科技公司。公司是“国家高新技术、专精特新”企业，通过中国信通院RPA最高级别评测及全球软件成熟度CMMI-5顶级认证，拥有近百项发明专利和数百项软件著作权，全面适配支持百余项国产信创软硬件。

公司在北京、上海、广州、深圳、成都、南京、济南及日本东京等地设有分支机构，服务团队覆盖全国。实在“数字员工”已服务国内外2000余家头部大中型客户，包括金融、运营商、电商、制造、烟草、能源、交通等千行百业。

作为AI准独角兽和超自动化头部企业，实在智能自研的垂直大模型TARS（塔斯）在国内大模型各类榜单名列前茅，具备“效果可用、成本可控、定制化训练、私有化部署”等差异化优势；在全行业首发可“一句话生成数字员工”的实在 AI Agent智能体产品，既是个人用户的AI助理，也是政企员工的办公助手，实现“你说PC做，所说即所得”。。

★以上由实在智能投递申报的项目案例，最终将会角逐由数据猿与上海大数据联盟联合推出的《2024中国数据智能产业AI大模型先锋企业》榜单/奖项。

该榜单奖项最终将于7月24日以下活动中进行榜单的首发与奖项的颁发，欢迎报名莅临现场

来源：数据猿

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。