本文目录一览:

只需要十分之一数据,就能通关四大视觉任务,居然还开源了

Github链接:

家人们,你们有没有这种苦恼?

搬一次家就换一次家具,那些又贵又重的家具既不好搬运,又不好全部带走。

下一次又重新购置一遍家具,浪费钱不说,关键是来来回回都做一样的事情!家具还没用过几次,利用率不高呀!

这种搬家的苦恼,就好比AI领域,做几个任务就需要开发几个高度定制的模型,不仅所需的数据采集量非常大,每次还都得从头标注。既提不起数据的学习效率,又耗费巨大的数据获取成本。

光是AI前端研究就耗费如此巨大的精力,更别提应用场景中数以万计的长尾任务。

那怎么办?

做一款通用的深度学习模型,才是关键。

1 通用,才是技术根本

目前,通用语言模型(GLM)已经取得了令人瞩目的进展,比如BERT、T5和GPT-3,它们在应对广泛的语言下游任务时已经游刃有余。

相形之下,通用视觉模型(GVM)的研究迟迟未交出一份令人满意的答卷。

以往的大多数 GVM 研究主要利用一种监督信号来源,如 ViT-G/14 采用有标签监督,SEER 采用样本的不同增强之间的对比学习,CLIP采用图片文本对进行监督。如果是在单个监督信号下进行的预训练,这几种范式确实能够生成在固定场景下表现良好的模型。但如果用在场景多元、任务多样的下游场景,这些模型就难以胜任了。

比如现在最火的自动驾驶, 汽车 处于移动状态,既要看到路况,又要看到红绿灯,还要注意行人,甚至在智能座舱兴起后,还要和语言技术、LBS场景服务协同,这么多的感知数据与协同任务,这么多随机的新任务,无论在体量还是维度方面,都对视觉模型的要求极大提高。

这时,打造一款通用视觉模型,降低研发门槛,尤其是学术界的时间成本、资金成本,才能畅享下游的极致场景体验。

去年11月,上海人工智能实验室联合商汤 科技 、香港中文大学、上海交通大学发布通用视觉技术体系“书生”(INTERN),一套持续学习框架,用于系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。

前不久,上海人工智能实验室联合商汤 科技 发布通用视觉开源平台OpenGVLab,面向学术界和产业界开放其超高效预训练模型、超大规模公开数据集,以及业内首个针对通用视觉模型的评测基准。

这些开源技术,究竟有何魔力?

2 大力出奇迹,打造通用视觉模型

“书生” (INTERN),就是练就通用视觉能力的底层技术。

从技术实现上讲,“书生”技术体系由由七大模块组成,包括三个基础设施模块和四个训练阶段构成。

书生(INTERN)结构图

首先,通用视觉数据系统。

这是一个超大规模的精标数据集,拥有100亿个样本和各种监督信号,并依照四大视觉任务分别设置了四个数据子集:多模态数据GV-D- 10B分类标注的GV-Dc-36M、检测标注的GV-Dd-3M、分割标注的GV-Ds-143K。

另外,这一数据集还包含11.9万的标签系统,不仅涵盖了自然界的众多领域和目前计算机视觉研究中的几乎所有标签,还扩充了大量细粒度标签,涵盖各类图像中的属性、状态等。

而这,就是书生“大力出奇迹”的一大注脚。

其次,通用视觉模型结构。

它是由一个具有CNN和Transformer的统一搜索空间构建而成。

为何要建立这样的混合结构?要知道,多年来,卷积神经网络(CNN)一直主导着视觉表征学习,并在图像分类、目标检测和语义分割等下游任务中表现出稳定的可迁移性。但最近几年,Vision Transformer (ViT)仅使用普通的Transformer结构就能作为图像编码模型在ImageNet-1k上取得媲美 CNN 的性能,在大规模数据集上 ViT 更是展示出比 CNN 更大的潜力。

尽管ViT在性能上有优点,但纯Transformer网络相比卷积神经网络缺乏某些归纳偏置(inductive biases),因此需要更多的数据和计算资源。此外,自注意的计算成本相对于输入的数量是平方的,限制了对高输入分辨率的应用。因此,将CNN和Transformer和MLP结合起来,平衡效率和有效性两个方面,才是模型通用的关键。

这种兼具更好的泛化能力和更高的模型容量的模型结构名为MetaNet。在MetaNet网络结构族里面进行网络结构搜索,从而得到最优的一个模型训练结构。

统一搜索的MetaNet架构:Conv和Trans分别表示卷积和Transformer。C和S为每一阶输出通道数和步幅。

具体来看,MetaNet不仅基于强化学习 的PPO算法提出了统一搜索架构,并且,为了避免传统的下采样模块会成为模型性能的瓶颈,“书生“结合了包含 local-global-DSM (LG_DSM) 和 global-DSM (G-DSM)的context-aware down-sampling modules (DSM),用来代替原本的下采样模块。

因此,在浅层,模型依然使用卷积来提取特征,但在深层,模型却能将Transformer模块和LG-DSM结合使用,以便于更好地提取全局信息。

同时,书生还基于最大的MetaNet-B15蒸馏出了多达13种不同的模型结构,共24种不同的模型权重,现已全部开源。

这些模型结构基本涵盖了现有市面上大部分的主流backbone,不仅能够很轻易地迁移到所需要的算法框架作为新网络预训练的初始化,而且只需要更短的训练时间就可以达到比原来更好的训练效果。

MetaNet 模型与其他模型结构比较,结果如下:

基于卷积、Transformer和两者混合的结构,分别用C,T和H表示,可以看出,在图像分类性能上,MetaNet系列的MN-B1,MN-B4和MN-B7,和其他的SOTA模型相比,不仅有更高的精度,还有更低的FLOPS和参数量。

除了分类任务,把MetaNet做为检测和分割的backbone,在COCO数据集上使用Mask R-CNN结构训练,结果发现:在模型参数量更小的前提下,MN-B4比Swin-T精度高出2到4个点。另外还在ADE20K数据集上进行了语义分割任务,MN-B4的mIoU指标比Swin-T高出5个点之多。

上述两个实验结果表明,MetaNet系列模型结构,在模型精度与计算量之间,都达到了新的SOTA!

最后,通用视觉评测基准。

视觉评测基准GV-B ,就像是一个「擂台」。

如下表所示,测评基准收集了 26 个下游任务数据集,囊括了 4 种视觉任务类型:分类,检测,分割和深度估计。

在设置上,该基准引入了百分比样本(percentage-shot),只需要选取整个数据集的一部分,例如 10%、20% ,对比缩小下游任务的训练数据量后的模型性能。

与传统的少样本设置相比,这种百分比样本设置可以很好地保留原始数据集的长尾分布等属性,并减轻对样本选择的敏感性。因为有一些数据集样本类别分布不平衡,比如下表中的VOC07+12,百分比数据的划分方式却会继承这种分布情况。

右侧三列avg,min和max,分别表示在10%的数据中,不同类别样本数量的平均值,最小值和最大值。

结合上述数据集和任务类型,论文选取了一些具有代表性的模型来做评测对比。为了比较公平性,该对比使用了这些模型的官方预训练权重。这些模型包括:

有了超大精标数据集、模型结构,以及评测基准后,已经是万事俱备,只欠训练。

书生作为中国古代读书人的经典形象,代表着一个通过不断学习、不断成长进而拥有各方面才能的人格化角色:从基础的知识技能学习开始,到对多种专业知识触类旁通,进而成长为拥有通用知识的通才。借此意象,“书生”(INTERN)系统可通过持续学习,举一反三,逐步实现通用视觉领域的融会贯通,最终实现灵活高效的模型部署。

下面就来看看,这套系统是如何通过训练,一步步从生手变成专家再到多面手,最终在各种任务中大显身手。

第一阶段,训练的是基础能力,被称为“基础模型”(Amateur)。

然而CLIP需要400M的图像-文本对进行前训练,囿于极大的数据量,CLIP很难进一步发展。但“书生”提出了一种新的训练范式,DeCLIP(Data efficient CLIP ),能够同时使用来自图像-文本、图像-图像和文本-文本对的监督信号进行模型预训练,从而更有效地实现通用性。

此外,为了充分利用大规模多模态数据获取基础模型的优势,这一阶段提出了Upstream-Amateur (Up-A)视觉语言预训练框架,同时挖掘模态内和跨模态知识。

这一训练框架分为两个预训练阶段:Upstream-Amateur for Global Representation (Up-A-G)和Upstream-Amateur for Local Representation (Up-A-L)。

其中,Up-A-G(左)使用群体监督功能,从更丰富的监督中学习。Up-A-L(右)采用局部自我监督学习方法,对训练好的视觉-语言模型进行调整,从而提高自身在密集预测CV任务中的表现。

Upstream-Amateur的框架

得益于这些内在的监督,DeCLIP-ResNet50可以在ImageNet上实现60.4%的zero-shot 精度第一。这比CLIP-ResNet50高出0.8%,数据使用量少了81%。当迁移到下游任务时,DeCLIP-ResNet50在11个视觉数据集中有8个优于CLIP。

更关键的是,训练完成的Upstream-Amateur为后续的训练阶段提供了一个很高的起点。

第二阶段,训练的是专业能力,被称为“专家模型”(Expert)。

Up-A阶段得到的基础模型,在一般的视觉识别问题上显示出优异的性能。但要完全掌握检测、分割等更具体的任务,还需要在每个任务中进行更专业的预训练,这就促成了第二个阶段的到来,专家模型。

对于每个专家,“书生”采用了一种简单的多头设计,每个头是一个特定数据集的子网络,从一个公共的、共享的“主干”分支出来。比如Up-E (C)、Up-E (D)和Up-E (S),分别用于图像分类、对象检测和语义分割。

第三阶段,训练的是组合能力,被称为“通才模型”(Generalist)。

上述的多任务是指不同数据集(如ImageNet和CIFAR)的一个视觉问题(如分类),或一个数据集的多个视觉问题(如分类和检测)。但关键是,如何将专家整合到一个统一的模型中,获得一个更加通用的视觉模型。因此,在预训练“专家”阶段之后,又将“通才”作为第三个预训练阶段,以进一步统一特征表示。

“书生”提出了一个新的范式,名为“混合参数共享”,从而开发一个名为“多面手”的通才模型。

具体来说,由于专家捕获的知识是相互关联的,当专家的特征融合为一个共享的表示形式时,再利用基于软共享的跨任务知识转移和基于硬共享的通用表示学习的方法,在不引入任务冲突的情况下在专家之间传递信息(特征转移),从而进一步提高了多任务训练的模型(专家)性能,即“通才”能力。

在结构上,通才模型是所有专家的一个相互关联的版本,因此可以把每个“专家主干”称为“通才分支”。此外,我们还可以根据训练相应专家的任务将通才中的每个分支分为图像、补丁和像素。但无论是软共享还是硬共享,都意味着从专家模型到通才模型的一次跃升。

在经历了前三个训练阶段模块后,终于来到最后的任务迁移阶段 (Adaptation)。

这个阶段属于技术链条的下游,用来解决各式各样不同类型的任务,而这也是最考验“书生”举一反三能力的时刻。它需要在这个阶段把之前学到的通用知识,融会贯通地应用到不同特定任务中。

在此之前,很多迁移学习方法确实取得了很多进步,但问题是,这些方法既没有利用上游预训练中的隐含信息,也没有考虑到下游数据在少镜头场景中的不足。

openai100亿(微软openai100亿美元)

因此,“书生”提出了一种Multi-stage Fine-tuning (MF)方法,缓解在数据较少的情况下传输的困难,再通过将上游数据编码成生成模型,即VQ-GAN,可以将预训练的模型转移到多个任务和领域,而无需每次都使用上游数据,而这也使得“书生”更具通用性和可扩展性。

多级微调(MF)概述:VQ-GAN模型首先在第一阶段使用上游数据进行训练,然后在第二阶段由它重构下游数据。在此之后,第三阶段只对新增任务的特定参数进行重新表示的图像训练,第四阶段则通过下游数据对整个模型进行微调。

至此,一个具有持续学习能力的通用视觉模型终于出世。

而具体有哪些提升,不如看一下更直观的实验数据对比!

3 一网打尽视觉领域四大任务

视觉领域,任务繁多,主流任务包含分类、目标检测、语义分割、深度估计四大类型。

在这四大任务中,最强大的视觉模型还是去年OpenAI发布的CLIP模型。但相比较而言,“书生”则在准确率和数据使用效率上都有所提升。

1、精度表现

通过对“书生”训练出的模型在GV-B上的评测对比,发现经过多阶段预训练的MetaNet精度表现优异。

在ImageNet等26个最具代表性的下游场景中, “书生”在分类、目标检测、语义分割及深度估计等四大任务上,平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。

书生(INTERN)与CLIP-R50x16在不同样本量上的性能对比,正确率展示

2、数据使用效率

“书生”在数据效率方面的提升尤为瞩目:只需要1/10的下游数据,就能超过CLIP基于完整下游数据训练的准确度。

以CLIP-R50x16和Up-G MN-B15在GV-B的评测对比为例,分别在分类、目标检测、语义分割、深度估计四大类型的26个下游任务数据集上进行了评测,仅使用了10%数据进行训练的Up-G MN-B15模型,在绝大部分数据集上都能比使用了全部训练数据的CLIP-R50有更好的精度表现。这表明,经过多阶段预训练的MetaNet具有极强的泛化能力,能够在仅有少量的训练样本情况下,达到SOTA的精度表现。

在下游视觉场景中,小样本训练带来的是极高的训练速度,以及极低的训练成本。

例如在花卉种类识别任务上,“书生“只需要每一类型的花卉提供两个训练样本,就能实现99.7%的准确率。

这个花卉数据集由102种英国常见的花组成,每个类别有40至258张图片。其中包含有很大的比例、姿势和光线变化。

102个类别的花卉数据集:

4 通用视觉平台,已正式开源

如此强大的通用视觉训练模型已经正式开源!

更关键的是,连同上述讲到的标签数据集、网络结构以及评测基准,均在OpenGVLab被统一打包开源。

其中的网络结构除了MetaNet,还包含大家普遍使用的ResNet, MobileNet, ViT, EfficientNet等,以满足不同场景的应用,赋能计算机视觉。

然而,「书生」的布局不止于此。

OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab一道,共同构筑开源体系OpenXLab,持续推进通用人工智能的技术突破和生态构建。

一位已经使用过此次开源平台的自动驾驶算法研究员表示:“书生系列模型充分覆盖了从移动可部署的小模型,到超大规模自研结构,为行业带来了希望,尤其是它的收敛速度,大幅节省了训练开销,是技术落地的一大助推器。“

不仅是自动驾驶领域,智慧城市、智慧医疗、智慧交通,以及千千万万其他的智能化领域,都将获得通用视觉模型带来的技术红利。

一位腾讯研究员大赞OpenGVLab:“能把这么大的工作开源出来真的是业界良心。简单用了一下,确实比CLIP要更fine-grained(细粒度更高)。”

而来自学界的师生也对此感慨有加:“OpenGVLab集成了大量各种量级的state-of-the-art(先进)模型,使用起来更得心应手,省去了对不同codebase、不同模型繁琐调研的烦恼。”

换句话说,当那些代码和公式脱去了枯燥乏味的外衣,人们才发现了真正的创造力。而这,也是技术创新与平台开源的魅力所在。

往近了说,用这款通用视觉模型打比赛,怕不是奖金多到飞起!在技术生产力的道路上,又诞生了一个致富小妙招!

目前,“书生”技术报告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平台发布。

论文地址:arxiv.org/abs/2111.08687

openai是什么

OpenAI是由诸多硅谷大亨联合建立的人工智能非营利组织,成立于2015年12月。

2016年11月16日,微软宣布,与由特斯拉首席执行官埃隆·马斯克和YCombinator总裁山姆·阿尔塔曼联合创建的估值达10亿美元的人工智能非盈利性研究公司OpenAI展开合作。

2019年7月23日,微软宣布出资10亿美元,投向知名AI研究机构OpenAI,双方达成一项多年合作协议——OpenAI在微软Azure云平台开发AI技术。2021年5月27日,OpenAI宣布与微软成立1亿美元的人工智能创业基金。

作为一个非盈利性人工智能项目,OpenAI的使命是 “推动数字智能的发展,同时不被财务回报所限制,从而造福整个人类”。OpenAI获得的投资承诺已经超过10亿美元,资金提供方包括Sam Altman、Elon Musk、PayPal联合创始人Peter Thiel、LinkedIn联合创始人Reid Hoffman、AWS、Infosys和YC Research等。

发展历史:

2015年12月12日,非盈利性的人工智能项目—OpenAI宣布正式启动,YCombinator总裁 Sam Altman和特斯拉CEO Elon Musk将共同担任OpenAI的联席主席。

2017年5月,OpenAI发布了一款能在“观看”人类搭积木后模仿这一行为的机器人。

2017年8月12日,在Dota 2国际邀请赛上Open AI公司的机器人在Dota2 1v1比赛中战胜了Dota人类顶级职业玩家Dendi。

2021年1月7日,旧金山人工智能研究公司OpenAI已经开发了一种新系统,能根据短文本来生成图像。OpenAI在官方博客中表示,这个新系统名为DALL-E,名称来源于艺术家萨尔瓦多·达利和皮克斯的机器人英雄瓦力的结合。新系统展示了“为一系列广泛的概念”创造图像的能力,创作的作品包括牛油果形状的扶手椅等。

全球十大数字创新技术出炉

点击蓝字

科技 创新世界潮。

全文共计2520字,预计阅读时间7分钟

来源 | 数据观综合(转载请注明来源)

编辑 | 蒲蒲

日前,联合国教科文组织2021年 Netexplo 创新论坛在网上举行。由技术领域全球知名大学组成的 Netexplo 大学网络历时一年,在全球范围内遴选出了10项极具突破性的数字创新技术,这些创新对 社会 具有深远而持久的影响。

阿根廷交易平台Abakus

受疫情影响,阿根廷经济遭受重创,也使该国农业部门的动荡加剧。鉴于此,阿根廷初创企业Abakus与瑞士区块链基础设施提供商CoreLedger推出了一个数字易货平台,旨在帮助农民克服金融波动带来的影响,打造数字易货经济。

Abakus系统基于一种以实物资产(例如大豆)为索引的加密货币,这种货币可能比本国不断波动的货币更稳定,而代币可以兑换成货物或比索。这两家公司表示,代币化农业资产将有助于农民对冲通货膨胀,并在国内和国际上获得流动性。

CoreLedger首席执行官Johannes Schweifer表示:“ 在一个饱受通货膨胀困扰的国家,获得有形资产的能力可能是这些农民生存与发展之间的区别。 ”

Abakus首席执行官Martin Furst表示:“ 由于国有公司的垄断地位,阿根廷的农民们难以生存,这些垄断者决定了农产品贸易的条件并大幅度削减了农产品。农业支持的代币解决了现金和股票储蓄计划固有的波动性和流动性问题。 ”

英国人工智能AlphaFold 2

在国际象棋和围棋领域取得巨大成功后,去年年底,人工智能再次大出风头。在国际蛋白质结构预测赛中,AlphaFold 2摘得桂冠,并破解了一个困扰人类50年的难题:预测蛋白质如何折叠。

据DeepMind官方宣布,该算法能够精确地基于氨基酸序列,预测蛋白质的3D结构,其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或X射线晶体学等实验技术解析的3D结构相媲美。

在过去50年中,“蛋白质折叠问题”一直是生物学界的重大挑战。此前,生物学家主要利用X射线晶体学或冷冻电镜等实验技术来破译蛋白质的三维结构,但这类方法耗时长、成本高。而AlphaFold 2不仅预测准确且效率高,有望促进医学领域不断取得进步。

美国图像生成系统Dall-E

美国人工智能非营利组织Open AI于今年1月份推出Dall—E,这是一个可以根据书面文字生成图像的人工智能系统。取名DALL-E,是为了向艺术家萨尔瓦多-达利(Salvador Dali )和皮克斯的机器人WALL-E致敬。

DALL-E是OpenAI基于GPT-3开发的一种新型神经网络。它是GPT-3的一个小版本,使用了120亿个参数,而不是1750亿个参数。但它已经经过专门训练,可以从文本描述生成图像,使用的是文本-图像对的数据集,而不是像GPT-3这样非常广泛的数据集。它可以使用自然语言从文字说明中创建图像,就像GPT-3创建网站和故事一样。

德国文本AI模型GPT-Neo

OpenAI的GPT—3被认为是目前最好的人工智能文本生成器,其拥有1750亿个参数,现已被数万开发者用于300多个不同的应用程序,每天输出45亿词之多。

但它是收费的,这阻碍了更多开发人员的采用,也不利于文本AI的快速发展。有鉴于此,德国Eleuther人工智能公司于今年3月下旬推出开源的文本AI模型GPT—Neo,以弥补这方面的缺憾。研究人员称,GPT—Neo的推出将会催生出一大批崭新应用,也会以更为低廉的成本释放人们对人工智能未来的想象力。

本质上,GPT-Neo有点像是GPT系列的“高仿”项目:GPT-Neo中的各种模型,设计原理接近GPT系列,但代码并不一样。作者们打算尝试各种结构和注意力类型,最终扩展出GPT-3大小的大语言模型。为了实现这一目标,他们从复现GPT系列的模型开始,不断尝试各种模型架构、和各种注意力机制的实现方式。

中国量子计算机“九章”

“九章”是由中国科学技术大学潘建伟、陆朝阳等学者研制的76个光子的量子计算原型机。

实验显示,当求解5000万个样本的高斯玻色取样时,“九章”需200秒,而目前世界最快的超级计算机“富岳”需6亿年。等效来看,“九章”的计算速度比“悬铃木”快100亿倍,并弥补了“悬铃木”依赖样本数量的技术漏洞。

这一成果使得我国成功达到了量子计算研究的第一个里程碑:量子计算优越性(国外也称之为“量子霸权”),并牢固确立了我国在国际量子计算研究中的第一方阵地位,为未来实现可解决具有重大实用价值问题的规模化量子模拟机奠定了技术基础。

对于“九章”的突破,《科学》杂志审稿人评价该工作是“一个最先进的实验”(astate-of-the-artexperiment),“一个重大成就”(a major achievement)。

美国人工智能“神经破译”

“神经破译”是由MIT CSAIL和谷歌大脑的研究者携手开发的一款人工智能软件,基于语言进化原理,可以在不知道语言来源的情况下破译古代语言,并揭示某种语言和其他语言之间的关联。

研究者们利用同一语族内不同语言之间的联系,用该人工智能破译了两种失传的语言:乌加里特文和线性文字B,堪称现代版的“罗塞塔石碑”!(PS:罗塞塔石碑是一块用3种语言写了同一个内容的石碑,帮助语言学家们读懂古文字。)

乌加里特文(Ugaritic),是一种楔形文字,属于闪米特语族。从字面上来看,就知道它是一个叫做乌加里特(Ugarit)的文明使用的语言,这个文明位于当今地中海沿岸的叙利亚,在公元前6000年前后就初现踪迹,在公元前1190年前后灭亡。

线性文字B(Linear B),由一种人类还没有破译出来的线性文字A演化而来,主要存活于公元前1500年到公元前1200年的克里特岛和希腊南部,是希腊语的一种古代书写形式。

未来,在这项研究起作用的情况下,或许可以像借助罗曼语族三种语言的数据库一样,直接用机器借助其他已知的人类语言,实现暴力破解。

印度区块链应用程序Smashboard

Smashboard网站称自己是一个“另类的社交媒体网络,为性侵受害者提供独特的功能,目的是通过减少报案带来的心理创伤,让他们的生活更轻松”。

借助区块链技术,Smashboard允许用户创建他们所遭受犯罪的私人和加密账本,并将其安全地存储在网上。例如,Smashboard为用户提供了收集材料的选项,“这些材料可作为日记,也可作为加密个人空间中的时间戳证据”。更重要的是,该应用程序允许性虐待受害者找到法律顾问或律师,并与他们私下互动。受害者还可以与女权主义新闻工作者建立联系,甚至可以给他们匿名举报。

目前,Smashboard的另一个障碍是应用的覆盖范围。该应用程序目前只能使用三种语言-英语,法语和西班牙语。这意味着该应用无法覆盖使用印度当地语言的性虐待受害者。

澳大利亚人工智能“蠕虫大脑驱动器”

研究人员从蠕虫微小的大脑中获得灵感,开发出一种能够控制自动驾驶 汽车 的人工智能系统“蠕虫大脑驱动器”。与大多数网络中使用数百万个神经元相比,该系统只需要几个神经元。

该系统只用了控制电路中的19个神经元和7.5万个参数,就成功控制了一辆 汽车 。研究小组相信他们的新方法可减少训练时间,并使人工智能在相对简单的系统中实现成为可能。

openai和微软的关系

合作关系。

1月23日消息,微软宣布,将扩大与OpenAI的合作关系,OpenAI是艺术和文本生成人工智能系统(如ChatGPT、DALL-E2和GPT-3)背后的创业公司,其将获得微软“多年、数十亿美元”的投资,具体数额没有披露,有媒体报道称是100亿美元。OpenAI表示,新资本的注入将用于继续研究和“开发越来越安全、有用和强大的人工智能”。

微软(Microsoft)是一家美国跨国科技企业,1975年4月4日创立。2021财年微软营收为1681亿美元,净利润为613亿美元,公司总部设立在华盛顿州雷德蒙德(Redmond,邻近西雅图),以研发、制造、授权和提供广泛的电脑软件服务业务为主。

chat币值得投资吗

史上最强AI聊天机器人ChatGPT自推出以来,迅速席卷整个科技行业。

微软匆忙斥资100亿美元与背后的OpenAI套近乎,并宣布将其整合到to B和To C的几乎所有产品线中,如Office family barrels、Bing search和Azure cloud services,只要能上传遍。

在微软的老对手谷歌上,不断有高管出来说,如果我们不采取行动,ChatGPT会学得越来越好,别说谷歌搜索了,整个谷歌都没了。

就连看起来和ChatGPT关系不大的NVIDIA也赢了一波。 【/h/】因为ChatGPT的爆红,投资者对AI计算的前景趋之若鹜。2023年,黄仁勋的财富增加了51亿美元,单月位居福布斯财富榜榜首。

当然普通用户是最开心的。聊天假装专家回答问题也没什么。有人用它来“辅助”写论文,并给它起了个名字。 还有人用它做作业,吓死老师。

这里先不说用AI工具做这些事的道德争议。它的一个直接结果就是:

ChatGPT卡顿。 新申请API的用户进入“等待名单”,高峰时段用户需要频繁排队,有时会被卡,停止响应。

怎么解决?面对摇钱树,OpenAI选择了最实在的方式:收费,每月20美元起。

今天,OpenAI正式公布了ChatGPT的“试点订阅计划”,这是一项名为ChatGPT Plus的付费服务。