最新要闻
- 用图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统
- 3月新增装机同比翻倍,风电进入成长新周期!社保+养老金盯上风塔龙头,高增长潜力股仅13只-热讯
- 义翘神州:公司CRO业务份额在全球市场占比仍较小 还有较大上升空间_每日时讯
- 全球要闻:学前必备口心算:20以内的进退位加减法
- 微动态丨北京116亿元挂牌海淀区及朝阳区3宗宅地 占地面积约16.36万平方米
- 环球热头条丨死刑!重庆姐弟坠亡案二审维持原判 案件始末回顾
- 5月11日国内丁二烯市场交投僵持|全球报道
- 5月11日 10:42分 热景生物(688068)股价快速拉升
- 【环球播资讯】琴澳时美生物医药科技 珠海有限公司_关于琴澳时美生物医药科技 珠海有限公司介绍
- 关注:大金融板块继续下挫,西安银行触及跌停
- 信用卡欠10万无力偿还怎么办判几年|每日热点
- 乌鲁木齐:“农家乐”大厨展厨艺拼技能|世界信息
- 每日消息!塞萨尔:迈尼昂准确预判挡出了哲科的单刀,阻止了国米的第三球
- 全球今亮点!我市研发的全省首个“一网统管”小程序正式上线
- 这件事让汉武帝打垮了所有外戚,武帝:我都后悔死了_全球新消息
- 河北大学研究生院生技院导师名单公布_河北大学研究生院生技院导师名单
5G

首例5g乳腺手术价格是多少钱?首例5g乳腺手术成功率是多少?

电信光纤多少钱一年?电信光纤价格表
- 首例5g乳腺手术价格是多少钱?首例5g乳腺手术成功率是多少?
- 电信光纤多少钱一年?电信光纤价格表
- 5g流量消耗会不会很快?手机打开5g好还是关闭5G好?
- 5g怎么变成4g信号?5g手机排名前十名一览
- 5g和4g的区别在哪里?5g首批城市名单
- 5g是谁最先研发出来的?5g是什么意思?
科技
用图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统
机器之心报道
机器之心编辑部
Meta 新的开源模型 ImageBind 将多个数据流连接在一起,适用于文本、视频和音频等 6 种模态。
【资料图】
在人类的感官中,一张图片可以将很多体验融合到一起,比如一张海滩图片可以让我们想起海浪的声音、沙子的质地、拂面而来的微风,甚至可以激发创作一首诗的灵感。图像的这种「绑定」(binding)属性通过与自身相关的任何感官体验对齐,为学习视觉特征提供了大量监督来源。
理想情况下,对于单个联合嵌入空间,视觉特征应该通过对齐所有感官来学习。然而这需要通过同一组图像来获取所有感官类型和组合的配对数据,显然不可行。
最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此,视频 - 音频嵌入无法直接用于图像 - 文本任务,反之亦然。学习真正的联合嵌入面临的一个主要障碍是缺乏所有模态融合在一起的大量多模态数据。
今日,Meta AI 提出了 ImageBind ,它通过利用多种类型的图像配对数据来学习单个共享表示空间。该研究不需要所有模态相互同时出现的数据集,相反 利用到了图像的绑定属性,只要将每个模态的嵌入与图像嵌入对齐,就会实现所有模态的迅速对齐 。Meta AI 还公布了相应代码。
论文地址:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf
GitHub 地址:https://github.com/facebookresearch/ImageBind
具体而言,ImageBind 利用网络规模(图像、文本)匹配数据,并将其与自然存在的配对数据(视频、音频、图像、深度)相结合,以学习单个联合嵌入空间。这样做使得 ImageBind 隐式地将文本嵌入与其他模态(如音频、深度等)对齐,从而在没有显式语义或文本配对的情况下,能在这些模态上实现零样本识别功能。
下图 2 为 ImageBind 的整体概览。
与此同时,研究者表示 ImageBind 可以使用大规模视觉语言模型(如 CLIP)进行初始化,从而利用这些模型的丰富图像和文本表示。因此,ImageBind 只需要很少的训练就可以应用于各种不同的模态和任务。
ImageBind 是 Meta 致力于创建多模态 AI 系统的一部分,从而实现从所有相关类型数据中学习。随着模态数量的增加,ImageBind 为研究人员打开了尝试开发全新整体性系统的闸门,例如结合 3D 和 IMU 传感器来设计或体验身临其境的虚拟世界。此外它还可以提供一种探索记忆的丰富方式,即组合使用文本、视频和图像来搜索图像、视频、音频文件或文本信息。
绑定内容和图像,学习单个嵌入空间
人类有能力通过很少的样本学习新概念,比如如阅读对动物的描述之后,就可以在实际生活中认出它们;通过一张不熟悉的汽车模型照片,就可以预测其引擎可能发出的声音。这在一定程度上是因为单张图像可以将整体感官体验「捆绑」在一起。然而在人工智能领域,虽然模态数量一直在增加,但多感官数据的缺乏会限制标准的需要配对数据的多模态学习。
理想情况下,一个有着不同种类数据的联合嵌入空间能让模型在学习视觉特征的同时学习其他的模态。此前,往往需要收集所有可能的配对数据组合,才能让所有模态学习联合嵌入空间。
ImageBind 规避了这个难题,它利用最近的大型视觉语言模型它将最近的大规模视觉语言模型的零样本能力扩展到新的模态,它们与图像的自然配对,如视频 - 音频和图像 - 深度数据,来学习一个联合嵌入空间。针对其他四种模式(音频、深度、热成像和 IMU 读数),研究者使用自然配对的自监督数据。
通过将六种模态的嵌入对齐到一个公共空间,ImageBind 可以跨模态检索未同时观察到的不同类型的内容,添加不同模态的嵌入以自然地对它们的语义进行组合,以及结合使用 Meta AI 的音频嵌入与预训练 DALLE-2 解码器(设计用于与 CLIP 文本嵌入)来实现音频到图像生成。
互联网上存在大量连同文本一起出现的图像,因此训练图像 - 文本模型已经得到了广泛的研究。ImageBind 利用了图像能与各种模态相连接的绑定属性,比如利用网络数据将文本与图像连接起来,或者利用在有 IMU 传感器的可穿戴相机中捕捉到的视频数据将运动与视频连接起来。
从大规模网络数据中学习到的视觉表征可以用作学习不同模态特征的目标。这使得 ImageBind 将图像与同时出现的任何模态对齐,自然地使这些模态彼此对齐。热图和深度图等与图像具有强相关性的模态更容易对齐。音频和 IMU(惯性测量单元)等非视觉的模态则具有较弱的相关性,比如婴儿哭声等特定声音可以搭配各种视觉背景。
ImageBind 表明,图像配对数据足以将这六种模态绑定在一起。该模型可以更全面地解释内容,使不同的模态可以相互「对话」,并在没有同时观察它们的情况下找到它们之间的联系。例如,ImageBind 可以在没有一起观察音频和文本的情况下将二者联系起来。这使得其他模型能够「理解」新的模态,而不需要任何资源密集型的训练。
ImageBind 强大的 scaling 表现使该模型能够替代或增强许多人工智能模型,使它们能够使用其他模态。例如虽然 Make-A-Scene 可以通过使用文本 prompt 生成图像,但 ImageBind 可以将其升级为使用音频生成图像,如笑声或雨声。
ImageBind 的卓越性能
Meta 的分析表明,ImageBind 的 scaling 行为随着图像编码器的强度而提高。换句话说,ImageBind 对齐模态的能力随着视觉模型的能力和大小而提升。这表明,更大的视觉模型对非视觉任务有利,如音频分类,而且训练这种模型的好处超出了计算机视觉任务的范畴。
在实验中,Meta 使用了 ImageBind 的音频和深度编码器,并将其与之前在 zero-shot 检索以及音频和深度分类任务中的工作进行了比较。
在基准测试上,ImageBind 在音频和深度方面优于专家模型。
Meta 发现 ImageBind 可以用于少样本音频和深度分类任务,并且优于之前定制的方法。例如,ImageBind 明显优于 Meta 在 Audioset 上训练的自监督 AudioMAE 模型,以及在音频分类上微调的监督 AudioMAE 模型。
此外,ImageBind 还在跨模态的零样本识别任务上取得了新的 SOTA 性能,甚至优于经过训练以识别该模态概念的最新模型。
参考链接:https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
关键词:
-
-
【环球快播报】*ST海投年报遭问询 要求说明报告期实现净利润较修正后的预计净利润差异较大的原因
*ST海投5月11日收深交所年报问询函,公司于2023年3月2日披露《2022年度业绩预告修正公告》,预计公司2022年
来源: -
景格科技2022年上半年亏损922.22万 同比亏损减少 成本与费用减少-实时
挖贝网8月29日,景格科技(430638)近日发布2022年半年度报告,报告期内公司实现营业收入31,295,230 3
来源: -
用图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统
【环球快播报】*ST海投年报遭问询 要求说明报告期实现净利润较修正后的预计净利润差异较大的原因
景格科技2022年上半年亏损922.22万 同比亏损减少 成本与费用减少-实时
崩了 可转债史上最低价!30年零违约历史或被打破
3月新增装机同比翻倍,风电进入成长新周期!社保+养老金盯上风塔龙头,高增长潜力股仅13只-热讯
热头条丨不是李霄鹏,山东鲁能新帅基本锁定,3选1,亚冠名帅或成黑马
如何把照片变小放入ppt中_如何把照片变小_环球观速讯
低烧是多少度感觉冷_低烧是多少度 焦点观察
义翘神州:公司CRO业务份额在全球市场占比仍较小 还有较大上升空间_每日时讯
每日信息:宏宇新岸线
一胜一平就能晋级?亚洲杯抽签最大看点:国足能赢谁
世界快看点丨燕窝怎么吃营养好_燕窝怎么吃最有营养
【光明时评】烧烤火爆出圈 激发经济活力 每日视讯
全球要闻:学前必备口心算:20以内的进退位加减法
即时看!四川峨眉山:高山杜鹃渐次开 一路行走一路花
天天实时:华西证券给予中国人寿买入评级 寿险行业龙头 负债端量稳质提 目标价格为46.3元
微动态丨北京116亿元挂牌海淀区及朝阳区3宗宅地 占地面积约16.36万平方米
采用传统文化设计 红旗H9+不息艺术版发布|今日快讯
观点:欧股周三收跌 欧央行或即将结束加息
爱成都迎大运 全球快看点
环球热头条丨死刑!重庆姐弟坠亡案二审维持原判 案件始末回顾
热点在线丨石景山首发律师行业社会责任报告,多项创新举措全市推广
西班牙多人因涉嫌非法挖掘水井种植热带水果被捕 世界看热讯
J.D. Power研究:中国消费者新能源汽车购买意愿连续六年上升 全球即时
5月11日国内丁二烯市场交投僵持|全球报道
2022年上市物企CEO薪资榜:超五成降薪,浦江中国降幅83%居首-全球讯息
温榆河公园油菜花梯田引游客打卡,大片花田被踩出条条“小路” 世界今日讯
马寨镇中心幼儿园垃圾分类主题活动举行
5月11日 10:42分 热景生物(688068)股价快速拉升
中新社副总编辑俞岚:彰显主流媒体责任担当,赋能中国品牌扬帆出海
天舟六号货运飞船与空间站组合体完成交会对接
视焦点讯!上海人警惕!口服玻尿酸,真能让人变美吗?
当前速读:会诊通知!济南肤康中研皮肤病医院特邀北京空军总院专家来院联合会诊
【环球播资讯】琴澳时美生物医药科技 珠海有限公司_关于琴澳时美生物医药科技 珠海有限公司介绍
揭秘“AI+教育”两大核心路径|环球头条
北京国丹医院 PRP-CK国丹色素移植推广月正式启动
天天滚动:高考倒计时不足1个月,教育部部署这个重中之重
环球速递!装饰公司起名_大气的装饰公司名字大全
数码视讯:全资子公司中标歌华有线2022年CMC-OLT设备采购项目|环球速看料
哈弥尔顿_哈弥尔顿坎普
关注:大金融板块继续下挫,西安银行触及跌停
云南首家京东MALL将于6月18日开业 经营面积近4万平方米
天舟六号货运飞船发射任务取得圆满成功
巴顿于洋工体收获热烈掌声 于根伟遗憾被追平斯坦利坦言感受很差 全球实时
信用卡欠10万无力偿还怎么办判几年|每日热点
焦点热门:高考倒计时不足1个月,教育部部署这个重中之重
当前信息:76人队最新消息!最佳阵容出炉,多人替哈登鸣不平,老里敲响警钟
乌鲁木齐:“农家乐”大厨展厨艺拼技能|世界信息
好读书是什么意思网络用语_好读书是什么意思 世界关注
观焦点:有色金属行业:有色板块一季报总结及展望
德赛电池:融资净偿还394.54万元,融资余额4.98亿元(05-10)
每日消息!塞萨尔:迈尼昂准确预判挡出了哲科的单刀,阻止了国米的第三球
热议:粤桂协作增强发展内生动力
鞋子是240是多少码_鞋子240是什么码简介介绍
重点聚焦!八字看你适合学道还是学佛-皈依三宝是什么意思
全球今亮点!我市研发的全省首个“一网统管”小程序正式上线
以军再次空袭加沙 两天超20人死亡-全球消息
推动数字赋能 辽宁评定首批省级智慧旅游景区_世界观焦点
遏制畸高房产交易中介费-天天时快讯
这件事让汉武帝打垮了所有外戚,武帝:我都后悔死了_全球新消息
大心脏!哲科仅3次出战欧冠半决赛,面对利物浦&米兰均取得进球
全球快报:express scripts
东华软件怎么样待遇|世界热资讯
河北大学研究生院生技院导师名单公布_河北大学研究生院生技院导师名单
全球速看:消息称苹果 iPhone 未来改用micro LED面板
世界动态:总曝光量突破20亿,快手、余额宝、中青报共同打造“小挣青年”
5月10日资金流向:装饰板块股票资金流向一览表|信息
干细胞板块5月10日涨0.5%,中航产融领涨,主力资金净流出3.55亿元 每日热讯
转业士官安置定岗定编相关文件_转业士官安置定岗定编 热资讯
飞机解体是什么意思呀_飞机解体是什么意思
关于林冲的故事情节以及他的性格特点_关于林冲的故事情节
齐齐哈尔景点有哪些_齐齐哈尔景点|世界热讯
福建龙岩找到3名防汛巡查中落水失联干部 均无生命体征 环球新消息
全球速看:大快人心!中国冰雪官宣,谷爱凌国籍尘埃落定,续约薪资年薪曝光
全球观焦点:web 8章11节 翻译《吵死了》
非法持有毒品罪如何成功取保候审不逮捕,不逮捕会有案底吗?
热门看点:老小区清理“顽疾”,营造舒适居住环境
北部湾港2022年年度每10股派1.73元 股权登记日为5月16日
2023北京消费季夜京城活动启动 将开展百余项主题活动
有望6月发布,苹果MR是否会上演下一个“iPhone时刻”? 焦点速递
森马服饰:利润分配股权登记日为2023年5月17日
中特估再重估|连续两天大跌后,短炒告一段落?后续如何选股
5G标准必要专利全球排名公布:中国5家企业榜上有名,苹果无缘前十_焦点信息
济南南郊医院护理部组织《人本位·我先行》主题演讲比赛_环球播报
义诊通知丨5月11日,中国红十字基金会专家进基层大型义诊活动走进临沭县人民医院
产后访视“零”距离,暖心服务送到家
郑州市“揭榜领题”指导组赴前程指导社区治理工作
当前报道:「陇警快讯」临夏永靖:成功抓获4名上网逃犯
尼康发布全画幅微单数码相机Z 8
真我11 Pro+体验分享!堪称质价比之王,两亿像素实现越级影像效果_世界快播
春季出游,为什么要选奔腾T99?_天天观焦点
观察:世纪瑞科完成对“交个朋友”全资收购
天天速递!琴似站_关于琴似站介绍
全球时讯:100平方室内养殖什么?
中国传统体育项目有哪些_传统体育项目有哪些_环球实时
求婚用的气球和花哪里有卖_求好用的qq好友密探
房产中介迎监管,透露了什么信号丨南财号联播
捧杀是什么意思呀(捧杀是什么意思)
今热点:广州vs石家庄功夫首发:广州队轮换多人,王世杰突前凌杰替补
筑牢安全墙危险无处藏——绵阳市万达校园展开防灾减灾暨应急分散演练,具体是怎么回事? 最新快讯