您当前的位置：首页动态正文

当「分割一切」遇上图像修补：无需精细标记，单击物体实现物体移除、内容填补、场景替换-环球热议

2023-04-19 08:38:07 机器之心

机器之心专栏

机器之心编辑部

(相关资料图)

这次，强大的「分割一切」模型——Segment Anything Model，在图像修补任务上碰撞出了火花。

4 月初，Meta 发布了史上首个图像分割基础模型--SAM（Segment Anything Model）[1]。作为分割模型，SAM 的能力强大，操作使用方式也十分友好，比如用户简单地点击来选择对应物体，物体就会立即被分割出来，且分割结果十分精准。截至 4 月 15 号，SAM 的 GitHub 仓库的 Star 数高达 26k。

如何利用好如此强大的「分割一切」模型，并拓展到更加有实际需求的应用场景至关重要。例如，当 SAM 遇上实用的图像修补（Image Inpainting）任务会碰撞出什么样的火花？

来自中国科学技术大学和东方理工高等研究院的研究团队给出了令人惊艳的答案。基于 SAM，他们提出「修补一切」（Inpaint Anything，简称 IA）模型。区别于传统图像修补模型，IA 模型无需精细化操作生成掩码，支持了一键点击标记选定对象，IA 即可实现移除一切物体（Remove Anything）、填补一切内容（Fill Anything）、替换一切场景（Replace Anything），涵盖了包括目标移除、目标填充、背景替换等在内的多种典型图像修补应用场景。

论文链接：http://arxiv.org/abs/2304.06790

代码库链接：https://github.com/geekyutao/Inpaint-Anything

方法介绍

尽管当前图像修补系统取得了重大进展，但它们在选择掩码图和填补空洞方面仍然面临困难。基于 SAM，研究者首次尝试无需掩码（Mask-Free）图像修复，并构建了「点击再填充」（Clicking and Filling）的图像修补新范式，他们将其称为修补一切（Inpaint Anything）（IA）。IA 背后的核心思想是结合不同模型的优势，以建立一个功能强大且用户友好的图像修复系统。

IA 拥有三个主要功能：(i) 移除一切（Remove Anything）：用户只需点击一下想要移除的物体，IA 将无痕地移除该物体，实现高效「魔法消除」；(ii) 填补一切（Fill Anything）：同时，用户还可以进一步通过文本提示（Text Prompt）告诉 IA 想要在物体内填充什么，IA 随即通过驱动已嵌入的 AIGC（AI-Generated Content）模型（如 Stable Diffusion [2]）生成相应的内容填充物体，实现随心「内容创作」；(iii) 替换一切（Replace Anything）：用户也可以通过点击选择需要保留的物体对象，并用文本提示告诉 IA 想要把物体的背景替换成什么，即可将物体背景替换为指定内容，实现生动「环境转换」。IA 的整体框架如下图所示：

Inpaint Anything（IA）示意图。用户可以通过单击来选择图像中的任何物体。借助强大的视觉模型，如 SAM [1]、LaMa [3] 和 Stable Diffusion (SD) [3]，IA 能够平滑移除选定物体（即 Remove Anything）。进一步地，通过向 IA 输入文本提示，用户可以用任何想要的内容填充物体（即 Fill Anything）或者任意替换对象的物体（即 Replace Anything）。

移除一切

移除一切（Remove Anything）示意图

「移除一切」步骤如下：

第 1 步：用户点击想要移除的物体；

第 2 步：SAM 将该物体分割出来；

第 3 步：图像修补模型（LaMa）填补该物体。

填补一切

填补一切（Fill Anything）示意图，图中使用的文本提示：a teddy bear on a bench

「填补一切」步骤如下：

第 1 步：用户点击想要移除的物体；

第 2 步：SAM 将该物体分割出来；

第 3 步：用户通过文本示意想要填充的内容；

第 4 步：基于文本提示的图像修补模型（Stable Diffusion）根据用户提供的文本对物体进行填充。

替换一切

替换一切（Replace Anything）示意图，图中使用的文本提示：a man in office

「填补一切」步骤如下：

第 1 步：用户点击想要移除的物体；

第 2 步：SAM 将该物体分割出来；

第 3 步：用户通过文本示意想要替换的背景；

第 4 步：基于文本提示的图像修补模型（Stable Diffusion）根据用户提供的文本对物体的背景进行替换。

模型结果

研究者随后在 COCO 数据集 [4]、LaMa 测试数据集 [3] 和他们自己用手机拍摄的 2K 高清图像上对 Inpaint Anything 进行测试。值得注意的是，研究者的模型还支持 2K 高清图和任意长宽比，这使得 IA 系统在各种集成环境和现有框架中都能够实现高效的迁移应用。

移除一切实验结果

填充一切实验结果

文本提示：a camera lens in the hand

文本提示：an aircraft carrier on the sea

文本提示：a sports car on a road

文本提示：a Picasso painting on the wall

替换一切实验结果

文本提示：sit on the swing

文本提示：breakfast

文本提示：a bus, on the center of a country road, summer

文本提示：crossroad in the city

总结

研究者建立这样一个有趣的项目，来展示充分利用现有大型人工智能模型所能获得的强大能力，并揭示「可组合人工智能」（Composable AI）的无限潜力。项目所提出的 Inpaint Anything (IA) 是一种多功能的图像修补系统，融合了物体移除、内容填补、场景替换等功能（更多的功能正在路上敬请期待）。

IA 结合了 SAM、图像修补模型（例如 LaMa）和 AIGC 模型（例如 Stable Diffusion）等视觉基础模型，实现了对用户操作友好的无掩码化图像修复，同时支持「点击删除，提示填充」的等「傻瓜式」人性化操作。此外，IA 还可以处理具有任意长宽比和 2K 高清分辨率的图像，且不受图像原始内容限制。

目前，项目已经完全开源。最后，欢迎大家分享和推广 Inpaint Anything (IA) ，也很期待看见更多基于 IA 所拓展的新项目。未来，研究者将进一步挖掘 Inpaint Anything (IA) 的潜力以支持更多实用的新功能，如细粒度图像抠图、编辑等，并将其应用到更多现实应用中。

参考文献

[1] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao,Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

[2] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern

Recognition, pages 10684–10695, 2022.

[3] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 2149–2159, 2022.

[4] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference,

Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer, 2014.

©THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

关键词：

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

当「分割一切」遇上图像修补：无需精细标记，单击物体实现物体移除、内容填补、场景替换-环球热议

2023-04-19

机器之心专栏机器之心编辑部这次，强大的「分割一切」模型——SegmentAnythingModel，在图像修补任务上碰撞出了火花。4月初，Meta发布了史上首
双重组织生活会多久一次_双重组织生活

2023-04-19

1、党员领导干部双重组织生活制度党员领导干部参加双重组织生活制度，是指党员领导干部既要参加所在单位的党支部
转载 | 基于词嵌入技术的心理学研究: 方法及应用|播报

2023-04-19

作者:包寒吴霜的个人主页精选文章管理世界|使用文本分析词构建并测量短视主义管理世界|使用经营讨论与分析测量企业数字化指标管理世界|用正则
嫡女五小姐逆袭记世界视讯

2023-04-19

1、《嫡女五小姐逆袭记》是连载于17K小说网的一部幻想言情类网络小说，作者是寒芷熏。2、。文章到此就分享结束，希望对
穿越之乖巧小夫郎全文阅读-穿越之乖巧小夫郎天天速递

2023-04-19

1、穿越之乖巧小夫郎作者：戏楼蒹葭文案：陆唯是个孤儿，从小无亲无故，在他二十岁那年，不幸穿越到一个不存在的朝代，这里只有汉子和哥儿，他
喝酒就能做的生意（喝酒就能做的生意叫什么）

2023-04-19

今天是中秋佳节啊，老高在这里代表我们生意大本营祝大家节日快乐，合家幸福。呃，我先给大家看个东西哈，之前有跟大家说过，我们的解酒茶啊，
苏常柴Ａ：厚生新能源为我公司参股公司，具体生产经营信息请查阅厚生新能源官方消息

2023-04-19

苏常柴Ａ(000570)04月18日在投资者关系平台上答复了投资者关心的问题。
简讯：OPPO官宣ColorOS 13.1正式版即将推送，多达55款机型支持升级

2023-04-19

关注数码圈的小伙伴应该都知道，在不久前的FindX6系列发布会上，OPPO不仅推出了两款旗舰新机，而且还发布了全新的ColorOS13 1系统。在近日，OP
欧德_世界即时

2023-04-19

1、欧德，1986年2月17日出生于新西兰北帕默斯顿，新西兰足球运动员。2、现效力于基尔马诺克球队。
百色市人社局到西林县开展人事人才工作调研_天天速看

2023-04-19

百色市人社局到西林县开展人事人才工作调研
每日速看!在荷乙联赛中，阿贾克斯二队和PSV埃因霍温二队之...

2023-04-19

在荷乙联赛中，阿贾克斯二队和PSV埃因霍温二队之间上演了一场不可思议的对攻大战，以5:4的比分结束：弗朗西斯科·孔塞桑(20岁)：2球洛伦佐·卢
马斯克震惊，中方回应-时快讯

2023-04-19

美政府被爆能查所有推特用户私信，汪文斌：应了互联网流传的一句话在4月18日举行的外交部例行记者会上，有记者提问，据报道，
印尼制定“撤侨计划”_台当局被批执政后让台海变成最严峻的地方

2023-04-19

【环球时报特约记者陈立非】鉴于台海局势持续紧张，印度尼西亚正在为35万在台湾工作的公民制定“撤侨计划”。台湾《中国时报》
choker是什么意思网络用语（choker是什么）_环球播报

2023-04-19

1、Choker实际上是项链的意思。如果要用英文中项链的意思，可以用英文单词choker代替，choker这个词在时尚圈
山西煤炭反腐风暴未了：同煤系为重灾区多人退休后仍被查_最新

2023-04-19

山西煤炭领域反腐持续深入，总资产超万亿的能源巨头晋能控股集团处于这股漩涡的中心。山西省纪委监委网站4月14日晚披露，晋能控股集团有限公司
解锁2023小升初语文必背知识点总结，助你轻松应对考试！-天天通讯

2023-04-19

亲爱的家长和同学们，小升初考试作为每个小学生升入初中的重要一关，语文科目作为其中的一项重要考核内容，备考语文知识点的掌握显得尤为关键
环境保护论者_关于环境保护论者介绍-精选

2023-04-19

环境保护论者，关于环境保护论者介绍这个很多人还不知道,我们一起来看看！1、环境保护是指人类为解决现实的或潜在的环境问题。2、协调人类与环
从抓“恢复”到促“扩大” 写好促消费这篇文章每日快讯

2023-04-19

今年是“消费提振年”。如何恢复和扩大消费，来写好促消费这篇文章？我市各地创新方式方法，挖掘新产业、新业态、新模式。通过拓展消费载体和
迈入电动超跑品牌，玛莎拉蒂是否交出成绩？-天天报道

2023-04-19

2021年的上海车展，玛莎拉蒂全球首演品牌第一款配置48v轻油电动力系统的SUV：Levante(参数|询价)GT；两年后的今天，同样在上海车展的舞台上，玛莎拉
武昌南湖街道：垃圾分类“进校园”，引领绿色 “新风尚”

2023-04-19

武昌南湖街道：垃圾分类“进校园”，引领绿色“新风尚”---
Xiaohu：教练肯定要找新的，都是重量级人物我只能说当前通讯

2023-04-19

今日Xiaohu在直播中透露战队的最新消息，他直言教练肯定要找新的，都是重量级人物。
员工在家加班后猝死,单位是否担责

2023-04-19

一、员工在家加班后猝死,单位是否担责员工在家加班后猝死,单位一般要担责。员工在家加班后猝死，单位是要担责的，虽然员工加班
瑞典克朗兑换人民币汇率今日最新查询（2023年4月18日）_世界新视野

2023-04-18

瑞典克朗兑换人民币汇率今日最新查询（2023年4月18日）
专利流氓？诺基亚靠打官司摇钱

2023-04-18

图源：pixabay作者 | 王婷编辑 | 史成超据外媒Foss Patents披
天天快报!隆盛科技(300680)：2022总体承压成长业务放量

2023-04-18

事件概述公司发布2022年报及2023年一季报：2022全年实现营收11 48亿元，同比+23 5%，归母净利0 76亿元，同比-22 6%，扣非归母
小米13 Ultra升级USB 3.2：传输速度快10倍_短讯

2023-04-18

小米13Ultra升级USB3 2：传输速度快10倍
年内“最贵新股”索辰科技盘中破发！一季度预亏超1600万|今日观点

2023-04-18

年内“最贵新股”索辰科技盘中破发！一季度预亏超1600万
袭击岸田文雄的嫌疑人对选举年龄设限不满，曾要求日本政府赔偿10万日元|天天微头条

2023-04-18

袭击岸田文雄的嫌疑人对选举年龄设限不满，曾要求日本政府赔偿10万日元---据日本《读卖新闻》18日报道，在日本首相岸田文雄发表演讲的现场投掷
g7007高铁时刻表查询_g7007_当前观点

2023-04-18

1、大众飞歌导航G7007通电不开机的原因有以下几种：1 保险烧断了。2、这种情况先检查，保险丝是不是烧坏，如果正常就要把机子拆下来在机子后面
世界时讯：[快讯]德马科技公布年报

2023-04-18

CFi CN讯：德马科技（股票代码：688360）公布德马科技2022年年度报告摘要。2022年2021年本年比上年增减(%)2020年总资产1,724,11