亚洲精典工艺制品(东莞)有限公司

  2022 超全的 AI 圈研究合集这!知名博 Louis Bouchard 自制视频讲解加篇分析,对白也超级友。虽然世界在复苏,但究并没有放其狂热的步,尤其是在工智能领域此外,今年们对 AI 伦理、偏见治理和透明都有了新的视。人工智和我们对人的理解及其人工智能的系在不断发,在不久的来,这些改我们生活质的应用将大光彩。知名主 Louis Bouchard 也在自己的博中盘点了 2022 年 32 项(!)AI 技术突破。接下让我们一起看,这些令惊艳的研究有哪些吧!章地址:https://www.louisbouchard.ai/ 2022-ai-recap/LaMA:基于傅里叶卷的分辨率稳的大型掩码复你肯定经过这种情况你和你的朋拍了一张很的照片。结,你发现有在你身后,了你要发到友圈或者小书的照片。现在,这不是问题。基傅里叶卷积分辨率稳健大型掩码修方法,可以使用者轻松除图像中不要的内容。论是人,还垃圾桶都能松消失。它像是你口袋的专业 ps 设计师,只需轻轻一按就能轻松清。虽然看似单,但图像复是许多 AI 研究人员长期以来一需要解决的题。论文链:https://arxiv.org/ abs / 2109.07161项目地址:https://github.com/ saic-mdal / lamaColab Demo:https://colab.research.google.com/github/saic-mdal/lama/blob/master/colab/LaMa_inpainting.ipynb视频讲解:https://youtu.be/ Ia79AvGzveQ短篇分析:https://www.louisbouchard.ai/ lama/STIT:基于 GAN 的真实视频人编辑你肯定过这样的经:在看电影,会发现电中的演员看来要比本人轻得多。《子杀手》中威尔?史密之前,这需专业人员花数百甚至数小时的工作手动编辑这演员出现的景。但利用 AI,你可以在几分钟内成。事实上许多技术可让你增加笑,让你看起更年轻或更,所有这些是使用基于工智能的算自动完成的它在视频中称为基于 AI 的面部操作(AI-based face manipulations),代表了 2022 年的最新技术水。论文链接https://arxiv.org/ abs / 2201.08361项目地址:https://github.com/ rotemtzaban / STIT视频讲解:https://youtu.be/ mqItu9XoUgk短篇分析:https://www.louisbouchard.ai/ stitch-it-in-time/NeROIC:利用在线图库的经渲染神经染可以通过体、人物或景的图片,空间中生成真的 3D 模型。有了项技术,你需拥有某物的几张图片就可以要求器了解这些片中的物体并模拟出它空间中的样。通过图像理解物体的理形状,这人类来说很易,因为我了解真实的界。但对于能看到像素机器来说,是一个完全同的挑战。成的模型如融入新场景如果照片的照条件和角不同,生成模型也会因变化,该怎办?这些都 Snapchat 和南加州大学在项新研究中要解决的问。论文链接https://arxiv.org/ abs / 2201.02533项目地址:https://github.com/ snap-research / NeROIC视频讲解:https://youtu.be/ 88Pl9zD1Z78短篇分析:https://www.louisbouchard.ai/ neroic/SpeechPainter:文本条件下的语修复对于图来说,基于器学习的修技术不仅可移除其中的容,而且还根据背景信填充图像的失部分。对视频修复来,其挑战在不仅要保持与帧之间的致性,而且避免生成错的伪影。同,当你成功将一个人从频中「踢出」之后,还要把他 / 她的声音也并删除才行为此,谷歌研究人员提了一种全新语音修复方,可以纠正频中的语法发音,甚至除背景噪音论文链接:https://arxiv.org/ abs / 2202.07273视频讲解:https://youtu.be/ zIIc4bRf5Hg短篇分析:https://www.louisbouchard.ai/ speech-inpainting-with-ai/GFP-GAN:利用生成性面先验,实现实世界的盲修复你是否一些珍藏的照片,因为代久远而画模糊?不用心,有了盲修复技术(Blind Face Restoration),你的回忆会被久弥新。这全新且免费 AI 模型可以在一瞬修复你的大分旧照片。使修复前的片画质非常,它也能很地工作。这之前通常是个相当大的战。更酷的,你可以按自己喜欢的式进行尝试他们已经开了代码,创了一个演示在线应用程供大家试用相信这项技一定让你大一惊!论文接:https://arxiv.org/ abs / 2101.04061项目地址:https://github.com/ TencentARC / GFPGANColab Demo:https://colab.research.google.com/drive/1sVsoBd9AjckIXThgtZhGrHRfFI6UUYOo在线应用:https://huggingface.co/ spaces / akhaliq / GFPGAN视频讲解:https://youtu.be/ nLDVtzcSeqM短篇分析:https://www.louisbouchard.ai/ gfp-gan/4D-Net:多模态对齐的学习动驾驶汽车何「眼观六」?你可能说过车企正使用的 LiDAR 传感器或其他奇的相机。但们是如何工的,它们如观察这个世,以及它们我们相比究看到了什么同?论文链:https://arxiv.org/ abs / 2109.01066与特斯拉只用摄像头来解世界不同大多数自动驶汽车厂商比如 Waymo,使用的是普通摄像和 3D LiDAR 传感器。它们会像普通相那样生成图,而是生成 3D 点云,利用 RGB 传感信息,测量物体之的距离,计它们投射到体的脉冲激的传播时间尽管如此,们如何有效结合这些信并让车辆理它?车辆最会看到什么自动驾驶是足够安全?Waymo 和谷歌的一篇研究论文将解答这些谜。视频讲解https://youtu.be/ 0nJMnw1Ldks短篇分析:https://www.louisbouchard.ai/ waymo-lidar/Instant NeRF:基于多分辨率希编码的即神经图元如通过照片模世界的样子使用 AI 模型,人们以将拍摄的像变成高质的 3D 模型。这项具挑战性的任,让研究人通过 2D 图像,创建体或人在三世界中的样。通过基于希编码的神图元(graphical primitives),英伟达实 5 秒训练 NeRF,并获得了更的效果。在到两年的研中,将 NeRF 的训练速度提高了 1000 多倍。论文链:https://arxiv.org/ abs / 2201.05989项目地址:https://github.com/ NVlabs / instant-ngp视频讲解:https://youtu.be/ UHQZBQOVAIU短篇分析:https://www.louisbouchard.ai/nvidia-photos-into-3d-scenes/DALL?E 2:基于 CLIP 特征的文本生成图模型去年,OpenAI 发布了文本-图像生成模 DALL?E。现在,升级版 DALL?E 2 又来了。DALL?E 2 不仅可以从文本生成逼的图像,其出的分辨率前者的四倍不过,性能面的提升好不足以令 OpenAI 满足,为此们还让 DALL?E 2 学会了一项新技能:图修复。也就说,你可以 DALL?E 2 编辑图像,或者加任何想要新元素,比在背景中加一只火烈鸟论文链接:https://arxiv.org/ abs / 2204.06125视频讲解:https://youtu.be/ rdGVbPI42sA短篇分析:https://www.louisbouchard.ai/openais-new-model-dall-e-2-is-amazing/MyStyle:个性化生成先验歌和特拉维大学提出了个非常强大 DeepFake 技术。拥有了它你几乎无所能。只需给个人拍上百照片,就可对其图像进编码,并修、编辑或创出任何想要样子。这既人惊奇又令恐惧,尤其当你看到生的结果时。文链接:https://arxiv.org/ abs / 2203.17272项目地址:https://mystyle-personalized-prior.github.io/视频讲解:https://youtu.be/ BNWAEvFfFvQ短篇分析:https://www.louisbouchard.ai/ mystyle/OPT:开放预训练的 Transformer 语言模型GPT-3 如此强大的原因,在于架构和大小它有 1750 亿个参数,是人类大中神经元数的两倍!如巨大的神经络使该模型乎学习了整互联网的内,了解我们何书写、交和理解文本就在人们惊于 GPT-3 的强大功能时,Meta 向开源社区迈出了一步。他们发了一个同样大的模型,且,该模型经完全开源!该模型不也有超过千级别的参数并且,与 GPT-3 相比,OPT-175B 更加开放及便访问。论文接:https://arxiv.org/ abs / 2205.01068项目地址:https://github.com/ facebookresearch / metaseq视频链接:https://youtu.be/ Ejg0OunCi9U短篇分析:https://www.louisbouchard.ai/ opt-meta/BlobGAN:空间离散的景表征对于何描述一个景,Adobe 研究团队给出了一个的方法:BlobGAN。BlobGAN 使用「斑点」(blob)来描述场景中的对象研究人员可移动这些斑,将它们变、变小,甚可以删除,对图像中斑所代表的物都会产生同的效果。正作者在他们结果中分享那样,你可通过复制斑,在数据集创建新的图。现在,BlobGAN 的代码已经源,感兴趣小伙伴,抓快上手试试!论文链接https://arxiv.org/ abs / 2205.02837项目地址:https://github.com/ dave-epstein / blobgan视频讲解:https://youtu.be/ mnEzjpiA_4E短篇分析:https://www.louisbouchard.ai/ blobgan/Gato:通才智能体DeepMind 构建了一个单一「通用」智体 Gato。可以玩 Atari 游戏、做字幕像、与人聊、还能控制械臂!更令震惊的是,只训练一次使用相同的重,便能完所有任务。Gato 是一个多模态智体。这意味它既可以为像创建标题也能作为聊机器人回答题。虽然 GPT-3 也能陪你聊天但很明显,Gato 可以做到更多。竟,能聊天 AI 常有,能陪玩游的不常有。文链接:https://arxiv.org/ abs / 2205.06175视频讲解:https://youtu.be/ xZKSWNv6Esc短篇分析:https://www.louisbouchard.ai/ deepmind-gato/Imagen:具有深度语言理解文本到图像扩散模型如你认为 DALL?E 2 很优秀,那么不妨看看个来自 Google Brain 的新模型 ——Imagen—— 可以做些什么。DALL?E 很神奇,但生的图像往往乏真实感,就是谷歌团研发的 Imagen 所要解决的问。根据比较本到图像模的基准,Imagen 在大型语言模的文本嵌入文本-图像的合成方面成显著。生成图像既天马空,又真实信。论文链:https://arxiv.org/ abs / 2205.11487项目地址:https://imagen.research.google/视频讲解:https://youtu.be/ qhtYPhPWCsI短篇分析:https://www.louisbouchard.ai/ google-brain-imagen/DALL·E Mini一组小扎的惊悚曾在 Twitter 上风靡一阵。组 San 值狂掉的作,出自 DALL?E mini 之手。作为 DALL?E 家族的「青春」,DALL?E mini 是胜在免费开源。代已留,下一被魔改的人又会是谁呢项目地址:https://github.com/ borisdayma / dalle-mini在线体验:https://huggingface.co/ spaces / dalle-mini / dalle-mini视频讲解:https://youtu.be/ K3bZXXjW788短篇分析:https://www.louisbouchard.ai/ dalle-mini/NLLB:不落下任何一种语言Meta AI 发布的这款 NLLB-200 模型,模型命名念来自「不下任何一种言」(No Language Left Behind),在 200 多种语言上实现任意互译。究的亮点在:研究者让多数低资源言训练提升个数量级,时实现了 200 + 语言翻译的 SOTA 结果。论文链接https://research.facebook.com/ publications / no-language-left-behind/项目地址:https://github.com/ facebookresearch / fairseq / tree / nllb在线体验:https://nllb.metademolab.com/视频讲解:https://youtu.be/ 2G4NeG17Eis短篇分析:https://www.louisbouchard.ai/ no-language-left-behind/Dual-Shutter 光学振动传感统声音也能看见?这篇得 CVPR 2022 最佳论文荣奖的研究,出了一种新的 Dual-Shutter 方法,通过使用「速」相机(130FPS)同时检测多场景源的高(高达 63kHz)表面振动,并通捕获由音频引起的振动实现。由此可以实现乐的分离、噪的消除等各需求。论文接:https://openaccess.thecvf.com/ content / CVPR2022 / papers / Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf项目地址:https://imaging.cs.cmu.edu/ vibration/视频讲解:https://youtu.be/ n1M8ZVspJcs短篇分析:https://www.louisbouchard.ai/ cvpr-2022-best-paper/Make-A-Scene:基于场景且有类先验的文到图像生成Make-A-Scene 不仅仅是「一个 DALL?E」。虽然 DALL?E 可以根据文本提示成随机图像这确实很酷但同时也限了用户对生结果的控制而 Meta 的目标是推动创意表达将这种文本图像的趋势之前的草图图像模型相合,从而产「Make-A-Scene」:文本和草图条件图生成之间的妙融合。论链接:https://arxiv.org/ abs / 2203.13131视频讲解:https://youtu.be/ K3bZXXjW788短篇分析:https://www.louisbouchard.ai/ make-a-scene/BANMo:从任意视频构建目标 3D 动画模型基于 Meta 的这项研究,你只需定捕获可变对象的任意频,比如上几个小猫小的视频,BANMo 便可通过将来自千张图像的 2D 线索整合到规范空中,进而重一个可编辑动画 3D 模型,且无预定义形状板。论文链:https://arxiv.org/ abs / 2112.12761项目地址:https://github.com/ facebookresearch / banmo视频讲解:https://youtu.be/ jDTy-liFoCQ短篇分析:https://www.louisbouchard.ai/ banmo/用潜在扩散模型行高分辨率像合成今年火的图像生模型 DALL?E、Imagen 以及强势出圈 Stable Diffusion,这些强大的像生成模型什么共同点除了高计算本、大量训时间之外,们都基于相的扩散机制扩散模型最在大多数图任务中取得 SOTA 结果,包括用 DALL?E 的文本到图像,还许多其他与像生成相关任务,如图修复、风格换或图像超辨率。论文接:https://arxiv.org/ abs / 2112.10752项目地址:https://github.com/ CompVis / latent-diffusion视频讲解:https://youtu.be/ RGBNdD3Wn-g短篇分析:https://www.louisbouchard.ai/ latent-diffusion-models/PSG:基于场景的图生成模型AI 可以帮你准确识别图像的物体,但理解物体与境之间的关则没有那么松。为此,自南洋理工研究人员提了一种基于景分割的全景图生成(panoptic scene graph generation,即 PSG)任务。相于传统基于测框的场景生成,PSG 任务要求全面地输出图中的所有关(包括物体物体间关系物体与背景关系,背景背景间关系,并用准确分割块来定物体。论文接:https://arxiv.org/ abs / 2207.11247项目地址:https://psgdataset.org/在线应用:https://huggingface.co/ spaces / ECCV2022 / PSG视频讲解:https://youtu.be/ cSsE_H_0Cr8短篇分析:https://www.louisbouchard.ai/ psg/利用文本反转实文本到图像个性化生成年各大厂的像生成模型谓是八仙过各显神通,是如何让模生成特定风的图像作品?来自特拉夫大学的学和英伟达合推出了一款性化图像生模型,可以 DIY 你想要得到的图。论文链接https://arxiv.org/ abs / 2208.01618项目地址:https://textual-inversion.github.io/视频讲解:https://youtu.be/ f3oXa7_SYek短篇分析:https://www.louisbouchard.ai/ imageworthoneword/用于通用视频识别的语图像预训练型视觉文本型的学习毫疑问已经取了巨大成功然而如何将种新的语言像预训练方扩展到视频域仍然是一悬而未决的题。来自微和中科院的者提出了一简单而有效方法使预训的语言图像型直接适应频识别,而是从头开始训练新模型论文链接:https://arxiv.org/ abs / 2208.02816项目地址:https://github.com/ microsoft / VideoX / tree / master / X-CLIP视频讲解:https://youtu.be/ seb4lmVPEe8短篇分析:https://www.louisbouchard.ai/ general-video-recognition/Make-A-Video:一键文本生视频模型画在画布上尽作画,如此晰流畅的画,你能想到频的每一帧是 AI 生成的吗?MetaAI 推出的 Make-A-Video,只需简单输入几文字,便可几秒内生成同风格的视,说成「视版 DALL?E」也不为过。论文链:https://arxiv.org/ abs / 2209.14792视频讲解:https://youtu.be/ MWwESVyHWto短篇分析:https://www.louisbouchard.ai/ make-a-video/Whisper:大规模弱监语音识别模你有没有想有一个翻译件可以快速译视频中的音,甚至是些你自己都不懂的语言OpenAI 开源的 Whisper 恰好就能做到这一点。Whisper 在超过 68 万小时的多语种数据训练,能识嘈杂背景下多语种声音转化为文字此外还可胜专业术语的译。论文链:https://arxiv.org/ abs / 2212.04356项目地址:https://github.com/ openai / whisper视频讲解:https://youtu.be/ uFOkMme19Zs短篇解析:https://www.louisbouchard.ai/ whisper/DreamFusion:用 2D 图像生成 3D 模型文本能生图像、视频还有 3D 模型~谷歌出的 DreamFusion 通过使用预训练的 2D 文本到图像扩散模可一键生成 3D 模型,在数十亿图文本对上训的扩散模型动了文本到 3D 模型合成的最新突。论文链接https://arxiv.org/ abs / 2209.14988视频讲解:https://youtu.be/ epuU0VRIcjE短篇解析:https://www.louisbouchard.ai/ dreamfusion/Imagic:基于扩散模型的真图像编辑方使用 DALL?E 等文本图像生成型,只需输一行文字便得到想要的片,但 AI 生成的图像有时候并不么完美。来谷歌、以色理工学院、茨曼科学研所的研究者绍了一种基扩散模型的实图像编辑法 ——Imagic,只用文字就能现真实照片 PS。例如,我们可以变一个人的势和构图同保留其原始征,或者我让一只站立狗坐下,让只鸟展开翅。论文链接https://arxiv.org/ abs / 2210.09276项目地址:https://imagic-editing.github.io/视频讲解:https://youtu.be/ gbpPQ5kVJhM短篇分析:https://www.louisbouchard.ai/ imagic/eDiffi:更高品质的本图像合成型比 DALL?E 和 Stable Diffusion 更强的图像合模型来了!就是英伟达 eDiffi,它可以更准确地生成高品质的图,此外加入笔模具,可为你的作品加更多创造和灵活性。文链接:https://arxiv.org/ abs / 2211.01324项目地址:https://deepimagination.cc/ eDiff-I/视频讲解:https://youtu.be/ grwp-ht_ixo短篇分析:https://www.louisbouchard.ai/ ediffi/Infinite Nature:从单幅图像中学自然场景的限视图生成有没有想过随手拍一张片然后就像开一扇门一飞进图片里?来自谷歌康奈尔大学学者将这一象变为了现,这就是 InfiniteNature-Zero,他可从单图像中生成限制的自然景视图。论链接:https://arxiv.org/ abs / 2207.11148项目地址:https://infinite-nature.github.io/视频讲解:https://youtu.be/ FQzGhukV-l0短篇分析:https://www.louisbouchard.ai/ infinitenature-zeroGalactica:用于科学大语言模型Meta 开发的 Galactica 是一种大型言模型,其小与 GPT-3 相当,但它擅长的域是科学知。该模型可写政府白皮、新闻评论维基百科页和代码,它知道如何引以及如何编方程式。这人工智能和学来说是一大事。论文接:https://arxiv.org/ abs / 2211.09085视频讲解:https://youtu.be/ 2GfxkCWWzLU短篇分析:https://www.louisbouchard.ai/ galactica/RAD-NeRF:基于音频空间解的实时人合成模型自 DeepFake 和 NeRF 的出现,AI 换脸似乎已是司空见惯,但有个问,AI 换的脸有时会因对不上嘴型露馅。RAD-NeRF 的出现可以决这一问题它可以对视中所出现的话者进行实的人像合成此外还支持定义头像。文链接:https://arxiv.org/ abs / 2211.12368项目地址:https://me.kiui.moe/ radnerf/ChatGPT:为对话优化的语言型2022 年度 AI 的重磅作品么能少了 ChatGPT,这个已经遍全网并已被网友开发写小黄文、代码等各种用的万能模,如果你还了解它,那快来看看!频讲解:https://youtu.be/ AsFgn8vU-tQ短篇分析:https://www.louisbouchard.ai/ chatgpt/可直接用于生产用的视频人 re-aging虽然当下计算机视模型可以对脸的年龄进生成、风格移等,但这只是看起来酷,在实际用中却几乎作用,现有技术通常存着面部特征失、分辨率和在后续视帧中结果不定的问题,往需要人工次编辑。最迪士尼发布第一个可实的、完全自化的、可用生产使用的频图像中 re-age 人脸的方法 FRAN(Face Re-Aging Network),正式宣告电影中化妆师改变员年龄视觉果的技术落。论文链接https://dl.acm.org/ doi / pdf / 10.1145/3550454.3555520项目地址:https://studios.disneyresearch.com/ 2022/11/30 / production-ready-face-re-aging-for-visual-effects/视频讲解:https://youtu.be/ WC03N0NFfwk短篇分析:https://www.louisbouchard.ai/ disney-re-age/参考资料:https://www.louisbouchard.ai/2022-ai-recap/本文来自微信公众号新智元 (ID:AI_era)