论文阅读:元宇宙关键技术综述

  从互联网到移动互联网,我们的生活方式发生了巨大的变化,包括社交网络、视频会议、虚拟3D世界(如VR聊天)、增强现实应用程序(如口袋妖怪Go)和不可替代的代币游戏(如高地)。 随着网络,AI等技术的发展,催生出了元宇宙,元宇宙进一步促进我们物质生活各个方面的数字化转型。元宇宙的核心是将沉浸式互联网视为一个巨大、统一、持久和共享的领域。虽然元宇宙可能看起来很有未来感,但在ExtendedReality、5G和人工智能等新兴技术的推动下,元宇宙离我们并不遥远。

  本篇综述尝试提供一个全面的视角,来看看元宇宙相关技术以及应用以及对我们未来生活方式的影响 。首先,技术是推动从当前互联网向元宇宙过渡的促成因素。我们严格制定了八项使能技术——扩展现实、用户交互(人机交互)、人工智能、区块链、计算机视觉、物联网和机器人技术、边缘和云计算以及未来移动网络。在应用程序方面,元宇宙生态系统允许人类用户在自我维持、持久和共享的领域中生活和玩耍。我们将以用户为中心的因素——化身、内容创建、虚拟经济、社会可接受性、安全性和隐私、信任和责任。最后,我们提出了主题宇宙发展的具体研究议程。

  关键词 元宇宙、沉浸式互联网、增强/虚拟现实、化身、人工智能、数字孪生兄弟、网络和边缘计算、虚拟经济、隐私计算,区块链,5G,虚拟社交,在线办公、NFT、分布式学习、机器人、自动驾驶

  Abstract From the Internet to the mobile Internet, our lifestyle has undergone great changes, including social networks, video conferencing, virtual 3D worlds (such as VR chat), augmented reality applications (such as Pokemon go) and irreplaceable token games (such as highland). With the development of network, AI and other technologies, the meta universe has emerged, which further promotes the digital transformation of all aspects of our material life. The core of the meta universe is to regard the immersive Internet as a huge, unified, lasting and shared field. Although the metauniverse may look very futuristic, it is not far away from us driven by emerging technologies such as extended reality, 5g and artificial intelligence.

  This review attempts to provide a comprehensive perspective on the technologies and applications related to the meta universe and their impact on our future lifestyle. First of all, technology is the contributing factor to promote the transition from the current Internet to the meta universe. We have strictly formulated eight enabling technologies - extended reality, user interaction (Human-Computer Interaction), artificial intelligence, blockchain, computer vision, Internet of things and robotics, edge and cloud computing and future mobile networks. In terms of applications, the metacosmic ecosystem allows human users to live and play in self-sustaining, sustainable and shared areas. We will focus on user centric factors - Avatar, content creation, virtual economy, social acceptability, security and privacy, trust and responsibility. Finally, we put forward a specific research agenda on the development of the theme universe.

  Key words metauniverse, immersive Internet, augmented/virtual reality, avatar, artificial intelligence, digital twin, network and edge computing, virtual economy, privacy computing, blockchain, 5g, virtual social networking, online office, NFT, distributed learning, robot, autonomous driving

  (1)元宇宙的概念来源于科幻作家史蒂文森1992年创作的科幻小说《雪崩》 [1],该小说中,史蒂文森描绘了虚拟世界和物理世界相互影响的数字孪生世界 。元宇宙目前主要有XR(扩展现实),包括AR(增强现实),VR(虚拟现实),MR(混合现实)等连接物理世界与虚拟世界,目前主要应用与工业设计以及游戏,但是元宇宙不只是新一代的互联网平台,元宇宙将重塑整个经济体系,政治体系,意识体系等。

  (2)元宇宙需要构建虚拟对象,仿真投影物理世界到虚拟世界,比如通过全息投影技术实现跨时空穿越观看已故明星的演唱会,或者远程全息投影举行会议等,需要压缩以及传输非常大量的数据,这要求我们的5G、6G带宽足够大,成本足够低,同时也需要大量算力,对高端芯片的需求也非常大 ,边缘计算会是一个比较好的解决方案。要对物理世界进行孪生投影,需要非常多的传感器,机器人以及人工智能相关技术。

  (3)元宇宙绝对不仅仅是游戏,元宇宙可类比于平行宇宙,物理世界存在唯一一个本体,但是虚拟世界可以有无穷个虚拟个体,在每一个虚拟宇宙中,虚拟的事务,比如二次元,游戏角色,物理事务的投影,极具创造力想象力构造出的各种各样的宇宙空间组成了一个完整的经济体系,比如可以在虚拟空间进行工作,获得奖励,然后同步于物理世界 。既然是一个完整的经济体系,就需要生产资料,稳定货币,以及能产生信用体系的分布式记账,很显然区块链是其中非常重要的一环。比如在以太坊上发布的NFT(非同质化代币),可以用于艺术品,商品的拍卖,会激发原创创作动力,其艺术品也是非常具有收藏价值,也杜绝了盗版。元宇宙搭建好了一个舞台,舞台上需要各种内容创作,NFC就是根本。该偏论文将从元宇宙需要的技术和生态两方面进行了调研。

  虚拟现实起源于米尔格拉姆和基什诺的现实-虚拟连续体[2]。本章节会从VR,MR,AR,全息投影方向来了解XR。

  VR具有全合成视图的特点,用户常用的交互方式就是头戴式VR眼睛,拥有头部跟踪以及体感控制器[3]。用户完全置身于虚拟环境中与虚拟对象进行交互。因此VR也被称为”现实中距离现实最远的一端虚拟-连续体”[4]。这样用户就可以融入虚拟环境中进行创作,比如VR教育,VR绘画[5],用户通过和虚拟环境进行交互实现探索创作。这也是满足虚拟环境的要求的:共同的空间感、共同的存在感觉、共同的时间感。用户可以通过手势、语音、文本等进行信息交流和对虚拟空间对象的操作。当大量用户存在与共享空间的时候,需要保证虚拟用户的同步性,大量的延迟会严重影响用户体验。

  AR是在VR的基础上增加了和物理世界的交互,其重点在于增强物理世界。这是要实现数字孪生必须经历的一步,我们在虚拟世界中的操作理论上是要通过听觉,视觉,嗅觉,味觉等反馈到物理世界中。在AR中保证与虚拟数字实体进行无缝的交互是AR中的关键。通过元宇宙可以连接虚拟对象和物理世界中的对象[5],在物理世界中徒手对虚拟物体进行操作就是AR要实现的。

  一种广为人知的徒手互动技术,叫做Voodoo Dolls[6]是一种很好的解决方案,用户可以用双手通过捏捏手势来选择和处理虚拟内容。OMER [7]是另一种用户互动解决方案,它提供了从用户虚拟手投射光线的轨迹,指示正在选择并随后进行操作的AR对象。 现在在一些互联网车辆上,可以裸眼看3D导航就是AR的一种很好的应用[8]。旅行机被认为是第一款允许用户在户外体验AR的研究原型。原型包括计算硬件和一个装在背包上的GPS装置,以及一个头戴式显示器,其中包含地图导航信息。带旅行机的用户可以通过手持式触控表面和触针与AR地图交互[9]。

  MR是介于VR和AR之间,允许用户在物理世界对虚拟对象进行操作。MR更加关注于物理世界和虚拟世界的互操性,所以也可以说其是增强版的AR。要实现元宇宙中的数字孪生概念,这个互操性是必不可少的。

  当前的全息技术可分为两种主要类型:反射全息和激光驱动全息。 图2-1-1 反射全息投影和激光驱动全息投影

  基于反射的全息图的主要优点是生成彩色全息图,彩色再现与现实物体非常相似[10](图2-1-1(a))。PlasmaFairies[11]是一种3D航空全息图,可由用户的皮肤表面感测,尽管该设备只能在不大于5cm^3的半空中区域产生等离子体发射(图2-1-1(b))。如果该技术得以突破普及,那么元宇宙就已经比较成熟了。

  但是,全息技术存在三个关键弱点,包括分辨率、显示尺寸以及设备移动性有限,还有很多工作有待突破。

  在信息时代,我们经历了互联网,移动互联网,每一次革命,都对我们生活产生了非常大的影响。现在我们正在经历以及接下来大量普及的就是万物互联的IOT时代。

  根据Statista[12]统计,到2025年,全球物联网连接设备总数将达到309亿。

  AR可以将智能摄像头和扬声器的物联网数据流可视化给用户,从而告知用户物联网交互中的风险。因此,用户可以通过AR可视化平台控制其物联网数据[13]。一些应用如[14]介绍了一个可视化和空间编程系统,允许用户使用AR手持界面执行任务编写,并将AR设备连接到移动机器人上,移动机器人将以“你做什么就是机器人做什么”(WYDWRD)的方式执行任务计划。另一个例子,飞行无人机,一种流行的物联网设备,已经越来越多地应用于XR。在[15]中,多个用户可以远程控制飞行无人机,并协同工作,在室外搜索任务。Pinpointfly[16]提供了一个手持AR应用程序,允许用户通过增强的AR视图编辑飞行无人机的运动和方向。

  目前我们在大力发展自动驾驶,智能驾驶技术,如果我们不在担心安全驾驶问题,车就变成了我们的第三空间,相当于一个放大版的智能手机,车和车,车和人,车和互联网就会完全打通。这已经是IOT的一部分,随着5G、6G的发展,车将进一步链接到元宇宙中,形成虚拟现实的孪生同步。

  随着AR、AR技术的发展,在车辆在和元宇宙互动方面取得了很大进步。比如,AR/MR通过提供车辆方向等视觉提示,帮助公众(旁观者)了解自动驾驶车辆在道路上的工作方式。有了这些认识,行人安全得到了加强[17]。AR/MR有助于改善道路安全。如,可以让虚拟实体出现在车辆挡风玻璃的前面,这些实体可以增强物理世界中的信息,以增强用户对路况的感知。密西根大学的MICTIALTEST设施应用AR测试驾驶车,创建了真实测试车辆和虚拟车辆之间的测试和交互,以测试驾驶安全性。

  最近很多汽车厂商以及合作伙伴也尝试了虚拟物理的集成结合。Nissian19的不可见到可见(I2V)是构建metaverse平台的代表性尝试,该平台设计了AR接口,将物理世界和虚拟世界连接在一起,从而使驾驶员看不见的信息可见。I2V使用多个系统从车内和车外提供信息。具体而言,I2V首先采用全方位传感技术,实时采集交通和周围车辆的数据。同时,metaverse系统从实时信息中无缝分析道路状态。根据分析,I2V可立即识别车辆周围的驾驶条件。最后,车辆、驾驶员、建筑和环境的数字孪生体是通过从全方位传感系统收集的数据创建的。数字孪生可用于从道路交通的角度分析人与城市的互动[18]。

  用户活动驱动的共享信息可以进一步连接到metaverse。 I2V在两个方面有助于驾驶。第一个方面是可视化无形的环境,以获得更舒适的驾驶体验。metaverse系统能够显示道路信息和隐藏的障碍物、交通拥堵、停车指导、在山区驾驶、在恶劣天气条件下驾驶等。同时,I2V metaverse系统通过MR可视化虚拟人通信,例如,它为来自世界任何地方的家庭成员提供了一个作为化身加入元宇宙的机会。

  机器人现在在我们生活中已经很普遍了,比如每天跟你问候的虚拟助手,智能音箱机器人,极端恶劣环境下人无法工作,机器人替代人类工作,微型手术机器人代替人类手术实现微创。伴随设备[19]、服务无人机[20]、关爱机器人[21]、[22]、公共场所的检查员[23]、家庭卫士(如亚马逊Astro22)、性伴侣[24]-[25],甚至还有与狗的伙伴[26],因为人类用户可以适应与机器人的自然互动[27]。

  元宇宙与协作机器人的愿景不仅限于在现实世界中利用机器人作为虚拟机的物理容器,还探索我们与元宇宙的交替空间设计机会。元宇宙中的虚拟环境也可以改变用户对协作机器人的感知。 Digit数字孪生和元宇宙可以作为新机器人设计的虚拟试验场。数字孪生允许机器人和无人机设计师检查我们物理环境中新型机器人代理的用户可接受性。新的机器人角色,如替代的仿人机器人和机械化的日常物体,增加了用户对我们空间环境感知的变化是什么?在[28]中,设计师评估了用户对生活空间数字孪生体中的机械化墙的感知,而无需在现实世界中实际实施。机械化墙可以动态地与各种环境中的用户活动协调,例如,额外的墙,将喜欢独自工作的用户与人群隔开,用于社交聚会的奥尔勒塞尔墙。

  人工智能(AI)是指使机器能够从经验中学习并执行各种任务的理论和技术。人工智能于1956年首次提出。近年来,它在各种应用场景中取得了最先进的性能,包括自然语言处理[29]、[30]、计算机视觉[31]、[32]和推荐系统[33]、[34]。人工智能是一个广泛的概念,包括表示、推理和数据挖掘。机器学习是一种广泛使用的人工智能技术,它使机器能够利用从经验中提取的知识来学习和提高性能。机器学习有三类:监督学习、非监督学习和强化学习。监督学习需要对训练样本进行标记,而非监督学习和强化学习通常应用于未标记的数据。典型的监督学习算法包括线性回归[35]、随机森林[36]和决策树[37]。K-均值[38]、主成分分析(PCA)[39]和奇异值分解(SVD)[40]是常见的无监督学习算法。强化学习算法包括DEQ learning[41]、Sarsa[42]和policy gradient[43]。机器学习通常需要手动选择特征。机器学习涉及深度学习,这是由生物神经网络激发的。在深层神经网络中,每一层接收前一层的输入,并将处理后的数据输出到后续层。深度学习能够从大量数据中自动提取特征。然而,深度学习也需要比传统机器学习算法更多的数据才能提供令人满意的准确性。卷积神经网络(CNN)[44]、递归神经网络(RNN)[45]是两种典型且广泛使用的深度学习算法。

  元宇宙数据量是非常大非常复杂的。我们不得不需要人工智能进行数据分析和智能体学习。比如在王者荣耀中的AI通过自学习完全能超越最厉害的玩家。 我们将元宇宙中的AI应用分为三类:自动数字孪生兄弟、非玩家角色(NPC)和阿凡达自主性。

  数字孪生兄弟有三种数字化,包括Digitalmodel、DigitalShadow和DigitalTwin[46]。Digitalmodel是物理实体的数字复制。元宇宙和物质世界之间没有相互作用。DigitalShadow是物理实体的数字表示。一旦物理实体改变,其数字阴影也随之改变。在DigitalTwin中,元宇宙和物理世界能够相互影响。

  数字孪生兄弟是对物理实体或系统具有高度完整性和意识并与物理世界保持互动的数字克隆[46]。这些数字克隆可用于为其物理实体提供分类[47]、[48]、识别[49]、[50]、预测[51]、[52]和确定服务[53]、[54]。人为干扰和手动特征选择非常耗时。因此,有必要实现数据处理、分析和培训过程的自动化。深度学习可以自动从大量复杂数据中提取知识,并将其表示在各种应用中,而无需手动特征工程。因此,深度学习在促进数字孪生兄弟的实施方面具有巨大潜力。Jayet等人提出了一个通用的自主深度学习支持数字孪生兄弟, 在训练阶段,元宇宙和物理系统的历史数据被融合在一起,用于深度学习训练和测试。如果测试结果符合要求,则将实施自主系统。在推理阶段,元宇宙和物理系统的实时数据被融合为模型推理。

  数字孪生相关应用如智能医疗需要物理和信息系统之间的交互和融合,为患者提供快速响应和准确的医疗服务。 Laaki等人[55]设计了一个用于数字双胞胎远程手术的验证原型。在这个原型中,为患者创建了一对手指双胞胎。医生对数字孪生兄弟进行的所有手术都将通过机械臂在患者身上重复进行。该原型还与深度学习组件兼容,例如智能诊断和健康预测。Liu等人。将学习算法应用于带数字双胞胎的老年人的实时监控和危机预警[56]。

  为非玩家角色(NPC)也称计算机代理,是指不受玩家控制的角色。NPC在游戏中的历史可以追溯到街机游戏,在街机游戏中,随着游戏级别的提高,敌人的移动模式将变得越来越复杂[57]。随着电子游戏对真实感的要求越来越高,AI应用于NPC,模拟玩家的智能行为,以满足玩家对高质量娱乐的期望。NPC的智能体现在多个方面,包括控制策略、逼真的人物动画、奇异的图形、声音等。

  NPC响应玩家行为的传统 采用的模型一般是有限状态机(FSM)[57]。FSM假设对象在其生命周期中有有限的状态。FSM中有四个组件:状态、条件、操作和下一个状态。满足条件后,对象将执行新操作并将其当前状态更改为下一状态。行为树和决策树是NPC在游戏中做出决策的两种典型的基于FSM的算法,其中每个节点表示一个状态,每个边表示一个动作[57]–[62]。基于FSM的策略很容易实现。然而,FSM在可扩展性方面很差,必须先定义好所有状态,尤其是当游戏环境变得复杂时。

  强化学习是一种经典的决策问题机器学习算法,它使智能体能够从与周围环境的交互体验中自动学习。代理人的行为将得到相应的奖励。,强化学习已被广泛应用于许多游戏中,例如射击游戏[63]和驾驶游戏[64]以及围棋[68]等。值得注意的是,NPC设计的目标是增加游戏的娱乐性,而不是最大化NPC吃掉人类玩家的能力[65]。因此,奖励函数可以根据游戏目标定制[66]。例如,Glavin等人开发了一种技能平衡机制,基于强化学习根据顶级玩家的表现动态调整NPC的技能水平[67]。当游戏变得越来越复杂时,从2D到3D,代理状态变得不计其数。深度强化学习,即将神经网络和强化学习相结合来解决此类问题。基于深度强化学习的最著名游戏是DeepMind于2015年开发的带有AlphaGo的国际象棋[68]。国际象棋的状态表示为矩阵。通过神经网络过程,AlphaGo输出获胜可能性最大的动作。

  阿凡达(虚拟化身是指虚拟世界中玩家的数字表示,玩家通过虚拟化身与其他玩家或计算机代理交互[69]。玩家可以在不同的应用程序或游戏中创建不同的化身。例如,创建的化身可能类似于人形、假想生物或动物[70]。在社交交流中,需要远程存在、面部表情和反映人体生理特征的运动特征的相关应用至关重要[71]。这一领域的现有工作主要集中在两个问题上:头像创建和头像建模。为了创建更真实的虚拟环境,需要大量的头像表示。然而,在大多数视频游戏中,创作者仅依赖几个特定的模型或允许玩家使用几个可选的子模型(例如鼻子、眼睛、嘴巴等)来创建完整的化身。因此,玩家的化身非常相似。

  生成性对抗网络(GAN)是一种先进的深度学习模型,用于学习训练样本的分布,并按照相同的分布生成数据[72]。GAN的核心思想是生成网络和鉴别器网络之间的竞争。具体地说,生成器网络用于输出假图像,假图像具有学习数据分布,而鉴别器网络用于输入假图像并判断它们是否真实。将对发生成网络进行训练,直到鉴别器网络无法识别这些假图像。在此过程中,这两个网络相互学习,相互对抗。最后,我们得到了一个性能良好的生成网络。有几项工作[73]–[75]已经将GAN应用于在游戏中自动生成2D化身。一些生成模型[76]-[78]进一步引入了实时处理3D网格和纹理以生成3D化身。Chalas等人开发了一种基于人脸扫描而非2D图像的自主3D化身生成应用程序[79]。

  虚拟化身一些应用如,Forza Motorsport开发了Drivatar,通过人工智能学习玩家的驾驶风格[80]。当这些玩家不玩游戏时,其他用户可以与他们的头像比赛。具体而言,该系统收集驾驶员的驾驶数据,包括道路位置、赛道、速度、制动器和油门。Drivatar从收集的数据中学习,并创建具有相同驾驶风格的虚拟玩家。值得注意的是,虚拟玩家是不确定的,这意味着给定虚拟玩家在同一游戏中的比赛结果可能不同。在[81]中,神经网络也实现了类似的框架。Gesler等人在第一人称射击(FPS)游戏中应用多种机器学习算法来学习玩家的射击方式,包括移动方向、跳跃时刻和加速器[82]。通过大量实验,他们发现神经网络的性能优于其他算法,包括决策树和朴素贝叶斯。对于决策相关的游戏,强化学习通常优于其他人工智能算法。Mendoncca等人将强化学习应用于格斗游戏[83]。他们使用相同的战斗数据训练强化学习模型和神经网络,发现强化学习模型的性能更好。

  元宇宙中一切都是数字化的,包括物理实体和系统的数字孪生体、用户的化身、各个区域的大规模、细粒度地图等。因此,产生了难以理解的海量数据。由于网络资源有限,无法将如此庞大的数据上传到集中式云服务器[84]。与此同时,区块链技术正在迅速发展。可以将区块链应用于数据存储系统,以保证元宇宙的分散性和安全性。区块链是一种分布式数据库,其中数据存储在块中,而不是结构化表[85]。 用户生成的数据填充到一个新块中,该块将进一步链接到以前的块。所有区块都按时间顺序链接。用户在本地存储区块链数据,并使用一致模型与存储在对等设备上的其他区块链数据同步。用户被称为区块链中的节点。每个节点在链接后维护区块链上存储的数据的完整记录。如果一个节点出现错误,数百万其他节点可以引用以更正错误。因此,分散和安全是区块链的两个明显特征[84]。比特币是区块链的一个很成功的应用,比特币是2009年提出的数字货币[86], 以太坊基于区块链实现智能合约也非常成功,下面会介绍下区块链相关应用。

  元宇宙中,各种用户数据被数字化、收集和存储。如何存储如此大量的数据是一个关键问题。传统数据存储系统通常采用集中式体系结构,需要将所有数据传输到数据中心。考虑到如此大量的数据,极高的存储容量是必不可少的,这通常非常昂贵。此外,此类数据中可能包含敏感信息,这可能导致潜在的隐私泄露问题。区块链,作为一个分布式数据库,正好足以处理这些问题。区块链用户可以创建数据块,并协同验证和记录交易记录到分布式账本。

  Zyskind等人提出了一种基于区块链的分布式个人数据管理系统[87]。有一个用于数据访问的安全通道。数据所有者与请求数据的所有其他用户共享密钥。需求的认证是通过区块链完成的,这保证了数据的安全性。然而,密钥是暴露给矿工的。随后,Li等人应用无证书签名来解决这个问题[88]。如果数据被恶意攻击者篡改,可以通过本地再生代码技术恢复[89],[90]。再生代码基于数据冗余。一旦发现数据被篡改或损坏,可以使用其他活动节点上的数据以多线程方式对其进行修复。

  大多数智能设备(如智能手机)的存储能力有限。如果生成的数据量过大,用户可能会向其他用户借用存储空间,这可能会因为用户的自私而失败。Ren等人提出了一种基于区块链的数据存储激励机制[91]。具体而言,此存储系统中有两个区块链。第一个用于数据存储,第二个用于访问控制。他们建议使用合理数量的存储数据来代替挖掘中的工作证明,这可以显著减少计算操作。

  传统我们在选举投票会邮件或者邮箱发给一个中间点,这样就可能数据被人篡改,区块链就很适合解决这个问题。但是区块链作为投票系统的应用存在一些挑战。第一个挑战是认证。在基于区块链的投票系统中,人们使用虚拟身份投票,而投票需要真实身份。如果不知道选民的真实身份,就很难验证投票结果的有效性。Bistarelli等人提出了端到端投票框架,采用匿名Kerberos对投票人进行身份验证来解决问题[92]。第二个挑战是投票结果的可审计性。区块链能够永久存储所有交易记录。但是,在审计过程中,投票人的私人信息可能会泄露。Meter等人分别对投票内容和私钥应用非对称加密和阈值加密来解决此类问题[93]。

  基于区块链的数据存储系统具有高度的可扩展性和灵活性。用户在锁链中贡献其存储资源。每个用户都可以是数据请求者和数据提供者。此外,数据被加密并重新定位到匿名节点进行存储,进一步增强了数据安全性。区块链中的所有节点都记录数据位置,因此数据所有者可以非常方便地访问其数据。但是,这种数据存储架构不利于数据共享,因为区块链不支持传统的共享模型。此外,共享加密数据还需要额外的密钥管理机制。Li等人设计了一种用于在区块链中共享数据的密钥管理机制,该机制与基于区块链的数据存储系统兼容[94]。密钥与元数据集成并存储在区块链中。他们还应用代理重新加密来在不可信的情况下保护密钥。Xia等人利用区块链的防篡改机制来确保共享数据的安全,并引入智能合约和访问控制来跟踪Alluser的数据访问行为[95]。

  隐私和安全对于管理元宇宙中的数据至关重要。然而,多方访问和操作此类数据是不可避免的。因此,冲突就会发生。区块链提供了一个具有极高安全性的数据平台,使不同的公司能够共享数据。例如,银行和保险公司可以通过互操作性锁链为各自的业务共享相同的客户数据[96]。

  区块链在数据互操作性方面应用场景如智能医疗。根据患者的档案数据为患者创建数字孪生体,以实现精确的医疗保健。这样的数字双胞胎可以被多个医生访问。文献[97],[98]从理论上证明了将分布式账本应用于记录患者信息的可行性。Azaria等人设计并实施基于区块链的医疗数据管理系统[99]。该系统能够提供身份验证、互操作性和保密服务。

  另外,区块链也广泛应用于金融领域。 Singh等人设计了一个电子钱包体系结构,用于跨银行安全支付[100]。在该体系结构中,银行是锁链中的节点,将高性能服务器部署为矿工。它们采用权益证明(PoS)作为共识模型。

  元宇宙中,计算机视觉在XR应用中起着重要的作用。MostXR系统通过光学透明或视频透明显示器捕获视觉信息。这些信息被处理,结果分别通过头戴式设备或智能手机发送。通过利用这些视觉信息,计算机视觉在处理、分析和理解数字图像或视频等视觉信息以得出有意义的决策和采取行动方面发挥着至关重要的作用。

  计算机视觉广泛用于XR应用程序中,以构建用户环境的三维重建,并定位用户和设备的位置和方向。 除了位置和方向,XR 交互系统还需要跟踪用户的身体和姿势。 图像处理是计算机视觉的一个重要领域,其目的是恢复和提高图像/视频质量,以获得更好的元视觉效果。

  在物理世界中,我们用眼睛获取空间信息,并在大脑中构建世界的三维重建,在那里我们知道每个物体的确切位置。类似地,元宇宙中需要获得未知环境的3D结构并感知其运动。 定位和映射(SLAM)是一种常见的计算机视觉技术,它可以估计设备运动并重建未知环境[101],[102]。视觉SLAM算法必须同时解决几个挑战:(1)未知空间,(2)自由移动或不可控相机,(3)实时,(4)鲁棒特征跟踪(漂移问题)[103]。在各种SLAM算法中,ORB-SLAM系列,例如ORB-SLAM-v2[104]已被证明工作良好,例如在AR系统中[103],[105]。

  视觉SLAM算法通常依有三个主要步骤:(1)特征提取,(2)将2D帧映射到3D点云,以及(3)闭环检测。许多SLAM算法的第一步是找到特征点并生成描述符。传统的特征跟踪方法,如尺度不变特征变换(SIFT)[106],检测和描述图像中的局部特征;然而,它们往往太慢,无法实时运行。因此,大多数AR系统依赖于计算效率高的特征跟踪方法,如基于特征的检测[107]在不使用GPU加速的情况下实时匹配特征。尽管最近卷积神经网络(CNN)已应用于视觉SLAM,并在使用GPU的自主驾驶[108]方面取得了良好的性能,应用于资源受限的移动系统仍然具有挑战性。

  尽管当前的先进技术(SoTA)视觉SLAM算法为空间理解奠定了坚实的基础,但是元宇宙需要了解更复杂的环境,尤其是虚拟对象和真实环境的集成。Hololens已经开始加深对空间的理解,苹果公司已经为3D关键点跟踪引入了ArkitV224获取未知环境的三维结构并感知其运动是至关重要的,但也具有挑战性。这可能有助于收集数据,例如,数字孪生体构造,它可以与AI连接,以实现与物理世界的转换。

  在元宇宙中,用户由化身表示。我们必须考虑在三维虚拟环境中对化身的控制。化身控制可以通过人体和眼睛在物理世界中的位置和方向来实现。人体姿势跟踪是指在交互环境中获取人体空间信息的计算机视觉任务[109]。在VR和AR应用中,获得的有关人体姿势的视觉信息通常可以表示为每个人体部位的关节位置和关节点。这些关键点反映了人体姿势的特征,描述了身体部位,如肘部、腿部、肩部、手、脚等[110],[111]。 跟踪眼睛的位置和方向以及注视方向可以进一步丰富元宇宙中的用户微观交互。眼睛跟踪可以实现凝视预测。在另一方面,眼睛跟踪必须在不同的用户、位置和视觉条件下可靠地运行。眼睛跟踪需要在设备所施加的功率和计算限制范围内进行实时操作。

  姿态追踪估计中有几个大的挑战。首先,姿势跟踪算法需要处理身体部位的自遮挡。其次,跟踪算法的鲁棒性会影响存在感,特别是在多用户场景中。最后,姿势跟踪算法需要跟踪人体,即使在非常不同的照明条件下,例如在太亮或太暗的环境中。考虑到这些挑战,大多数身体姿势跟踪方法将RGB传感器与红外或深度传感器[109]、[112]–[114]相结合,以提高检测精度。此类传感器数据对突然的照明变化相对鲁棒,并传递跟踪像素的深度信息。对于XR应用,Microsoft Kinect25和OpenNaturalinteraction(OpenNI)26是两种流行的人体姿势估计框架。

  与单体姿态跟踪相比,多人跟踪更具挑战性。跟踪算法需要计算用户数量及其位置,并按类别对其进行分组[115]。在文献中,针对VR[116]、[117]和AR[118]–[120]提出了许多方法。另一方面,在不同的情况下,需要单人和多人身体追踪算法。需要可靠高效的身体姿势跟踪算法来确保元宇宙与物理世界和人之间的紧密联系。

  眼睛跟踪是另一个具有挑战性的主题,因为人类化身需要“看到”沉浸式3D环境。眼睛跟踪是基于连续测量瞳孔中心和角膜反射之间的距离[121]。眼睛的角度会聚在凝视相交的某个点上。

  显示在眼睛角度内的区域称为“辐合”[122]——距离随眼睛角度的变化而变化。直观地说,眼睛跟踪中的计算机视觉算法应该能够通过从眼睛固定的角度推断距离[123]。为了测量距离,一种有代表性的方法是利用红外摄像机,它可以记录和跟踪眼球运动信息,就像在HMD中一样。在虚拟现实中,HMD设备靠近眼睛,便于显示边缘。但是,由于3D深度信息,设备无法跟踪距离。因此,对沉浸式环境中的虚拟对象进行去激励是其中的关键问题之一。

  眼睛跟踪可以为元宇宙中的沉浸式环境带来很多好处。其中之一是降低渲染虚拟环境的计算成本。眼球跟踪使得仅在用户视图中呈现内容成为可能。因此,它还可以促进虚拟世界和现实世界的整合。然而,在眼球追踪方面仍然存在挑战。首先,缺乏焦点模糊会导致对虚拟环境中物体大小和距离的错误感知[125]。眼睛跟踪的另一个挑战是确保精确的距离估计,同时由于遮挡而导致不完全注视[125]。最后,眼睛跟踪可能导致运动病和眼睛疲劳。在元宇宙中,对眼睛跟踪的要求可能比传统虚拟环境高得多。这开辟了一些新的研究方向,例如准确理解人类行为,在3D沉浸式环境中为化身创造更真实的眼神交流,类似于身体眼神交流。

  在物质世界中,我们通过回答四个基本问题来理解世界:我的角色是什么?我周围的内容是什么?我离引用对象有多远?对象可能在做什么?在计算机视觉中,对元宇宙世界的理解旨在回答这些问题[126]。一个人在元宇宙中的角色已经很清楚,因为他们是通过化身投射出来的。然而,计算机视觉的第二个问题是基于语义分割和目标检测的。关于第三个问题,我们根据我们在物理世界中的眼睛估计到参考物体的距离。计算机视觉中这种场景感知方式称为立体匹配和深度估计。

  最后一个问题要求我们根据自己的理解来解释物理世界 。元宇宙要求我们与物理世界和虚拟世界中的其他对象和用户进行交互。因此,整体场景理解在确保元宇宙的运行中起着关键作用。

  语义分割,根据每像素信息将图像分类为不同的类别, 它被认为是全面了解环境的核心技术之一[127]。在计算机视觉中,语义分割算法需要根据分类信息高效、快速地分割每个像素。最近基于深度学习的方法 [128]在为自动驾驶设计的城市驾驶数据集中显示出了显著的性能提升。然而,在真实时间内执行准确的语义分割仍然具有挑战性。例如,AR应用程序需要语义分割算法以每秒60帧(fps)左右的速度运行[129]。因此,语义分割是实现元宇宙的一项关键而富有挑战性的任务。

  物体检测是另一项基本的场景理解任务,旨在定位图像或场景中的物体,并识别每个物体的类别信息[131], 目标检测在XRand中得到广泛应用,是实现元宇宙不可或缺的任务。例如,在VR中,人脸检测是典型的对象检测任务,而文本识别是AR中常见的对象检测任务。在更复杂的应用中,AR对象识别旨在将3D模型附加到物理世界[130]。这需要目标检测算法精确定位目标位置并正确识别类别。 AR对象检测有助于在元宇宙中构建更丰富、更具沉浸感的3D环境。

  传统语义分割主要是结合特征跟踪算法,例如SIFT[108],其目的是基于手工特征分类分割像素,例如支持向量机(SVM)[132]。这些算法已应用于VR[133]和AR[134]。然而,这些传统方法的分割性能有限。最近的研究工作探索了CNN在语义分段方面的潜力。这些方法已成功应用于AR[138]、 [135]。一些研究表明,语义分割能够解决MR[136],[137]中的遮挡问题。然而,当图像分割处理每个像素时,它会导致相当大的计算和内存负载。

  元宇宙中的目标检测可分为两类:检测特定实例(例如人脸、标记、文本)和检测一般类别(例如汽车、人类)。文本检测方法在XR、[138]、[139]中得到了广泛的研究。这些方法已经成熟,可以直接应用于实现元宇宙。近年来,人脸检测也得到了广泛的研究,这些方法在XR应用程序中的各种识别场景中都表现出了良好的鲁棒性,例如[140]-[145]。

  使用立体匹配进行深度估计是实现元宇宙的关键任务。估计的距离直接决定了内容在沉浸式环境中的位置。估计深度的常用方法是使用立体相机[146] 。在虚拟现实中,立体深度估计是在虚拟空间中进行的。因此,深度估计估计虚拟对象到虚拟摄像机(firstpersonview)或参考对象(第三人称视图)之间的绝对距离。传统方法首先提取特征点,然后使用特征点计算成本体积,用于估计差异[147]。近年来,广泛的研究集中于探索深度学习在虚拟现实中评估深度的潜力,例如[148],[149]。

  在XR中,一个关键问题是确保基于虚拟和真实对象进行去激励。通过这种方式,XR用户可以将虚拟对象放置在正确的位置。AR/MR中深度估计的早期文献方法依赖于绝对自我中心深度[150],表明从虚拟对象到观察者的距离。关键技术包括“盲走”[151]、想象盲走[152]和步行三角测量[153]。最近,基于深度学习的方法已应用于XR[154]–[156],显示了更精确的深度估计性能。立体相机已应用于一些HMD,例如theOculus Rift[157]。红外摄像机传感器也嵌入到一些设备中,如全息透镜,使深度信息收集更容易。

  在元宇宙中,人类化身需要识别其他化身和内容的动作。在计算机视觉中,理解一个人的动作称为动作识别,它涉及定位和预测人类行为[158]。 在XR中,Hololens等HMD通常需要观察和识别用户的动作,并在3D沉浸式环境中生成特定于动作的反馈。例如,为了进行交互,有必要使用相机捕捉和分析用户的运动。随着Microsoft Kinect的出现,人们已经做出了许多努力来获取人体信息并理解动作[159]。捕获的身体信息用于识别视图不变动作[160],[161]。例如,动作识别的一个方面是手指动作识别[162]。

  最近,深度学习已应用于基于纯RGB图像数据[163]或通过传感器融合的多模态数据[164]的AR中的动作识别。它在虚拟现实中也有自己的情感识别潜力[165]。当我们深入研究XR中动作识别成功的技术细节时,我们发现基于捕获的姿势信息的局部和全局信息生成上下文反馈非常重要。

  元宇宙与物理环境实时无缝连接。 化身需要与物理人一起工作;因此,在元宇宙中显示具有较少噪声、模糊和高分辨率(HR)的3D虚拟世界非常重要。在不利的视觉条件下,例如阴霾、低亮度或高亮度,甚至下雨的天气条件,元宇宙中的交互系统仍然需要显示虚拟宇宙。

  图像恢复的目的是从退化的图像(例如,噪声、模糊图像)重建干净的图像。相比之下,图像增强侧重于提高图像质量。在元宇宙中,图像恢复和增强是最需要的。例如,当用户快速移动时,捕获的身体信息和生成的化身可能会受到模糊和噪声的影响。因此,系统需要对用户的输入信号进行去噪和去模糊处理,输出清晰的视觉信息。此外,当用户远离摄像机时,生成的视频可能处于低分辨率(LR)状态。因此,有必要提高空间分辨率,并在三维虚拟环境中用HR显示头像。

  图像复原在VR中成功应用。例如,[166]关注基于图像相似性恢复的彩色VR。在[167]、[168]中,提出了基于优化的方法来覆盖虚拟现实中的纹理细节并去除虚拟图像的伪影,这些技术可以被用作缩小现实(DR)[169],它允许人类用户观看带有“屏蔽内容”的宇宙模糊场景。此外,[170]检查如何使用图像去叠来恢复干净的水下图像,可用于AR中基于标记的跟踪。另一个问题是模糊,这会导致XR中的注册失败。真实模糊图像和虚拟内容之间的图像质量差异在透明设备(如Microsoft Hololens)中可能很明显。考虑到这个问题,[171],[172]建议首先模糊摄像机拍摄的真实图像,然后使用模糊效果渲染虚拟对象。

  图像增强,特别是图像超分辨率,已经被广泛研究用于XRD显示。图像分辨率对用户的视觉质量有很大的影响,这与头盔显示器引起的运动病有关。因此,广泛的研究集中在光学SR上,例如[173]、[174]和图像SR[175]、[176],用于VR/AR中的显示。 最近,[177]-[178]应用了深度学习,并在VR显示器上取得了令人鼓舞的性能。这些方法克服了导致显示器中出现可见像素伪影的解决方案限制。

  元宇宙在物理和虚拟世界[179]中具有连续、无所不在和通用的信息接口,它包含了现实-虚拟连续统一体,并允许用户在两者之间无缝体验。目前被广泛采用的元宇宙接口是移动和可穿戴设备,如AR眼镜、耳机和智能手机,因为它们允许用户方便地移动。然而,元宇宙所需的密集计算对于移动设备来说通常太重。因此,卸载对于保证及时处理和用户体验是必要的。传统的云卸载面临几个挑战:用户体验延迟、实时用户交互、网络拥塞和用户隐私。

  在元宇宙中,必须保证用户沉浸感,以提供与现实相同的体验。影响触觉的最关键因素之一是潜伏期,例如运动到光子(MTP)潜伏期。研究人员发现,MTP延迟需要低于人类可感知的极限,以允许用户无缝直接地与全息增强进行交互[180]。例如,在AR的注册过程中,较大的延迟会导致虚拟对象落后于预期位置[181],这可能会导致疾病和头晕。因此,减少延迟对于元宇宙至关重要,特别是在需要实时数据处理的场景中,例如,与物理世界的实时AR交互,如AR手术[182]–[184],或元宇宙中的实时用户交互,如VR中的多人交互展览[185]或者多个玩家在Fortnite中战斗。

  如前所述,元宇宙通常需要对移动设备进行过于密集的计算,从而进一步增加延迟。为了补偿移动接口(AR眼镜和VRHeadset等)中图形和芯片组的有限容量,通常使用卸载来减轻计算和内存负担,但代价是额外的网络延迟[186]。因此,平衡的权衡对于让卸载过程对虚拟世界中的用户体验透明至关重要。但这并不容易。例如,需要渲染一个大于耳机视野的本地可导航视口,以平衡卸载期间的网络延迟[187]。但是,所需的视口大小和网络延迟之间存在紧张关系:较长的视口需要更大的视口和流式传输更多的内容,从而导致更长的延迟[188]。因此,具有物理部署改进的解决方案可能比纯资源编排更现实。

  由于可变且不可预测的高延迟[189]–[192],云卸载无法始终达到最佳平衡,并导致长尾延迟性能,从而影响用户体验[193]。最近的云可达性测量发现,当前的云分布能够提供小于100ms的网络延迟。然而,只有少数国家(184个国家中的24个)通过有线网络可靠地达到MTP阈值[194],只有中国通过无线网络达到MTP阈值[195]因此,需要一个补充解决方案来保证元宇宙中的无障碍和沉浸式用户体验。

  边缘计算(Edge computing)计算、存储和传输物理上更接近最终用户及其设备的数据,与云卸载相比,可以减少用户体验的延迟[196],[197]。早在2009年,Satyanarayanan等人认识到部署功能强大的云状基础设施——距离移动设备(即所谓的cloudlet)仅一个无线跳跃——就可以改变游戏,这一点后来的许多作品都证明了这一点。例如,Chen等人[199]通过对一套应用程序的经验研究来评估边缘计算的延迟性能。他们表示,LTE Cloudlets将比默认的云卸载提供显著的好处(延迟减少60%)。类似地,Ha等人[200]也发现边缘计算可以比云计算平均减少至少80毫秒的服务延迟。

  利用边缘计算的延迟优势,研究人员提出了一些解决方案来提高元宇宙应用程序的性能。例如,EdgeXAR、Jaguar和EAVVE以移动AR服务为目标。EdgeProfile提供了一个移动AR框架,利用edgeoffloading的优势,提供6度自由度的轻量级跟踪,并隐藏用户感知的卸载延迟[201]。捷豹通过在配备GPU的edgecloud上利用硬件加速来限制移动AR的端到端延迟[202]。EAVVE提出了一种新的协作式车辆感知系统,该系统由边缘服务器可减少总体卸载延迟,并弥补车内计算能力不足[203]。对于VRS服务也提出了类似的方法。Lin等人[204]将EnergyWarevr体验问题转化为马尔可夫决策过程,并使用普及的边缘计算实现了无线虚拟现实体验。Gupta等人[206]集成了可扩展的360度内容、预期的VR用户视口建模、mmWave通信和边缘计算,以实现具有低交互相关性的8K 360度Evideo移动VR arcade流媒体系统。Elbamby等人[206]提出了一种新的主动式边缘计算和mmWave通信系统,以提高交互式虚拟现实网络游戏机的性能,该游戏机需要动态实时渲染高清视频帧。随着分辨率的提高,边缘计算将发挥更关键的作用,以减少metaverse流的16K、24K甚至更高分辨率的延迟。

  减少VirtualWorld延迟方面的卓越性能使边缘计算成为元宇宙创作的一个重要支柱。例如,苹果公司使用带有虚拟现实耳机的Mac支持360度虚拟现实渲染[207]。由于其强大的高通SnapdragonXR2芯片组[208],Facebook OculusQuest 2无需连接PC即可自行提供虚拟现实体验。然而,与功能强大的PC相比,它的容量仍然有限,因此,独立的虚拟现实体验是以较低的帧速率和不必要的详细虚拟现实场景为代价的。通过卸载到边缘服务器(例如PC),用户可以在不牺牲细节的情况下以更高的帧速率享受更具交互性和沉浸式的体验。Facebook于2021年4月宣布的TheOculus Air Link[209]允许Quest 2通过家庭Wi-Fi网络以高达1200 Mbps的速度卸载到边缘,从而实现无延迟的VR体验和更好的移动性。然而,这些产品仅限于室内环境,用户移动能力有限。

  为了让用户体验真正且完全无所不在的元宇宙,蜂窝网络支持的无缝户外移动体验至关重要。目前,最后一公里接入仍然是LTE网络的延迟瓶颈[210]。随着5G(有望在最近几天内降至1ms)和未来6G的发展,多址边缘计算(MEC)有望通过提供欧洲电信标准协会(ETSI)提出的标准和通用边缘卸载服务是一种以电信供应商为中心的GE云模型,其部署、运行、维护和维护都是从蜂窝连接的用户设备(例如AR glasses.MEC)一跳而来的,边缘服务器的维护由在该区域内运行的ISP处理,通常与基站位于同一地点或与基站相距一跳[211]。它不仅可以减少数据包传递的往返时间(RTT)[212],还为多用户交互的近实时编排打开了大门[213],[214]。MEC对于户外元宇宙服务理解详细的本地上下文并协调附近用户或设备之间的密切协作至关重要。例如,5G MEC服务器只需一跳数据包传输即可管理附近用户的AR内容,并可为“神奇宝贝”等社交AR应用程序提供实时用户交互[215]。

  采用MEC改善元宇宙体验已获得学术界的关注。Dai等人[216]在云无线接入网络(C-RAN)的MeccacheServer上设计了一个基于视图合成的360度虚拟现实缓存系统,以提高无线虚拟现实应用的质量。Gu等人[217]和Liu等人[218]分别利用低于6 GHz的链路和毫米波链路以及MEC资源来解决VR HMD上的有限资源以及正常VR和全景VR视频(PVRV)传输的传输速率瓶颈。

  事实上,元宇宙公司也开始雇佣MEC来改善用户体验。例如,Alleading Volume capture公司DoubleMe宣布了一个概念验证项目Holoverse,该项目与Telefonica、德国电信、TIM和MobiledgeX合作,以测试最佳5G电信边缘云网络基础设施,以便使用元宇宙 Ingust 2021实现各种服务的无缝部署[219]。著名的Niantic公司开发了《安格斯》、《神奇宝贝围棋》和《哈利波特:巫师联盟》,该公司设想建造一个“星球级AR”。它已经与全球电信运营商结盟,包括德国电信、EE、全球电信、Orange、SK电信、软银公司、TELUS、Verizon和Telstra,以利用MEC提高其RAR服务性能[220]。随着5G和6G技术的进步,最后一英里延迟将进一步减少。因此,MEC有望改善其性能受益于宇宙元宇宙体验。

  元宇宙正在改变我们的社交、学习、购物、娱乐、旅游等方式。 由于元宇宙收集比以往更多的用户数据,如果情况恶化,后果也将比以往更糟。其中一个主要问题是隐私风险[221],[222]。例如,亚马逊、苹果、谷歌(Alphabet)、Facebook和微软等科技巨头长期以来一直倡导无密码身份验证[223]、[224],即通过指纹、人脸识别或PIN码来验证身份。元宇宙很可能会继续这种时尚,可能会有更多的生物识别技术,如音频和虹膜识别[225],[226]。以前,如果用户丢失了密码,最糟糕的情况是用户丢失了一些数据并创建了一个新的密码以保证其他数据的安全。然而,由于生物特征识别技术与用户永久关联,一旦它们被泄露(被冒名顶替者窃取),它们将永远被泄露,无法撤销,用户将面临真正的麻烦[227],[228]。

  目前,云在服务提供商端收集和挖掘最终用户的数据,因此存在严重的隐私泄露风险[229]–[231]。相比之下,边缘计算将是一个更好的安全和隐私解决方案,它允许在边缘进行数据处理和存储[232]。边缘服务还可以在授权过程中从应用程序中删除高度隐私的数据,以保护用户隐私。例如,联邦学习,一种获得广泛关注的分布式学习方法,在本地设备上训练和保存用户数据,并通过聚合本地模型更新全局模型[233]。它可以在终端用户部署的边缘服务器上运行,并在分布式客户机上执行大规模数据挖掘,而无需上传除本地梯度更新以外的用户私有数据。这个解决方案(在边缘训练,在云端聚合)可以提高元宇宙的安全性和隐私性。例如,数百万用户的可穿戴设备收集的眼球跟踪或运动跟踪数据可以在本地边缘服务器(理想情况下为用户所有)中进行训练,并通过联合学习参数服务器进行聚合。因此,用户可以在元宇宙中享受视觉内容推荐等服务,而不会泄露其隐私。

  边缘计算的优势有:靠近最终用户的低更新率、为附近用户的交互提供更快的本地编排、通过本地数据处理保护隐私。然而,当涉及到长期、大规模的元宇宙数据存储和经济运营时,到目前为止,云仍处于领先地位。主要原因是云数据中心中的数千台服务器可以存储比边缘机器更可靠的数据。这对于元宇宙来说是至关重要的,因为它拥有难以想象的海量数据。根据高保真[233]的推理,假设地球上的每台电脑只需要存储、服务和模拟一个比典型视频游戏小得多的区域,那么20年后元宇宙大小将是地球的1000倍。因此,在这样一个庞大的元宇宙中,强大的云服务对于维护数千甚至数百万并发用户的共享空间至关重要。

  为了优化云和边缘之间的交互,高效的协调器是满足元宇宙[234]–[236]中不同流程多样化和严格要求的必要条件。例如,云为延迟容忍操作运行广泛的数据管理,而边缘计算负责附近元宇宙用户之间的实时数据处理和交换。

  Suryavansh等人[237]将混合边缘和云与基线(如仅边缘和仅云)进行了比较。他们分析了广域网带宽变化、云成本、边缘异质性的影响,发现混合边缘云模型在实际设置中表现最好。另一方面,Younis等人和Zhang等人分别提出了Aran和VR的解决方案。更具体地说,Younis等人[238]提出了一个混合边缘云框架MEC-AR,forMAR。 在MEC-AR中,MEC处理传入的边缘服务请求并管理AR应用程序对象。同时,云为数据存储提供了一个广泛的数据库,由于内存限制,数据存储无法在MEC中缓存。Zhang等人[239]专注于VR MMOG的三个主要需求,即严格的延迟、高带宽和支持大量同步玩家。他们相应地提出了一种混合游戏架构,将局部视图更改更新和帧渲染放在边缘上,将全局游戏状态更新放在云上。因此,该系统巧妙地分配了工作负载,同时保证了即时响应、高可靠性带宽和用户可扩展性。

  元宇宙依赖于普及网络访问,无论是远程执行计算繁重的任务、访问大型数据库、在自动化系统之间通信,还是在用户之间提供共享体验。为了满足这些应用的不同需求,元宇宙将非常依赖未来的移动网络技术,如5G、6G… 。

  元宇宙需要大量带宽来实时传输非常高分辨率的内容。许多交互式应用考虑到光子延迟的活动,即用户行为和屏幕上的影响之间的延迟[240],这是用户体验的主要驱动力之一。

  未来多媒体应用的吞吐量需求呈指数级增长。5G(高达10Gb/s[241])的增强功能为依赖大量数据实时传输(AR/VR、云游戏、互联车辆)的众多应用打开了大门。通过将如此广泛的技术互连,其 带宽需求将是巨大的,高分辨率视频流占流量的最大部分,其次是普及传感器部署产生的大量数据和元数据[242]。在移动网络等共享媒体中,元宇宙不仅需要大量可用带宽,还可能与其他应用程序竞争。因此,我们预计元宇宙的要求将超过5G的可用带宽[243]。延迟要求在很大程度上取决于应用程序。对于在线和云游戏等高度互动的应用程序,130毫秒通常被视为较高的阈值[244],而一些研究显示,用户性能下降的延迟低至23毫秒[245]。头戴式显示器,如透视AR或VR,以及触觉反馈设备,显示了运动到光子的最新要求,可达到毫秒,以保持用户的视觉[246],[247]。

  运动到光子延迟有许多因素,其中硬件传感器捕获时间(例如帧捕获时间、触摸屏按键[247])和计算时间。对于需要毫秒级延迟的应用程序,操作系统上下文切换频率(通常设置在100Hz和1500Hz之间[248]),内存分配、不同组件之间的复制时间(例如CPU和GPU内存空间之间的复制时间)也会显著影响光子延迟的整体运动[249]。在这种受限的管道中,网络操作引入了进一步的延迟。尽管5G承诺显著改善延迟,但最近的测量研究表明,无线接入网(RAN)本身显示的延迟与4G非常相似,而大部分改进来自gNB和运营商核心网之间的通信[250]。然而,需要注意的是,大多数5G网络是在非独立(NSA)模式下实现的,在这种模式下,只有RAN到GNB使用5G无线电,而运营商核心网络主要使用4G。此外,尽管将增强型移动宽带(eMBB)的运行延迟标准化为4毫秒,将超可靠低延迟通信(uRRLC–尚未实施)的运行延迟标准化为0.5毫秒[251],但GNB和核心网络之间的通信占了大部分往返延迟(10到20毫秒之间),ISP通常很少控制[250]。因此,除非服务器直接连接到5G gNB,否则边缘计算相对于云计算的优势可能会受到很大限制[252],特别是在云部署广泛的国家[253]。减少延迟的另一个考虑因素可能是内容提供商控制整个端到端路径[254],通过在ISP内部使用网络虚拟化进行教学[255]。这样的愿景需要ISP和内容提供商之间达成商业协议,这比AS之间的对等协议更具深远意义。元宇宙成功的核心条件之一是所有参与者(应用程序开发人员、ISP、内容提供商)的全面协调,以确保稳定、低延迟和高通量的连接。

  目前,5G几乎无法满足现代多媒体应用的最新需求,而且对于未来的应用(如通过AR或VR的ASSE)来说,显示的延迟太高。URLLC服务类承诺低延迟和高可靠性,这两个目标经常相互冲突,标准化的运行延迟为0.5毫秒。然而,URLCIS目前仍然缺乏包含整个体系结构的框架,无法从客户端提供延迟保证到服务器[256]。因此,到目前为止,还没有在商业上部署URLLC。此外,我们预计uRRLC将优先考虑低延迟是安全问题的应用,如医疗保健、智能电网或联网车辆,而不是公共接入AR和VR等娱乐应用。5G规范提供的第三种服务类别是大型机器型通信(mMTC)。此类专门针对机器间的自主通信,以解决连接到Internet的设备数量不断增加的问题[257]。元宇宙的许多应用将需要mMTC来处理用户接触不到的设备之间的通信,包括智能建筑和智能城市、机器人和无人机以及连接的车辆。未来的移动网络将面临巨大的挑战,如何在数十亿自治设备和人类类型的应用程序之间高效共享频谱[258],[259]。 通过为元宇宙中的所有应用程序提供吞吐量、抖动和延迟保证,网络切片也将成为元宇宙的核心启用程序[260]。然而,与toURLLC类似,在当前网络中部署网络切片最有可能针对任务关键型应用,在这些应用中,网络状况可能会显著影响设备和用户的安全[261],[262]。此外,网络切片仍然需要解决有效协调网络资源的问题,以便将需求经常冲突的网络切片映射到有限的物理资源[263]。5G的另一个可以显著提高吞吐量和延迟的特性是使用新频段。毫米波频段(24GHz-39GHz)允许宽通道(高达800MHz)提供大吞吐量,同时将延迟降至1ms以下。毫米波频率会受到低范围和障碍物穿透的影响。因此,毫米波主要用于拥挤环境中密集的基站部署,如2018年平昌奥运会(韩国)或成田机场(日本)[264]。这种密集的部署允许同时为大量用户提供服务,同时在RAN上保持高吞吐量和低延迟。

  元宇宙在设计上是一个以用户为中心的应用程序。因此,多元宇宙的每一个组成部分都应该以人类用户为核心。在网络设计方面,这种考虑可以采取多种形式,从将用户体验置于流量管理的核心,到实现以用户为中心的感知和通信。

  为了解决这些问题,网络社区在体验质量(QoE)这一术语下,不断地将用户体验指标整合到网络性能度量中。QoE旨在提供一种可测量的方法来评估用户对应用程序或服务的感知[265]。大多数研究倾向于将QoE一词用作可能影响用户体验(例如延迟、吞吐量)的基本服务质量(QoS)度量的同义词。然而,有几家公司试图通过各种模型将网络和应用程序级指标结合起来,使QoE正式化。尽管这些模型代表了朝着正确方向迈出的一步,它们是特定于应用程序的,并且可能受到多种因素的影响,无论是人、系统还是环境[266]。在家用视频游戏机(如Sony PS Now 28)上运行的云游戏应用程序的QoE测量与在透明耳机上运行的移动XR应用程序明显不同。此外,许多研究侧重于如何估计尽可能接近用户感知的视频质量[267],[268],并且大多数不考虑其他标准,例如可用性或主观用户感知[269]。元宇宙需要整合这些指标来处理用户期望,并主动管理流量,以最大化用户体验。

  提供准确的QoE指标以评估用户体验对于以用户为中心的网络应用程序至关重要。下一步是将QoE整合到网络处理交通的方式中。QoE可以在网络上的各个级别进行集成。首先,客户端通常具有感知用户、其应用程序使用情况和应用程序执行上下文的重要功能。此外,许多应用程序(如AR或实时视频流)可能会产生大量的上传流量。因此,让客户端从端到端的角度负责管理网络流量是有意义的[270],[271]。服务器端通常具有更高的计算能力,某些应用程序需要大量下载,如360V视频或VR内容流。在这种情况下,服务器可以使用由客户端通信的QoE测量来相应地适配网络传输。这种方法已被用于根据用户偏好[272]和客户反馈[273]调整视频流的质量。最后,可以使用QoE措施来处理核心网络中的流量管理,无论是通过排队策略[274]、[275]、软件定义的网络[276]还是网络切片[277]。为了满足带来满意用户体验的严格要求,元宇宙可能需要绕过传统的分层网络方法。较低的网络层可以在网络可用资源上传递信息,以便应用层适应要传输的数据量,而较低层可考虑QoEat应用水平的测量以适应内容传输[270]。

  以人类为中心的网络的另一个方面在于具体化的传感器。近年来,传感器网络从固定环境传感器发展到自排列传感器网络[278]。许多这样的传感器被设计为长时间保持在同一位置,或控制移动性[279]。同时,嵌入式传感器长期以来被认为只感知用户。然而,我们现在目睹了感知用户整个环境的嵌入式传感器的兴起,这就提出了这样一个问题,即这些传感器如何在已经拥挤的通信和景观中进行通信。检测和聚合独立传感器之间的冗余信息对于释放网络上的重要资源至关重要[280]。

  在元宇宙的许多应用中,对于应用层来说,驱动要传输的数据量以及内容对较低网络层的优先级更为重要。网络感知应用在20世纪90年代末提出,以解决此类问题[281],[282]。针对固定和移动网络提出了许多框架[283]。最近,针对资源调配[284]、分布式学习优化[285]和内容分发[286]、[287]提出了网络感知应用程序。

  随着5G的快速部署,人们对网络感知应用重新产生了兴趣[288]。5G使许多以用户为中心的应用程序能够移动到云端,如云游戏、实时视频流或云VR。这些应用广泛依赖于视频流的实时传输,视频流的质量可以根据网络条件进行调整。5G规范包括网络能力暴露,其中gNB可以将RAN条件传达给用户设备。在边缘计算场景中,边缘服务器位于gNB之后,因此用户设备可以了解整个端到端路径的条件。当服务器位于网络的下游时,网络能力暴露仍然会寻址端到端路径中最可变的组件之一,提供有价值的信息来驱动传输。然后,可以将来自物理层和接入层的此类信息传播到网络层,其中可以根据各种网络能力做出路径决策,传输层主动解决潜在拥塞[289],应用层减少或增加要传输的数据量,从而最大化用户体验[290]。

  化身一词起源于印度教的概念,它描述了一个印度教神的化身,在普通世界中以人或动物的形式出现。化身出现在各种数字世界中。首先,它通常被用作各种聊天室(如ICQ)、论坛(如Delphi)、博客(如Xanga)以及社交网络(如Facebook中的个人资料图片。此外,具有非常原始的元宇宙示例(如AberMUD和Second Life)的游戏玩家利用“化身”一词来表示自己。最近,游戏玩家或虚拟社交网络的参与者可以修改和编辑其化身的外观,具有几乎无限的选项[291],如Fortnite,虚拟现实游戏,如虚拟现实聊天,允许用户扫描他们的外表,然后选择他们的虚拟服装,以模仿用户的现实生活外观。虚拟在线会议,使用户能够将他们的脸转换成各种卡通风格。研究还试图利用化身作为亲密朋友、教练或想象中的自我来管理自己和设定目标,如学习和营养[292],[293]。

  在计算机科学和技术领域中,化身表示用户在虚拟空间中的数字表示,如上所述,以及其他物理体现,例如社交机器人,无论其形状大小[294]。 然而,值得指出的是,社交机器人可能是人类用户和虚拟实体在现实世界和元宇宙之间的潜在通信渠道,例如,机器人可以感知用户的情绪,并在对话中与用户进行适当的互动[295],或者,机器人可以作为物理世界中远程工作(telepresence workplace)的服务提供者[296]。

  人类用户的数字表示旨在作为镜像自我来表示他们的行为以及与元宇宙其他用户的交互。在元宇宙内部的各种社交活动中,化身的设计和外观可能会影响用户的感知,如真实感[297]和存在感[298]、信任[299]、身体所有权[300]和群体满意度[301],这些感知会受到一系列因素的影响,例如化身的面部细节[302]以及相关的微表情[303]、化身身体的完整性、化身风格[304]、表现[305]、颜色[306]和位置[307]、逼真度[308]、化身手势的细节层次[309]、阴影[310]、化身行为的设计[311]、化身身体动作的同步[312],原地行走动作[313],识别用户反映在其化身上的自我动作的能力[314],多个化身之间的合作和潜在故障[315],仅举几个例子。因此,化身在塑造元宇宙中多用户场景中的虚拟社会交互行为方面起着关键作用。在[316]中,化身的瞳孔反应可以反映用户的心跳频率。在虚拟聊天室的虚拟环境中,野外用户明显依赖身体感知技术(即连接在他们身体上的传感器)来表达他们的身体动作和手势交流,这有助于非语言用户交互(即语音、手势、凝视和面部表情)模仿现实生活中不可或缺的部分[317]。

  当化身在极其多样化的虚拟环境中变得越来越普遍时,对化身的研究应该超越上述唯一的设计方面。我们简要讨论了与虚拟环境中通过化身进行用户交互相关的六个未充分探讨的问题——1)野生用户行为,2)虚拟环境中的化身及其上下文,3)化身诱导的用户行为,4)用户隐私,5)公平性,以及6)与物理世界的连接。首先,如前几节所述,metaverse可以成为社交聚会和其他活动的独立虚拟场所。用户在野外(即实验室外)的行为,代表用户的化身,需要进一步调查,最近出现的虚拟世界可以作为进一步研究的试验床。例如,在虚拟环境中,了解用户在群体动态、群体竞争之间的行为非常有趣。鼓励用户通过各种活动赚取NFT(非同质化代币)。其次,我们预计拥有化身的用户将体验各种虚拟环境,代表多样化的语境。化身的外观应该适合这样的语境。例如,虚拟角色应该表现得专业,以获得虚拟工作环境中其他利益相关者的信任[318]。第三,有必要了解虚拟环境中虚拟角色引起的用户行为的变化和动态。一个著名的例子是Proteus效应[319]这说明虚拟世界中的用户行为受我们的化身特征的影响。同样,在自我感知理论的支持下,用户在虚拟环境中的行为通过自我感知的转变而受到化身诱导的行为和态度变化的影响[320]。

  当先进的技术能够真实反映化身的粒度时,化身设计师应该考虑隐私保护机制来保护用户的身份[321]。其次,化身的选择应该代表不同的人群。目前的头像模型可能会导致对外表的偏见选择[322],例如,高大的白人男性[333]。化身设计师应该提供广泛的选择,使人们能够在虚拟环境中平等地选择和编辑他们的外观。最后,在现实世界环境中揭示元宇宙化身的研究很少。揭示真实世界中的化身能够增强存在性(即,虚拟人在真实世界中的共同存在[334]),特别是在某些情况下更倾向于代表特定人的化身的物理存在,例如讲座[335]。

  当元宇宙底层平台搭建好后,就会带来真正的万物互联时代,会大大的激励用户进行内容创作。图10-1-1 虚拟环境内容创作

  在虚拟环境中,创作工具使用户能够以直观和创造性的方式创建新的数字对象。图10-1-1展示了文献中XR/AR/VR创作系统的几个示例。在VR[336]–[338]中,沉浸式环境提供虚拟键盘和控制器,帮助用户完成复杂任务,例如,构建图10-1-1(a)所示的功能反应式编程(FRP)图。此外,重新使用现有的模式扫描可以加快虚拟环境中的创作过程,例如演示文稿(图10-1-1(b))。此外,用户还可以利用智能可穿戴设备创建艺术对象,如图10-1-1(c)中的智能手套。结合上述工具,用户可以在虚拟环境中设计交互式AI角色及其叙述(图10-1-1(d))。在AR或MR中,用户可以在物理环境中的物理对象和人员上绘制草图并粘贴覆盖图[339]、[340]、[341]–[343]。增强物理环境可以通过在半空中绘制新闻片[337],[341]来实现,例如,图10-1-1(f),使用预定义的AR覆盖检测上下文((图24(g)),记录真实世界对象的运动以模拟AR中的物理特性[344],在AR中插入物理对象(图24(h)),甚至使用低成本物体,如纸张[345]和聚合物混合[342]。

  值得注意的是,AI可以发挥实体从物理世界到虚拟环境自动转换的作用。因此,用户界面/用户体验设计师和其他非编码人员感觉更容易在虚拟环境中创建内容,在AI辅助转换驱动的虚拟世界之上。 存在三个主要瓶颈:

  1)以交互和讲故事的方式组织新内容[346],

  2)允许多个化身(即人类用户)[347]之间的协作工作,以及

  3)由多个异构设备支持的用户交互[348]。据我们所知,只有有限的工作试图解决上述瓶颈问题,并指出基于角色的协作内容创建的可能性[18]、[339]、[349]。如Peichers等人[339]所述,对等用户可以在不同的角色中行动,并在虚拟环境中协作工作,如向导、观察者、促进者、AR和VR用户作为内容创建者等。类似地,NeBelink等人考虑导演、演员和电影摄影师的三个关键角色,为虚拟环境中的故事情节创造复杂的沉浸式场景。

  尽管我们无法推测创作技术和解决方案的所有应用场景,但人类用户可以在元宇宙中以各种方式生成内容,即用户生成的内容。需要注意的是,此类授权系统及其数字创作是适用的两个明显的用例。首先,物理任务[350]和虚拟任务[351]上的远程协作使用户能够向其对等方提供丰富的指令,并相应地创建用于远程完成任务的内容。第二,内容创作可以促进视频会议或社交聚会的等效虚拟场所,这是元宇宙的基本功能。自2020年以来,全球流行病的意外破坏加速了数字转型,因此虚拟环境被视为虚拟旅行、社交聚会和专业会议的替代方案[352],[353]。在线教学和远程学习是一些最显著但影响最大的例子,因为学校和大学在全球范围内暂停物理课程。学生主要依靠远程学习和从专有的在线平台获取学习材料。在这种意想不到的情况下,教师选择视频会议作为与学生交流的关键切入点。然而,此类在线会议需要加强以提高其有效性[354]。XRStudio演示了在教师和学生之间的视频会议中添加虚拟叠加(AR/VR)的好处。类似地,数字商务在很大程度上依赖于在线影响力者来刺激销量。这些在线影响者通过直播分享用户生成的内容,例如在线品尝和评论食物[355],获得在线观众的关注和互动。根据以上工作,我们预计XR创作系统的未来将有助于在直播活动中增加参与者(例如演讲者)。XR中的虚拟覆盖物支持丰富的内容,可以促进这种远程交互。演讲者还可以邀请协作内容创作与观众见面。元宇宙可以作为一种媒介,将演讲者(用户生成内容的主要参与者)和观众虚拟地连接到一个统一的环境中

  审查是压制思想和信息的一种常见方式,当某些利益相关者(无论是个人还是群体)以及当局可能发现这些思想和信息令人反感、危险或有害时[336]–[339]。在现实世界中,审查限制了特定网站的访问,控制了信息的电子传播,限制了向公众披露的信息,促进了宗教信仰和信条,并审查了将要发布的内容,以确保用户生成的内容不会违反特定社会的规则和规范,从而产生牺牲言论自由或某些数字自由的潜在副作用(例如,关于特定主题的讨论)[340]。采用了多种审查技术(如DNS操作和HTTP(S)层干扰)。数字[337]–[343]:

  1)使用IP过滤技术阻止整个子网;

  2) 限制某些敏感域以阻止特定网站的访问; 3) 某些关键字是针对特定敏感流量的标记,

  4)特定内容和页面被指定为敏感或限制类别,可能是手动分类。

  一旦元宇宙成为内容创作的流行场所,将创建大量用户交互痕迹和新内容。例如,Minecraft一直被视为一个引人注目的虚拟世界,在这个虚拟世界中,头像可以高度自由地创建新的用户生成的内容。MineCraft还支持高度多样化的用户,他们打算在这样的虚拟世界中会面和传播信息。2020年,Minecraft作为一个平台,保存了第一个图书馆强制审查的信息,命名为未审查图书馆,重点是“新闻自由的安全港,但你在这些虚拟房间中发现的内容是非法的”。与互联网上使用的审查类似,我们推测类似的审查方法也将在元宇宙中使用,特别是当元宇宙中的虚拟世界呈指数级增长时,例如,阻止元宇宙中某些虚拟对象和虚拟环境的访问。据预测,审查可能会潜在地损害虚拟世界之间的互操作性,例如,在一个经过审查的虚拟环境中,用户的日志和他们的交互痕迹会被消除吗?因此,我们有没有办法保存保留的记录?或者,我们是否可以暂时将任何工具作为敏感和受限信息的避风港?此外,虚拟3D空间中将出现其他新场景。例如,可以应用审查来限制某些化身行为,例如,删除其化身讲话中的某些关键词,禁止化身的身体姿势和其他非语言通信手段[344]。

  由于元宇宙中的每个参与者都会参与创建虚拟实体并共同贡献元宇宙中的新资产,我们希望上述授权系统应消除此类共同创造和共同贡献的障碍。换言之,数字内容创作可能会让所有化身共同参与过程,而不是少数专业设计师[345]。调查创作旅程的设计空间和为业余和新手创作者设计的激励方案,以积极参与共同创作过程,可以促进共同创作过程[346]。设计空间应该进一步扩展到人工智能协作领域,在该领域中,人工用户和人工智能可以在元宇宙中共同创建实例[347]。此外,一个明显的激励因素可能是基于代币的奖励。例如,在虚拟环境中,作为元宇宙的一个基于代币的先驱,外星人世界允许玩家的努力,通过与同伴完成任务,在现实世界中转化为NFT和不可动摇的奖励。

  据预测,随着数字音乐和艺术的发展,元宇宙中的数字内容数量将会激增[348],[349] 。虽然我们可以假设计算机架构和数据库应该拥有承载如此数量的数字内容的能力,但我们无法准确预测当大量数字内容的累积超过元宇宙的容量时可能出现的结果——过时的内容将被淘汰或保留。这个词的容量表示元宇宙的计算能力和虚拟空间的迭代。一个类比是,由于资源和空间的限制,现实世界的环境无法提供无限数量的新创造。例如,一幅旧的街道画将被另一幅新画取代。

  类似地,包含大量化身(和内容创造者)的虚拟生活空间可以以迭代方式向其虚拟环境中添加新的和独特的内容。在虚拟环境中,通过建立保存过时内容的潜在措施,可以进一步增强创作者文化,例如,虚拟博物馆记录数字内容的足迹[350],[351]。下一个问题是保存的或同时存在的数字内容在现实环境中的显示方式。理想情况下,物理环境中的每个人都可以平等地接触融合的超虚拟技术,感知虚拟实体的物理启示[352],以及它们在公共城市空间中的内容[353]。此外,新的虚拟文化可以影响现实世界中的现有文化,例如,数字文化可以影响工作空间中的工作关系[354],[355]。

  元宇宙不仅仅是虚拟的,它是一个完整的社会,也会形成一套经济以及货币体系。

  在过去二十年中,我们观察到玩家在游戏经济系统中创造和维持的几个阶段。太空主题游戏EVE通过玩家生成的复杂的经济系统蛛网将自己与其他游戏区别开来,玩家在经济体系中也扮演着一些角色 。然而,这并不是说元宇宙开发人员可以简单地模仿VE的成功,并将所有经济体系委托给他们的开发者。首先,将加密货币作为正式交易手段实现的主要潜在困难之一是它与潜在通缩压力的关联。具体而言,虽然参与者在EVE32中控制货币创造,但加密货币的特点是,由于“采矿”过程的设置,货币供应增长稳定且相对缓慢。与我们所处的当今世界不同,在当今世界,中央银行可以通过货币工具调整货币供应量,而其他金融机构可以通过创造广义货币来影响货币供应量,而新兴形式的加密货币根本没有这样的机制。因此,货币数量理论认为,如果货币流通速度在长期内相对稳定,人们有理由担心通货紧缩压力,因为货币供应量无法在繁荣的中期满足不断增长的交易量[356]。

  尽管有些人可能认为发行新的加密货币是解决相对系统性货币供应问题的一种可行的补救办法,但这种方法只有在新货币获得足够的信任并被确认为正常货币时才可行。为了实现这一目标,元宇宙社区的用户必须表达对新货币的某种程度的接受,无论是出于内在动机还是通过开发者的干预。但是,假设开发人员强制执行新推出的加密货币和现有加密货币之间的官方转换率。在这种情况下,他们可能会发现自己在重演双元论的失败,因为现实世界中的投机者被激励去挖掘任何套利,导致“坏”密码在格雷勒姆定律下驱逐“好”密码[357]。因此,为了打破这一诅咒,需要某种类型的银行系统通过部分准备金银行创造货币[356],而不是增加货币基础。这意味着元宇宙世界的贷款活动可以增加货币供应量。目前已有多个现有平台,如BlockFi,允许用户存入加密货币并提供利息奖励。然而,解决方案并非一帆风顺,因为向某些机构存放加密货币可能会违背分权的创始理念[356]。除了引入银行系统,其他机构提出了稳定加密货币的不同方法。一个例子是通过自动调整本国货币或商品价格来实现稳定[358]。在当今世界,钉住汇率并不是一个虚构的概念。

  一类与主权货币挂钩的加密货币稳定币已经存在,一项研究表明,领先的稳定币之一Tether的套利如何对挂钩货币产生稳定作用[359]。更重要的是,与稳定币对市场情绪变化的潜在脆弱性不同,市场情绪变化是关于抵押品是否足以维持联系汇率[360],一种普遍认可的再贴现货币可能会绕过这种障碍,因为它不通过使用抵押品来支持联系汇率。尽管如此,值得一提的是,对于加密货币的通胀特征是否应被视为其缺点,或者通缩压力的程度是否会在未来的加密货币中显现,尚未达成共识。此外,关于加密货币成为标准交易手段的另一个主要怀疑来自其高度投机的属性。因此,开发人员应该考虑经济体系需要将加密能力调整成一种可靠且稳健的货币,以供数百万元用户使用。同样,我们也注意到在算法公平[361]、[362]等领域需要进行内部治理。

  此外,经济体系的另一个潜在领域出现在更高的层面上:现实世界中的政府。元宇宙公司之间的竞争程度可能会影响消费者福利。因此,应委托国家政府甚至国际机构履行其职责,监督这些公司之间可能的勾结,就像它们在其他商业部门所做的那样。在极端情况下,政府还应该终止兼并和收购,甚至解散 公司,以保护消费者的福利,因为所涉及的社会后果(即对平行世界的控制)太大,不容忽视。话虽如此,(国际)层面的经济体系并不是纯粹的回归到元宇宙业务的增长。相反,国家干预将在巩固加密货币作为平行世界中值得信赖的交易媒介的地位方面发挥关键作用。这是因为政府的决定可以显著影响市场情绪。这可以从两个相反的例子中看出。土耳其对加密货币支付的限制以及ElSalvador承认比特币为合法货币,这两项措施都对货币市场造成了冲击。因此,即使在缺乏集中控制的情况下,政府对加密货币的保证和解决承诺了对该货币的政治稳定,反过来也可以随着信任的建立带来市场的稳定。事实上,在一项研究[363]中,政府参与是受访者对货币价值信任的积极因素。尽管它可能无法完全稳定市场,但它消除了政治因素带来的不确定性。此外,国家和国际机构的同意对于金融工程也至关重要,例如加密货币的分馏储备银行业务。建立这样的外部治理不是一项从头开始的任务;人们可以从过去关于加密货币的法规和相关文献讨论中学习[364],[365]。尽管如此,建立货币银行系统在稳健方面还有另一个错误,因为当局在采取最后手段阻止新银行系统的系统性崩溃方面可能面临巨大困难[366],这只会在打击与分散货币相关的非法活动的基础上增加他们的负担[367]。

  观察到大型科技公司在现实世界中的主导地位,Epic Games创始人蒂姆·斯威尼(Tim Sweeney)等个人呼吁“开放元宇宙”也就不足为奇了。然而,开发元宇宙需要大量成本,目前的范式是否会转变为元宇宙不太集中的市场是值得怀疑的。具体而言,实证结果表明,沉没成本与行业的进入壁垒正相关[368]。就元宇宙 而言,沉没成本可能是指公司在开发元宇宙系统时投入的无法弥补的成本;因此,除了开发和维护元宇宙世界的成本之外,由于体制因素或单纯的技术进步,未来能够容纳数百万用户的初创公司在进入市场时将面临巨大的困难。由于市场份额集中在少数科技公司手中,元宇宙行业可能成为寡头垄断市场。尽管与我们的平行世界被巨大的垄断所主宰相比,这在法律上没有那么极端,但在位的寡头仍然可以掌握巨大的权力,特别是在后发展的第三阶段(即超现实主义)。在现实生活中,像Alphabeta这样的科技巨头通过谷歌的广告创造了1470亿美元的收入,元宇宙世界在发展的最后阶段的潜在利润空间不容忽视。关于“从早上醒来到睡觉,我们都在使用手持平板电脑”的担忧不仅暴露了隐私问题,也暴露了拥有和监管这样一个平行世界的巨大商业潜力。然而,寡头垄断市场并非完全是左倾的。更不用说它实现帕累托有效结果的理论能力了,我们确实看到了更令人满意的结果,特别是在近几年40,与科技巨头的消费者相抗衡。

  这种趋势伴随着曾经是某一特定技术领域的局外人,但拥有相当大的财务实力的技术公司的崛起,这些公司无疑对已建立的技术公司构成了挑战。因此,尽管方集团(FANG group,Facebook、亚马逊、Netflix和Alphabet)等领先的科技公司可能表面上是顺利过渡到元宇宙业务的最杰出的参与者,但这并不保证它们不会受到来自科技行业之外的其他工业巨头的挑战。此外,寡头垄断市场的经济模型也提供了理论依据,表明市场结构对消费者福利的不利影响较小,前提是产品差异化程度高,企业不相互勾结[369]。在当前的中后期开发阶段,这种优先性已经很明显。现有的科技公司虽然认识到元宇宙在范围上的多样性,但却以冷漠的态度对待元宇宙。Fortnite启发了斯威尼对元宇宙的看法,而马克·扎克伯格最近的目标是为工作测试VR耳机。可以理解的是,考虑到元宇宙不确定性和挑战,公司选择在他们首先掌握专业知识的领域进行开发,并最终向类似的方向趋同。有不同的起点可能仍然会导致每个公司的元诗表现方式的差异。此外,不同公司使用不同的硬件,如AR眼镜和VR耳机,也有助于产品差异化。然而,后者在很大程度上取决于经济治理,尽管一些公司持有善意的意图。

  作为一个新兴概念,元宇宙商业指在虚拟世界中进行的交易,包括但不限于用户对用户和企业对用户的交易。随着电子商务的数字化发展,交易系统可以在很大程度上依赖于我们现在享受的已建立的电子商务系统。例如,eBay拥有485.6亿美元的净资产,是元宇宙社区可以移植的C2C电子商务的典型范例。尽管如此,元宇宙商务并不等同于现有的电子商务。不仅交易的物品不同,而且元宇宙商务的主要重点也是互操作性:用户在不同虚拟世界中携带物品的可行性。元宇宙的系统不是关于创造一个虚拟世界,而是关于创造许多虚拟世界。也就是说,用户可以周游无数的虚拟世界,获得他们想要的不同的身临其境体验。因此,由于个人可以在访问另一个国家度假时携带他们的物品,开发者也应该在数字孪生兄弟中创造这样的体验。在现阶段,大多数视频游戏,即使是由同一提供商提供的视频游戏,也不能为玩家提供从一个游戏到另一个游戏的完全互操作性。然而,现实生活确实提供了一些互操作性元素的现有游戏,尽管形式较少。举例来说,怪物猎人和神奇宝贝等游戏允许玩家从任天堂传送数据。3DS到任天堂Switch;然而,这种转移是单方面的(例如,从旧游戏到新游戏),缺乏沉浸式体验,因为它们通常发生在实际游戏之外。另一类让人联想到互操作性的游戏可以是具有可下载内容(DLC)的游戏,这些可下载内容是从同一开发者处购买的其他游戏衍生出来的。一个很好的例子可能是APCOM的“怪物猎人故事”的奖励内容,先前Capcom游戏“怪物猎人崛起”的玩家可以获得源自“怪物猎人崛起”的游戏内装备。然而,在另一个游戏中拥有一些类似于用户虚拟财产的虚拟物品奖金并不等同于完全的互操作性。Minecraft中展示了流行游戏互操作性的另一个值得注意的例子:玩家可以在登录不同的服务器时保持他们的化身“皮肤”和“海角”,这可以被视为元宇宙玩家在不同虚拟世界之间旅行的现实世界孪生兄弟。在检查了与互操作性概念或多或少相关的所有三种现有游戏功能之后,人们可能会意识到缺乏用户自由是一个反复出现的主题。值得注意的是,游戏间用户到用户交易实际上是缺失的,内容类型以及游戏间内容流动的方向都是由开发者严格设定的。更重要的是,除了Minecraft案例外,数据传输缺乏流畅性,因为它没有作为自然游戏体验的一部分集成。也就是说,传输或链接游戏数据的行为不像现实生活中从一个地方到另一个地方搬运或销售商品的行为那样自然。

  因此,开发人员应考虑到现有游戏在解决互操作性方面的缺点,并推广新的解决方案。虽然由单一开发人员组织的元宇宙可能更容易实现,但在“开放元宇宙”的场景中,此类解决方案可能更具挑战性。由于可以在一个通用框架的基础上构建独立的世界,技术上的困难会阻碍用户在不同虚拟空间之间的联系,更不用说游戏内容的交换了。有鉴于此,像OpenMetaverse InteroperabilityGroup这样的组织试图用一个共同的协