文心一言没有失败,底层技术已无限接近,只等喂养更多数据

  为了追赶OpenAI的ChatGPT,中国科技巨头百度推出了它的答案:ERNIE Bot。评论褒贬不一,但现在还为时尚早。

  百度的模型基于2019年推出的大语言模型ERNIE,并以布偶角色命名,这是对谷歌同年推出的LLM BERT的回击。

  

  BERT(来自变压器的双向编码器表示)和ERNIE(通过知识集成的增强表示)是基于变压器算法的无监督预训练语言模型。OpenAI对LLMs进行了进一步的推进,投入大量资金进行预培训,然后发布了一个基于该模型的公共聊天机器人ChatGPT。

  最近几周,ERNIE Bot不如GPT-4或ChatGPT,但各种模型之间的差距可能会缩小。这不是技术的问题;这其实只是钱和数据的问题。底层模型体系结构已经很好地理解了。

  更重要的是,ERNIE Bot专注于世界上最大的市场,而OpenAI没有进入这个市场。

  百度联合创始人兼首席执行官李彦宏在ERNIE Bot发布会上预测,ERNIE Bot生态系统将导致“超级应用程序的出现,其价值可能是微信和抖音的十倍以上”,这是中国两大主导智能手机应用程序。抖音是抖音的中国版。

  在研究人员认识到2017年发布的Transformer算法的有效性后,大型语言模型开始流行起来。从BERT开始,基于变压器的LLMS开始迅速出现。但OpenAI承担了计算风险,将他们的模型扩展到以前尝试过的任何东西。他们没有透露这需要多少成本,但微软在2019年投资了10亿美元,在随后的几年又投资了20亿美元,以支付规模化所需的计算能力。

  其他科技巨头都在观望,等着看会发生什么。当然,每个人都对这种规模化的成功感到惊讶,并纷纷效仿。

  因此,在OpenAI和微软的数十亿美元赌注获得回报后,其他公司,包括谷歌和百度,自然会奋起如追。在这个领域,事情发展得很快,所以目前两家公司模型的劣势不应该被视为最终成绩——把它看作是第一季度的测试。

  中国在可用于培训其模型的数据方面处于劣势:互联网上的中文内容仍只是培训LLMs可用的英语内容的一小部分。

  百度可能是第一个建立公开的LLM聊天机器人,但在中国还有其他LLM。以下是中文语言模型及其功能的不完整列表:

  阿里巴巴的ALBERT (A Lite BERT)是谷歌的BERT的精简版,由阿里巴巴开发,针对中文NLP任务进行了优化。与BERT相比,它在文本分类、情感分析和问题回答等任务中表现良好,同时使用更少的计算资源。