文心一言没有失败，底层技术已无限接近，只等喂养更多数据

时间：2023-03-27

　　为了追赶OpenAI的ChatGPT，中国科技巨头百度推出了它的答案:ERNIE Bot。评论褒贬不一，但现在还为时尚早。

　　百度的模型基于2019年推出的大语言模型ERNIE，并以布偶角色命名，这是对谷歌同年推出的LLM BERT的回击。

　　BERT(来自变压器的双向编码器表示)和ERNIE(通过知识集成的增强表示)是基于变压器算法的无监督预训练语言模型。OpenAI对LLMs进行了进一步的推进，投入大量资金进行预培训，然后发布了一个基于该模型的公共聊天机器人ChatGPT。

　　最近几周，ERNIE Bot不如GPT-4或ChatGPT，但各种模型之间的差距可能会缩小。这不是技术的问题;这其实只是钱和数据的问题。底层模型体系结构已经很好地理解了。

　　更重要的是，ERNIE Bot专注于世界上最大的市场，而OpenAI没有进入这个市场。

　　百度联合创始人兼首席执行官李彦宏在ERNIE Bot发布会上预测，ERNIE Bot生态系统将导致“超级应用程序的出现，其价值可能是微信和抖音的十倍以上”，这是中国两大主导智能手机应用程序。抖音是抖音的中国版。

　　在研究人员认识到2017年发布的Transformer算法的有效性后，大型语言模型开始流行起来。从BERT开始，基于变压器的LLMS开始迅速出现。但OpenAI承担了计算风险，将他们的模型扩展到以前尝试过的任何东西。他们没有透露这需要多少成本，但微软在2019年投资了10亿美元，在随后的几年又投资了20亿美元，以支付规模化所需的计算能力。

　　其他科技巨头都在观望，等着看会发生什么。当然，每个人都对这种规模化的成功感到惊讶，并纷纷效仿。

　　因此，在OpenAI和微软的数十亿美元赌注获得回报后，其他公司，包括谷歌和百度，自然会奋起如追。在这个领域，事情发展得很快，所以目前两家公司模型的劣势不应该被视为最终成绩——把它看作是第一季度的测试。

　　中国在可用于培训其模型的数据方面处于劣势:互联网上的中文内容仍只是培训LLMs可用的英语内容的一小部分。

　　百度可能是第一个建立公开的LLM聊天机器人，但在中国还有其他LLM。以下是中文语言模型及其功能的不完整列表:

　　阿里巴巴的ALBERT (A Lite BERT)是谷歌的BERT的精简版，由阿里巴巴开发，针对中文NLP任务进行了优化。与BERT相比，它在文本分类、情感分析和问题回答等任务中表现良好，同时使用更少的计算资源。