第2024章 AI大模型：Sola横空出世，百模大战“日日新”（AI月报）

《Kimi人工智能月度报告丨AI大模型》

  关键词：Sora"VS"日日新

  1．OpenAI推出人工智能视频生成模型“Sora”

  2024年2月15日，美国人工智能研究公司OpenAI推出了一款视频生成模型“Sora”，并发布48个文生视频案例及技术报告。OpenAI的官网介绍称，使用这款模型可以用文本生成长达一分钟的视频，视频可具有多个角色、特定类型的运动、精确主题和背景细节等复杂场景。该公司称，开发这一模型旨在教会人工智能理解和模拟运动中的物理世界，并训练其帮助人们解决需要现实世界互动的问题。该模型可以深度模拟真实物理世界，标志着AI在理解真实世界场景并与之互动的能力方面实现了重大飞跃。对于任何需要制作视频的艺术家、电影制片人或学生来说，这都带来了无限可能。

  在针对“Sora”的介绍中，OpenAI还指出，当前的模式存在弱点，可能难以准确地模拟复杂场景的物理表现，也可能无法理解因果关系的具体实例。同时，该模型还可能混淆诸如左和右这类的空间细节。

  2．谷歌推出轻量级开放人工智能模型Gemma

  2月21日，谷歌发布一个名为Gemma的开放人工智能模型，该模型是使用与构建Gemini人工智能模型相同的研究和技术创建的。该公司提供了两种不同尺寸的Gemma——Gemma2B和Gemma7B。二者都带有预先训练和指令调整的变体，并且都足够轻量，可以直接在开发人员的笔记本电脑或台式电脑上运行。谷歌表示，在关键基准测试方面，Gemma超越了更大的模型，并且两种模型尺寸都优于其他开放模型。该公司表示，目前正在公开关键的技术数据，例如“模型权重”。

  3．谷歌发11B基础世界模型，生成交互虚拟世界

  谷歌发布根据互联网视频训练的基础世界模型Genie，该模型参数规模为11B，可以从合成图像、照片甚至草图生成无数种动作可控的交互式环境。Genie可以用它以前从未见过的图像提示，例如现实世界的照片或草图，使人们能够与他们想象的虚拟世界进行交互。

  4．美国Groq公司开发出新型大模型推理芯片

  2月19日，美国人工智能初创公司Groq发布新型大模型推理芯片LPU（语言处理单元）。LPU是一种新型的端到端处理单元系统，可以为具备序列组件的计算密集型应用（比如LLM）提供极快的推理速度。LPU的推理速度已经接近每秒500词元（Tokens），最快可达到每秒750  Tokens。LPU芯片主要基于TSP架构，结合Dragonfly网络拓扑设计，提高了系统的并行处理能力和效率。

  Groq公司由谷歌TPU芯片团队原成员创立，该公司的LPU芯片采用14nm制程，其核心优势是克服了两个大语言模型推理的瓶颈——计算密度和内存带宽，搭载了230MB的静态随机访问存储器（SRAM）来保证内存带宽，片上内存带宽达到80TB/s，整型（8位）运算速度为750TOPs，浮点（16位）运算速度为188TFLOPs。由于其内存容量仅为230MB，运行Llama270B模型需上百块芯片，整体成本极高，仍无法替代英伟达。

  5．谷歌内部编码AI大语言模型  Goose曝光

  谷歌内部研发了一款名为「Goose」的AI大语言模型，用于提高员工编写代码效率，加速产品研发，目前仅限谷歌员工使用。Goose  能回答技术问题，编写代码，提供自然语言的代码编辑提示，是谷歌将AI融入产品开发的重要一环。业界认为，Goose  的推出将提升谷歌产品开发效率，增强其在AI领域的竞争优势，并可能启发其他企业开发类似工具。

  6．英伟达：推出自己版本的ChatGPT

  英伟达推出了自家版本的Chat  With  RTX。它并非是在网页或APP中运行，而是需要下载安装到个人电脑中。这让它不仅是在运行效果上更快，也意味着Chat  With  RTX在聊天内容上或许并没有那么多限制。除此之外，Chat  With  RTX另一个亮点功能，就是可以根据在线视频做回答。它背后所依靠的仍是两款开源LLM，即Mistral和Llama  2，用户在运行的时候可以根据喜好自行选择。

  7．商汤科技：日日新SenseNova  4.0发布

  2月2日，商汤科技发布“日日新SenseNova  4.0”，多维度全面升级大模型体系。“日日新SenseNova  4.0”拥有更全?的知识覆盖、更可靠的推理能?，更优越的长?本理解力及更稳定的数字推理能?和更强的代码?成能?，并?持跨模态交互。日日新·商量大语言模型-通用版本（SenseChat  V4），支持128K语境窗口长度，综合整体评测成绩水平比肩GPT  4，相较GPT  3.5已经实现全?超越。

  8．华为发布首个通信大模型

  华为在2024年世界移动通信大会MWC上发布通信行业首个大模型，华为通信大模型将提供基于角色的Copilots和基于场景的Agents的两类应用能力，最终将全面提升网络生产力。

  9．华为联合香港大学发布图像生成AI模型

  华为公司与香港大学的联合研究团队发布图像生成AI模型CompAgent。CompAgent的核心思想是采用分而治之的方法，将复杂的文本提示分解为单个对象、属性和关系，然后独立地处理这些元素，最后将它们组合成最终的图像。CompAgent能够确保生成的图像准确反映文本描述中的对象类型、属性和关系。

  10．字节发布文生图开放模型SDXL-Lightning

  从AI开源社区Hugging  Face的最新榜单上，SDXL-Lightning  跻身模型趋势榜，同时也成为Hugging  Face  Spaces上的热门模型。据知情人士透露，字节跳动的SDXL-Lightning通过渐进式对抗蒸馏的技术，实现前所未有的生成速度。该模型能够在2步或4步内生成极高质量和分辨率的图像，将生成速度加快十倍，是1024分辨率下速度最快的文生图模型，计算成本则降低为十分之一。

  11．字节版GPTs「扣子」上线了

  根据Coze国内版官网，其新一代一站式AI  Bot开发平台Coze于2月1日正式面向国内用户上线。无论用户是否有编程基础，都可以在Coze平台上快速搭建基于AI模型的各类问答Bot。并且，用户可以将搭建的Bot发布到各类社交平台和通讯软件上，与这些平台/软件上的用户互动。

  ——总结·点评——

  2024年2月份，人工智能领域展现出大模型技术的多样化应用场景和显着进步，从视频生成、轻量化模型到硬件创新、开发工具等，各大公司都在不断推动AI技术的边界，加速人工智能技术的商业化和社会化进程。

　　(https://www.95ebook.com/bi/392916/17237537.html)

1秒记住笔趣阁：www.95ebook.com。手机版阅读网址：m.95ebook.com