谷歌Gemini 1.5 Pro公测，能挑战GPT-4吗？

iWeekly

经过了发布推迟、图像功能争议等一系列“小纰漏”后，谷歌在拉斯维加斯年度Cloud Next 大会上公开了生成式人工智能服务“Gemini 1.5 Pro”于Vertex AI上公测的消息。Gemini 1.5 Pro被称为谷歌最强大的生成式人工智能模型。谷歌希望以此挑战竞争对手微软与OpenAI的GPT-4模型，稳固自己搜索引擎巨头的地位。《金融时报》等媒体评论，尽管谷歌在AI竞赛中在竞争中尽显疲态，但是Gemini 1.5 Pro 很幸运地被业界认为时GPT-4的重要挑战对手。对于谷歌来说，这是对自身盈利模式的颠覆性改变。

Gemini 1.5 Pro性能怎么样？

Gemini 1.5 Pro最大的卖点是它处理模型上下文（model context）的能力：从12万8000个令牌（Token）到高达100万个令牌都能处理。“令牌”指的是原始数据的子分割部分，如“fantastic”一词可以分割成“fan”，“tas”和“tic” 3个令牌。100万个令牌相当于大约70万个英文单词或约3万行代码。这约为Anthropic旗舰模型Claude 3可处理数据量的4倍，比OpenAI的GPT-4 Turbo 最大文本量高出大约8倍。

在今年的一次预先录制的演示中，谷歌展示了Gemini 1.5 Pro在约400页的阿波罗11号登月直播中检索笑话、寻找与铅笔素描相似镜头的能力。谷歌表示，Gemini 1.5 Pro的早期用户可利用模型执行跨越抵押贷款核准、在媒体档案中自动化标记元数据。也可以实现生成、解释和转换代码等任务。

权威科技媒体Tech Crunch介绍，模型上下文，或称上下文窗口（context window）指的是模型在生成输出之前考虑的初始数据（例如文本问题）。电影剧本、电子邮件、文章或电子书都可以作为模型上下文，供AI生成后续内容。较小的模型可能存在“忘记”最近对话内容，导致模型生成的后续文本偏离主题的问题。理论上，具有更大上下文窗口能力的模型可以更好地理解、接收数据的叙述流程，生成上下文更丰富的回应，减少微调和偏离事实基础的可能。

谷歌承诺，Gemini 1.5 Pro的强大上下文窗口能力可以实现多种任务，比如分析代码库、“跨”长文档进行推理、与聊天机器人进行长时间的对话等。Gemini 1.5 Pro可以理解和生成多种语言（的为什么在这里出现），也可以理解图像、视频和音频流。因此，它可以分析和比较不同语言的电视节目、电影、广播节目、电话会议录音等媒体内容。Gemini 1.5 Pro可处理的100万个令牌规模相当于约一小时视频或11小时的音频。此外，Gemini 1.5 Pro还可以为视频剪辑生成文稿，但文稿质量目前尚无定论。

谷歌为什么在AI竞速中落后？

既然Gemini 1.5 Pro有如此强劲的性能，为什么业界会认为谷歌在这场决定未来行业主导地位的AI竞速赛中已经落后？《金融时报》援引谷歌内部人士的说法称，主要是企业文化和组织问题导致了不利局面。2023年初，OpenAI推出了开创性的ChatGPT后几个月，谷歌正准备推出新模型回击，该模型将是聊天机器人的基础。当时，谷歌已经在内部测试生成式人工智能软件数个月之久。但随着公司调动资源，谷歌的不同部门涌现出多个竞争模型，争夺决策层的关注。然而，没有一个被认为足以作为OpenAI模型GPT-4竞争对手的产品胜出。公司被迫推迟计划，同时推出被广泛认为远不如ChatGPT复杂的聊天机器人Bard。

凭借开创性的搜索引擎，谷歌曾是20世纪90年代末和21世纪初互联网革命的先锋，业务扩展到电子邮件、地图等多个领域。2016年，谷歌一度成为世界上市值最高的公司。然而，ChatGPT这样的AI聊天机器人改变了人们获取信息的方式，这使得谷歌处于失去搜索主导地位的危险之中。在谷歌犹豫不决的同时，主要竞争对手微软却行动敏捷，早早地押注于ChatGPT的开发商OpenAI，将自己基于人工智能的CoPilot服务嵌入到其大多数主要软件产品中，成功稳固全球市值最高公司之一的地位。

《金融时报》在采访谷歌多名现任、前任高管与分析师后评价，谷歌的这种窘境很大程度是因为公司文化和内部管理构架导致的。公司内部人士表示，大公司的惰性、分散的组织结构是问题所在。谷歌更缺乏统一、连贯的生成式人工智能计划，从内部上阻碍了发展技术上的可能。分析师们认为，谷歌在AI领域受到了不断升级派阀斗争、缺乏清晰度的领导力以及难以立刻调转发展方向等问题制约。谷歌内部对CEO桑达尔·皮查伊（Sundar Pichai）施加了越来越大的压力，要求他在人工智能产品推出和战略方面更加积极介入。一名了解谷歌公司运作情况的人士说：“AI团队试图做一些新的事情，而搜索和广告团队则试图保护他们所拥有的。”

“谷歌就像一个国家，由官僚主导着。”

许多谷歌员工对公司领导力的缺失也感到沮丧。许多员工在最近一轮裁员后感到不安。谷歌软件工程师黛安·赫尔希·泰里奥（Diane Hirsh Theriault）今年一月在LinkedIn上提到这次裁员时写道，领导者们“没有真正的愿景”，而是“试图指出一个模糊的方向（人工智能），同时又在杀死他们的摇钱树”。

内部不安之际，皮查伊介入了许多关于人工智能应该如何出现在产品中的日常决策。据公司内部人士称，皮查伊实际上已经成为谷歌的“人工智能首席产品官”，类似于他在2015年成为首席执行官之前短暂担任的公司产品负责人角色。《金融时报》援引一名内部人士警告说，皮查伊对人工智能产品的细节关注可能会分散他在更广泛职责上的精力。《金融时报》援引的另外两个消息来源则称，内外利益相关方正在向皮查伊施压，要求他更加激进和果断。

也有迹象表明，谷歌已准备好更加集中地回应自己在人工智能领域地发展问题。尽管在推出时出现故障，但Gemini在技术圈内依然被认为是OpenAI的有力竞争对手，也能整合谷歌旗下各种服务。科技媒体The Verge和《福布斯》报道，谷歌正在努力为搜索引擎增加一个高级付费的生成式人工智能服务“层次”。去年，谷歌搜索及相关服务带来了1750亿美元广告收入。尽管人工智能订阅的收入可能会被这个庞大的数字淹没，但这个想法仍然可被视为谷歌完全依赖于广告核心盈利模式的激进转变。

新闻来源：英国《金融时报》、TechCrunch、The Verge、Forbes，部分图片来源网络

iWeekly周末画报独家稿件，未经许可，请勿转载