Bendi新闻
>
Ilya离开OpenAl,谷歌一口气拿出十余款新品也难出风头? |【经纬低调出品】

Ilya离开OpenAl,谷歌一口气拿出十余款新品也难出风头? |【经纬低调出品】

7月前

顶着压力开发布会是一种什么样的体验?


「代表谷歌为开发者提供所有服务」的谷歌I/O来到第16年。去年的I/O带来了Gemini,今年带有火药味的发布会则更加值得期待。被竞争对手忌惮已久的谷歌,能否超越前一天刚刚截胡发布的ChatGPT-4o?


发布会现场,谷歌带来了可以实时理解镜头世界的多模态Agent助手Astra、搜索业务来了一次彻底的AI化改造、Gemini系列模型卷起了长文本、效果超过Sora的视觉模型Veo……谷歌一口气拿出来十余款AI新品,势必要挣回这口气。


但就连llya也来抢谷歌风头。凌晨,OpenAI首席科学家Ilya Sutskever在X发布自己离开OpenAI消息,称“我决定离开 OpenAl。再见,感谢你们所做的一切。我很期待接下来的计划--这个项目对我个人来说意义重大,我会在适当的时候分享细节。”



谷歌的反抗只是一个序幕,硅谷将进入竞争异常激烈的AI月。在这之后,微软2024Build年度大会、英伟达季度财报、苹果2024年度开发者大会陆续到场,这个“AI月”注定不一般。那么,高强度下的硅谷,“不(强迫)加班文化”现状如何?各家巨头都打的什么算盘?有哪些发布值得期待?以下,Enjoy:

Google I/O、腾讯科技、 硅星人Pro、财联社、每日经济新闻



1

Google I/O

带来哪些新花样?


前一天OpenAI用GPT-4o吸引了全世界的眼球,Google要在今年的Google I/O上拿出什么样的产品翻盘呢?


  • Gemini模型家族


关于Gemini的具体信息,是由Deepmind的CEO Demis Hassabis上台介绍。这也是这位传奇人物第一次Google I/O演讲。


谷歌宣布Gemini 1.5 Pro升级到200万tokens,并全面支持Workspace,同时Gemini 1.5 Pro将面向全球开发者开放。新版本长度再次刷新,达到200万tokens。



除了能生成创意文本、代码外,Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示,理解、总结上传的视频、音频内容进行深度总结。谷歌同时面向开发者推出支持200 万 tokens的 Gemini 1.5 Pro 模型的预览,并表示最终的目标将是 " 无限上下文 "。


关于大模型 API 的最新定价,其中 Gemini 1.5 Pro 定价为 7 美元 /100 万 Tokens,12.8K 上下文窗口的版本定价为 3.5 美元 /100 万 Tokens;而 Gemini 1.5 的起售价为 0.35 美元 /100 万 Tokens。


此次推出的Gemini 家族的新成员,则是针对端侧的模型Gemini 1.5 flash,同样有100万和200万token的版本。哈萨比斯曾说,谷歌之所以创建 Gemini 1.5 Flash,是因为开发人员需要一个比谷歌今年 2 月发布的 Gemini 1.5 Pro 更轻便、更便宜的模型。



谷歌展示的" 未来的人工智能助手 ",也是被OpenAI狙击的项目——"Astra" ,可以通过用户打开的摄像头识别物体,与用户实时语音交互。


哈萨比斯表示,这样的 AI 助手需要像人类一样理解这个动态且复杂的世界。需要记得住它看到的东西,这样才能理解对话并付诸于行动。同时它也得能积极主动接受教导,以及自然、无延迟地进行交流。在演示视频中,谷歌的 AI 助手能够通过摄像头视频,识别 " 什么东西能发出声音 "、" 现在身处何地 " 等指令。




演示视频中,官方还展示了Astra与AR眼镜相结合的效果。戴上眼镜后,Astra的回答会实时显示在眼前,比如帮助修改白板上的流程图时,会用箭头指出修改位置。



此外,谷歌还发布了开源模型Gemma 的2.0版本,270亿参数。并为它拓展了PaliGemma这个多模态版本。



  • 多模态生成模型


面对OpenAI的围猎,Google针对Sora发布了一款全新的视觉模型Voe。谷歌还表示,Veo 具有对自然语言和视觉语义的高级理解能力,能够生成与用户创意愿景紧密匹配的视频——准确呈现详细的长提示并捕捉情感。Veo甚至还能理解电影术语,如“延时”或“航拍镜头”。


用户仅需写出文本提示即可生成视频,比如文本提示:"一艘宇宙飞船在浩瀚的太空中穿梭,星星划过,高速,科幻。"



当你输入" 在宁静的山地平移镜头,相机慢慢露出白雪皑皑的山峰、花岗岩岩石和倒映天空的清澈湖泊。 ",可以得到如下的效果。



在Voe的展示中,用户可以通过点击扩展,而继续增加视频生成的时长,并且可以保持一致性。


此外,谷歌还发布了文生图像模型Imagen 3。从细节拟真度来看与Midjourney v6能达到同一级别,比起Dalle-3更胜一筹。而且在对细节的跟随上也要更细致;音乐生成方面,谷歌给Lydia增加了新拓展 Music AI Sandbox。


  • AI搜索,25 年来最大的更新之一


谷歌正式推出了“AI Overviews”搜索体验,将于本周开始向美国地区开放,后续会推广到更多国家和地区。这应该是其搜索引擎 25 年来最大的更新之一。


谷歌搜索业务负责人 Liz Reid 开始具体介绍 AI Overviews 功能。Reid 表示,在进行搜索时,搜素引擎具备多步骤推理的能力,例如寻找一个瑜伽教室,同时展示新手优惠报价,和距离特定位置的步行时间。这个 AI 搜索引擎助手,还能介绍食谱、安排行程,以及接受视频形式的提问(例如视频中的相机怎么使用)。


谷歌还介绍了AI搜索的计划能力。用户可以直接在搜索里获得一个完整的计划。比如搜索类似“为一群人创建一个易于准备的三天餐饮计划”,您将获得一个起点,包含来自网络各处的各种食谱。这是其他搜索软件暂时还没有专精的能力。


此外,靠Gemini的多模态功能,谷歌可以做到利用声音搜歌曲,利用图片搜产品。甚至可以用Circle to Secarch 功能圈出图片中的一部分去搜索。在搜索时,你可以通过视频提问,比如录一段视频问道:“为什么这个放不上去?”



  • 谷歌全家桶AI能力升级


结合Gemini的Workspace。你可以通过 Side Panel(一个能唤起Gemini的侧边栏)功能总结一系列邮件,可以总结你的账单,形成一个Sheet。



“Ask Photo”更新后可以与照片进行对话。比如,你可以问Photo app,“我的汽车牌照是多少”。然后Gemini就在照片里寻找出来你的车告诉你答案。



谷歌 Gemini 总经理 Sissie Hsiao 介绍了 Gemini App 的更新。与周一的 OpenAI 一样,从今年夏天开始,Gemini 也将支持语音实时交互,同时今年晚些时候还将上线实时视频交互功能。未来几个月内,谷歌也将推出类似于 GPTs 的自定义 AI 助手功能。


在安卓系统方面,谷歌将实现的" 三大突破 ",分别是 " 画圈圈搜索 "、Gemini 手机 AI 助手,第三是在手机本地运行的 AI。


谷歌表示,今年晚些时候,能够在本地运行的多模态 Gemini Nano 模型将登陆 Pixel 手机,意味着手机将能通过文字、图片、视频、音频,理解用户的世界。


发布会现场,谷歌宣布了第六代数据中心 AI 芯片 Tensor 处理器单元(TPU)--Trillium,并表示将于今年晚些时候推出交付。


作为发布会最后的彩蛋,谷歌 CEO 皮查伊最后用 Gemini 总结了今天的发布会稿子里总共提了多少次 AI —— 121 次。



2

谷歌的护城河有多深?


在当今这个AI 时代,Google的危机愈来愈重。


但身在谷歌的人未必如此认为。


作为谷歌的员工,Zellweger一开始加入谷歌就是为了从事注定失败的 Daydream 头盔的工业设计,后来他又转到了 Pixel 硬件团队。


在他看来,“受CEO影响,从公司的角度来看,我们需要成功,这种压力是存在的,制造硬件已经从一种爱好变成了 Google 业务的关键元素。”


而谷歌CEO本人桑达尔·皮查伊在采访中的回答,流露出对谷歌护城河的自信。



早在2016年,他正式担任谷歌CEO,以此身份发布了第一封致股东信。信中,他说:


“我们将从移动优先走向人工智能优先的世界。”


似乎一直被认为落后的谷歌暗地里早有准备。或者夸张来讲,AI的第一波浪潮,还是谷歌掀起的水花。然而,不少网友仍然调侃其为“起了个大早,赶了个晚集”


谷歌的“保守”对于称霸来说,很难,但作为护城河而言,足够用。


每个时代、每个公司,都或多或少在管理和员工身上多下功夫。能够让谷歌与众不同的地方,还在于独到的员工成长文化。


谷歌创始人拉里·配齐和谢尔盖·布林曾倡导“20%时间”文化,允许员工将工作20%的时间用以个人兴趣和创新当中,希望用创造力支撑发言权,这无疑可以筛选一批有活力的开放员工。正如英特尔前CEO安迪·格鲁夫所说,“只有偏执狂才能生存。”


针对近日广受挑战的搜索引擎,皮查伊也有自己的看法。‍‍‍‍


谷歌搜索的独特之处在于,即使有时会直接给出答案,但我们始终会链接到各种来源。


多年来,谷歌一直在搜索中提供直接的答案。现在的模式入手,我们只是借助生成式人工智能在实现这一点。


链接功能将一直存在,理解并满足这些多样化的需求,正是搜索的真正魅力所在。


他还曾就搜索质量面临的质疑进行正面回答:‍‍‍‍‍‍‍


技术或行业发生变革,伴随着大量新内容的涌现,人工智能领域亦然。谷歌会把它当成一项挑战。我坚信,成功应对这种挑战将重新定义高质量的产品,这将是搜索取得成功的关键。谷歌深知被给予了很高的期望,我们也清楚需要为此承担的责任。


当被问道相较GPT,谷歌似乎错失了许多重要机会时,皮查伊表示:


从长远的视角看待这个问题,互联网兴起时,谷歌甚至还不存在,对吧?


谷歌是第一家专注于搜索的公司。


谷歌是第一家推出电子邮件服务的公司。


谷歌是第一家开发浏览器的公司。


因此,我认为人工智能领域也正处于其最早期的阶段。


当然,皮查伊也清楚地知道,对所有公司,尤其是那些规模庞大的企业来说,最大的潜在威胁就是执行力不足。


3

进入AI月,每个玩家生怕落后


  • 大模型大招不断,大牛纷纷炫技


从5月10日到6月10日,AI领域的玩家接连上阵,发新品、更新财报,给开发者和投资者们贡献一场场精彩绝伦的科技盛宴。


硅谷大牛们似乎从不懈怠,一个接着一个的炫技……


就在谷歌的I/O开发者大会2024前一天,OpenAI一夜改写历史,在发布会上闪亮官宣了新产品:GPT-4o。就连发布会本身都是AI在开,难分真假的CTO Mira Murati意味着OpenAI朝着更加自然的人机交互迈进。



微软也不甘示弱,5月21日,微软将举办2024 Build年度开发者大会。



根据官方公布的信息,两场分论坛将分别聚焦“下一代Windows on Arm”和“全新的Windows AI功能”。


其中,“下一代Windows on Arm”分论坛将着重介绍有关应用程序“行业领先性能”的详细信息,以及“Arm驱动的Windows的新体验”,例如采用NPU功能的智能Windows应用程序,可能包括更多的Windows AI功能。


此外,微软还将详细介绍Windows开发者体验方面的一些改进。


AI之外,明星产品Copilot可能将成为2024微软Build年度开发者大会的重点议题之一。



一场振奋人心的技术革新,说不定又将在一夜之间诞生。

紧接着的下一天,英伟达将于5月22日公布一季度财报。


借着AI浪潮,“卖铲人”英伟达财报表现一直颇为亮眼,今年年初公布的财报更是展现了强劲的收入和净利润增长。而在市场的表现上,据市场研究机构 Trendforce 最新报告显示,英伟达已经超越高通,成为 2023 年全球收入最高的芯片设计厂商。


虽然英伟达发布财报当天不会透露太多新品动作,但市场上流传了不少消息——据《经济日报》报道,业内传闻,手机芯片大厂联发科正携手AI芯片大厂英伟达(NVIDIA)开发基于Arm架构的AI PC处理器,预计将在今年三季度完成设计定案(tape out),第四季度进入验证,售价或将高达300美元。


大差不差、紧随其后的苹果也有秘密武器?6月10日至6月14日,苹果将举行年度全球开发者大会(WWDC)。



在AI潮席卷全球的时候,苹果不断调整自身战略以期追赶时代潮流,但效果总是不尽如人意。


MR头显Vision Pro被寄予苹果近十年来开辟新品类的希望,但首发美国后的反响不佳。不及市场预期的出货量和后期疲软的用户需求,给苹果泼了一盆冷水。

而另一个备受瞩目的电动汽车项目也被取消,部分员工将转移到苹果的人工智能(AI)部门。而生成式人工智能项目,正是公司日程表里愈发重要的事项。


可以看到,苹果对于AI的焦虑和急迫。


苹果全球营销高级副总裁Greg Joswiak在X上表示:“请在日历标记上WWDC24吧。这场活动将绝对震撼!”这里的彩蛋是,Joswiak特意把“Absolutely Incredible(绝对不可思议)”的首字母拼成大写,合起来就是当下最火的科技概念——AI。


4

硅谷加班卷疯了


  • 铁打的程序员、流水的加班线?


改编《北京人在纽约》中一句经典台词描述硅谷,似乎毫无争议:「爱TA,就把TA送到硅谷;恨他,也把他送到硅谷。」


高薪、高自由度的硅谷,既被奉为「Work Life Balance」的自由天堂,也被认为是「加班文化」最强的“内卷”集中地。硅谷公司不强迫加班,原因很简单:加班无法与工作质量划等号。同时,硅谷公司不缺少加班,原因同样简单:上班无法脱离工作狂的生活独立存在。


  • 被大模型支配的恐惧,不亚于加班一周进度为0


GPT的到来,让硅谷的「卷」文化更上一层楼。


只不过这次技术迭代,伤害的大多数是工程师。如同英伟达CEO黄仁勋所说,AI正位于iPhone时刻。整个硅谷都在压力中爆发,试图在发布上与对手分出毫厘之胜。


一位硅谷员工甚至将这种状态概括为“边飞、边造飞机”


亚马逊的工程师也是如此。美好的周末计划被一条Slack消息打破。夜以继日地加班,结果却是项目优先级降低。几千行代码付诸东流。


专家们无时无刻不在紧急开发的功能、软件,让工程师的心也跟着跌宕起伏。项目顺利则功成名就;项目叫停则进度归0。这便是此时此刻的「硅谷状态」。不少工程师陷入职业倦怠,随之揭开了AI热不为人知的另一面:很急,但不知道在急什么。


抱怨声的出现不会暂停巨头公司的任何决定。


微软首席财务官Amy Hood曾表示,公司正在调整人手,将优先专注AI,并且优先投资AI。因为,未来十年的关键因素。


Meta CEO扎克伯格也是如此,他认为,未来几年,应该大力投资、开发更先进的模型和世界上规模最大的AI服务。


亚马逊CEO Andy Jassy鼓励投资者增加对生成式AI的资本投入,他认为,技术领域很少见到如此的机会,甚至从互联网问世以来。


速度的加持下,匆忙的产出、单薄的人力偶尔也会导致翻车,Gemini的仓皇下线、Bard的备受质疑,都是如此。


对比之下,谷歌的上班文化,也走着相似的硅谷风。谷歌鼓励「不加班」,但要求「on call」。这意味着需要你的时候,你就要在。不少局外者将这种模式称为超越「996」的「24*7」。


天堂与地狱的区别,似乎区别在于工作是否只是工作本身。如果作为兴趣,如果成为生活,似乎越“虐”越有“事业感”。


本质上,每个人的工作观不同,加班狂屡见不鲜,朝九晚五、渴望下班的打工人更是拥有自己的快乐。


然而,在硅谷,「卷」已经成为囊括大多数程序员的形容词,也是当下AI竞赛的真实写照。


 


现在,每一次发布会似乎都成了一场无声的较量。


科技巨头们像商量好了一样你追我赶,都想以各自的创新技术证明自身、抢得一份里程碑式成就。“百模大战”时期的到来,在高强度压力中全面释放了AI的潜力,也让每一位“姗姗来迟”的公司,都可能成为最终的赢家。因此,每一次突破,都不容错过。


一切革命性时刻,都值得拭目以待。


参考文献:

1. 硅谷AI工程师内卷崩溃记:996写代码项目被砍,连续熬夜只为讨好投资人!by新智元

2.科技界的“AI月”即将开启!OpenAI、谷歌、微软等巨头将带来哪些颠覆性体验和期待?by每日经济新闻

3.谷歌CEO最新访谈:AI浪潮仍处于早期阶段,公司未来最大威胁是执行力不足(视频+实录) by腾讯科技

4.独家专访谷歌CEO桑达尔·皮查伊:基于我的个人经历,我一直相信人和人性 by DeepTech深科技

5.谷歌的这场活动已经办了16年,为何它叫I/O?by科技行者

6.跟 OpenAI 争夺「iPhone 合作权」的 Google,后天要发布什么才能 「弯道超车」 by爱范儿

7.谷歌一夜亮出十几款产品对阵OpenAI:什么都有,只是没有惊喜 by腾讯科技


也许你还想看:

经纬张颖:2023,不只克服困难而是习惯困难 

经纬徐传陞:做VC这么多年,人们总在问我同一个问题 

经纬张颖内部讲话:2024,四大关键决策

经纬2023年终盘点:Adaptability is the key to thriving


微信扫码关注该文公众号作者

来源:经纬创投

相关新闻

Ilya离开OpenAl,谷歌一口气拿出十余款新品也难出风头?谷歌揭秘:为什么他们长成键盘侠?|【经纬低调出品】斯坦福紧急下架视频,谷歌前CEO施密特说了哪些真话? |【经纬低调分享】化危机为转机,CEO如何塑造领导力? |【经纬低调出品】没有常胜将军的奥运赛场,如何克服心魔?|【经纬低调出品】力与美结合,这场奥运创造了多少“人生照片”? |【经纬低调出品】为何学不透胖东来?|【经纬低调出品】从复活“冰封”大脑开始,人类永生还有多远? |【经纬低调出品】热热热,地球要变成“火球”了吗? |【经纬低调出品】历史时刻!SpaceX星舰四飞成功:星际文明的路,还远吗? |【经纬低调出品】AI教母创业首秀:如何让AI在真实世界行动自如? |【经纬低调出品】创始人如何做好IP? |【经纬低调出品】从北冰洋融化到极端天气,80、90后能安享晚年吗? |【经纬低调出品】太空种菜、太空养鱼,神舟十八号在轨任务有哪些亮点? |【经纬低调出品】顶级CEO的一天有多卷? |【经纬低调出品】F1上海站落幕,要办一站大奖赛有多难? |【经纬低调分享】一个量产爆款产品的秘密武器 |【经纬低调出品】一分钱不花,他如何靠一辆竹子自行车环球骑行?|【经纬低调分享】百年一遇都集中在2024年的4月了吗? |【经纬低调分享】人类首张详细的人脑3D全景地图来了 |【经纬低调出品】亿万开营,没有界限,才好改变 |【经纬低调出品】为自己热爱的事情:极致付出,极致投入 |【经纬低调出品】颠覆性GTC,老黄再扔炸弹 |【经纬低调出品】勇敢者的游戏,达喀尔精神不灭 |【经纬低调出品】
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。