未来的搜索形式会不断地发生变化,但是它的市场规模之大,恐怕远超很多人的想象。

李彦宏 4 年前打出的子弹,时至今日,似乎击中了百度自己。

近期(七月底),B站投资者日上,管理层披露业务最新进展:“B站在搜索这块,有非常大的流量增长空间,今年Q2起,我们会增加搜索广告的尝试。”

在3月初,B站开始出现搜索广告。当时,搜索“游戏”时,第三个位置展示了游戏广告。

B站给出商业化可能的答案,正是视频搜索。

实际上,这不是无源之水,也不是无本之末。行业趋势便是如此,目前视频平台的搜索趋势都愈加明显。抖快均在去年上线搜索广告,TikTok也在今年3月放开搜索广告。

快手2023Q1电话会议也说道:搜索流量快速增长,搜索广告转化效率更高。

不过,值得留意的是,这恰好是最新一个季度发生的转变。这说明过去半年AIGC的大热并非偶然,而是行业发展的必然趋势。

当下,技术进步的催化或许打开了视频搜索可能性。过去,由于视频搜索技术、时间效率和成本(人工、硬件)等难题,视频搜索在不同的程度上面临着一一变化。

这自然会打破过去视频行业的商业化天花板。

B站独特的中视频、泛知识、通俗有趣等特征,相比长视频(缺乏有用性)和短视频(纯粹奶头乐)的特征,能够更好地匹配搜索行为的特定需求,从而产生更好的化合效应。

在AIGC时代,视频搜索或将成就B站的“野望”,同时,引发百度的“危机”。

如果将“AI实现‘看视频说话’,视频平台就能坐上金矿”作为AI在视频领域的应用场景,那么视频平台有望迎来一个全新的发展黄金时期。

在互联网的发展历程中,视频搜索一直被视为一条具有挑战性的赛道。

视频搜索的整个搜索流程中(输入关键词→解析关键词→召回→结果呈现),召回和结果呈现环节,都存在很大挑战。

要实现这个目标,我们需要在召回环节取得成功。为此,我们需要根据输入的关键词与数据库内容进行匹配,并检索出最符合的视频。为了实现这个目标,我们必须拥有一个丰富的视频内容池,同时还需要具备搜索的精准度。

在内容丰富度方面,视频创作因门槛较高和时间较短等原因,在深度与厚度沉淀方面存在局限。

在搜索精准度方面,挑战显然更为严峻。举个例子,在谷歌上搜索“边牧智商”,呈现的第一个搜索文章,内容里明确有边牧如何高智商的解释字眼。

如果在YouTube上有一个视频,它从能够理解人类语言、完成指令等各个动态维度,更直观地展示了边牧智商很高,但标题、字幕等却没有提及边牧智商等文字标签,这个视频就很难被搜索到。

之所以会这样,是因为视频融合了文字、图片等多模态信息,相比纯文章,内容理解要难得多——很难将视频里的狗子,识别成为边牧,更难把边牧的动作,和高智商挂钩。

事实上,2017年Transformer架构被提出之后,多模态模型在不断进化。

谷歌因此架构提出了实现图像分类的ViT模型,将Transformer 带到了视觉领域,但该模型仍然只是单图像模态。

在其之后,OpenAI 提出了 CLIP 模型,该模型旨在将图像与文本数据相结合,实现多模态处理。与过去处理图像和文本的形式不同,CLIP模型在两方面都取得了突破:图像处理和文本处理。

而且,CLIP在GPT-3的启发下,具有直接全网数据爬虫的能力,实现了一图一文匹配,稍加筛选即可,几乎不需要人工标注,从而实现了更高的成本和时间效率。

要知道,过去的视觉模型都是基于人工标注的数据集训练,而一秒视频至少有24帧,短短一分钟的视频就能够提取出1440张图像,把其应用到视频识别上,成本极高。

尽管CLIP在识别常见物体方面表现出色,但在处理更抽象的任务时,如输出图片中物体的个数等需要一定逻辑思维推理的任务,却表现不佳。

也就是说,此时的图像识别,更像人的视网膜原理。但人不光是眼睛看到了当前的情况,大脑还得对情况有相应的反应。

为了使视频理解更接近人类大脑,需要算法具备类似于大脑的语义理解能力。这种能力可以让人工智能更好地理解视频,进而更好地支持关键词的召回匹配和排序。

几个月前发布的GPT-4,让这一问题有了解决的迹象。

这是在描述一个场景,涉及一个生长在冰冻湖上的仙人掌。它的周围长满了巨大的冰晶,远处还有白雪覆盖的山峰。

这种景象在现实世界中并不常见,其解释是因为这种景象在现实生活中很难出现。具体来说,这种景象需要满足多种条件,例如地理位置、天气条件、生物种类等等。只有在特定的环境下,才有可能出现这种景象。因此,虽然这种景象在某些情况下可能会出现,但它们并不常见。

最新版本的GPT 4模型拥有了“看图说话”的能力,不仅能够对物体进行识别,还能够进行许多语义层面的解读。

随着AI模型加速迭代, "看视频说话" 这一功能即将实现。尽管具体实现细节仍在讨论之中,但可以预见的是,它将大幅提高视频创作的效率。 首先,AI模型可以对视频中的图像和音频信息进行快速处理,从而实现自动文本生成。这将使得制作过程更加便捷,降低制作门槛。同时,通过结合自然语言处理技术,AI模型还可以对视频中的对话进行智能化的处理,使得生成的文本更贴近原始内容。 在此背景下,视频创作平台将更加活跃,用户可以通过这些平台轻松地创建各种类型的视频内容。这将使得视频行业进一步发展,为人们带来更加丰富和多样化的体验。

GPT-4的能力目前仅限于宣布阶段,尚未实现一个完整的多模态大模型,这意味着我们需要一定时间的探索来拓展其功能。

况且,多模态大模型需要大量的图像和视频等数据作为训练素材,其文件大小通常相当大。这意味着需要投入大量的算力成本来实现这些模型。

比如,百度的文心一言虽然展示了视频生成能力,但因成本较高,现阶段还未对所有用户开放。

在结果呈现环节,视频也不能像文章一样快速浏览。有时候,想要查找视频中的特定信息,需要使用Ctrl+F命令,但是一个十分钟的视频,可能到后半段才有这些信息。此外,在暂停和记录方面,也需要花费相当长的时间,即使只花费三十分钟,也可能难以找到想要的内容。

但这个问题,国内已有音视频大模型破解:将视频信息归纳总结,想看哪一段,直接点击章节,就可以跳转到相应的时间段播放。

总的来说,随着视频AI技术的应用,视频搜索在核心的内容丰富度以及搜索精准度,都有望得到解决。

不过,视频与文本之间的区别在于它们的表现形式。视频具有更直观、生动的特点,更具吸引力。据截止2022年6月的统计数据,国内网民每天花费一半的网上娱乐时间在短视频平台上。

种种利好叠加,到那时,视频或能代替文本成为搜索的主流。当下在海外,这种苗头已经出现。

Chowdhury机构调研显示,近40%的年轻人在寻找吃饭的地方时,会在TikTok进行,而不是谷歌搜索。

可以观察到,海外年轻人平均每天花费近两个小时的时间在 TikTok 上。在这两个小时内,只要看到有趣的内容,就会自然触发搜索行为。

据透露,谷歌数百名员工被分配到一个被称为“重要的搜索转移”的项目中工作,该项目的内容是让搜索结果显示更多图像和视频。

显然,这对百度来说,也可能是未来会遇到的情况。

但在我看来,“惊喜”远不止此。

不同于文字,视频能润物细无声地植入广告,吸引用户点击。最早上线视频搜索广告的YouTube曾表示,视频搜索广告带来的点击次数比插播广告,高出近五倍。

修改后的内容:点击率和广告价格方面都不只是广告商考虑的因素。视频平台在算法推荐方面具有优势,与搜索相结合可以提高广告的精准度,从而吸引消费者。

在视频搜索场景中,搜索广告的几大驱动因子——流量、加载率、点击率、价格等都有了进一步提高的可能。

这样一来,意味着一旦技术突破,视频搜索可能会重构搜索广告的生态与逻辑,视频平台相当于坐上了金矿。

泼天富贵,终于轮到B站?

B站14周年庆上(6月召开),陈睿当着全国年轻人的面,向中长视频UP主服软称,“要用更真实的播放分钟数去替代播放次数,作为B站视频的主要外显数字。”

那么,为何B站会口风大变呢?

实际上,管理层可能不是在讨好中长视频UP主们,而是要迎接自己的时代。

众所周知,一直以来,抖音以其沉浸式的娱乐内容,在日活和用户时长方面,对视频号、B站等以泛知识内容为主的平台造成了很大的压力。

在视频搜索场景下,两者的处境截然相反。

YouTube相关负责人曾提到,在YouTube上,通过每周的关键词搜索,会有数以十亿计的视频浏览量产生。这些视频大多是实用风格。

其所说的实用视频正是「How to」(如何...类视频)——Youtube上每天有数以百万计的搜索关键词当中包含「How to」,用户花在「How to」类视频的时间是「宠物和动物」的10倍。

原因在于:视频搜索具有明确的目标性,针对知识型内容,更符合用户的搜索需求。

B站的舒适区在于其泛知识内容占比高达41%。截至今年3月份,B站逐渐意识到“学习网站”的名头对于其用户粘性和口碑积累的重要性,因此越来越多的人开始将B站视为一个值得信赖的学习平台。

如此就不难理解,为何“睿帝”低头,调整激励方式。

不过,内容优质只是一方面,视频搜索效率高,还要能提取足够多的关键词。

这一来看,同一关键词在抖音、B站搜索到的标题汇总显示:抖快视频标题很长,但大多数采用现成的tag,或者“标题党”类标题。

相比之下,B站的标题简单,可大多具备关键词汇,也更加专业。

搜索内容呈现也是一样,以“山东地震”为例,抖音搜索结果聚焦在“肯定要先跑出去呀”、“啊啊啊啊啊,地震了”等博主本人感受。

B站搜索到的类似于“山东为何突然爆发地震?”等知识科普,创作者们更多运用“板块运动”“断裂带”等专业词汇来讲解。

也就是说,无论标题、内容,还是时长方面,中视频比短视频都更易提取关键词,与视频搜索更适配。

不过,短视频平台的创作者若想转向制作中长视频,仍然面临着一定难度。值得注意的是,过去的一年里,许多拥有千万粉丝的抖音创作者加入B站后,他们的粉丝数量表现并不理想。

此外,用户自己搜索所需的内容,优质的内容能够获得更长的生命周期。

仍然以YouTube为例,上述所说的How to(如何...)类视频生命周期极长,即使过去很长时间,依然能维持较高的热度,甚至是逆袭式的消费曲线。

B站有自己的独特想法,2022Q4电话会议中提到,B站上有大量知识类内容,具有很高的历史价值。几年后,大家将更多地观看它。ChatGPT的搜索体验,可以将B站内容积累的价值充分发挥出来。

这样一来,创作者将受到激励,产出更多优质内容,而不会像当前的Story Mode模式那样,不断挑战站内中长视频UP主的地位。

有了更多的优质内容,搜索流量池得以扩大,广告主闻利而来,创作者也能获得更多收益,社区生态整个良性循环得以维持。

如果技术实现突破,相比可能让B站陷入“死亡螺旋”的故事模式,视频搜索广告才是良药。

不仅如此,在搜索场景下,平台还具备宏观调控的权力。

如YouTube,2020年提升了how-to类内容和高商业化KOL分发权重,当年广告营收达到198亿美元,相比2017年翻了超过3倍。

B站方面,可以将搜索流量分发至更多中腰部UP主的推广视频中,一定程度上可以带着UP主“共同富裕”。

小结

视频搜索的蓝图,让所有人垂涎。AI大模型加持下,技术正在突破ing,广阔的商业化变现空间,隐隐招手。

然而,B站的表现尤为突出。中视频和视频搜索功能更加符合其用户群体的需求,从而激活了平台的创作者生态,促进了新一轮的生态发展。

当然,预期总是美好的,但这一块短中期落地方面,仍存在较大的挑战。

视频训练成本高极高,且AI联想能力并不可控。这可能导致不恰当关键词投放,使广告主陷入负面风险中。