有干净靠谱的社交平台推荐吗?百度来问下

本文盘点了一些兴趣社区产品为何从风靡一时沦为现在的不温不火,并进一步分析了新兴趣社区产品的机会点。

或许很多人都忘了,在20年前,大家为什么上网。

“我要看新闻”和“我要聊天”就是中国第一批网民的基础需求。

实质上,这就是对内容社交的需求。

满足这两种需求的社区产品,一直贯穿着互联网的始终。

从各种聊天室,再到西祠胡同,猫扑天涯,以及风头一时无两的百度贴吧,许多红人和热门内容产生于这些社区,在中国互联网发展最快的二十年内,这些社区也孕育成熟了风格各异的互联网内容文化。

让我们将镜头转回现在,2019年。

长江后浪推前浪,哪怕是百度贴吧这样的王者,这几年也是止不住的下跌。

而伴随着技术的进步,许多新型的社区产品开始绽放光芒,比如短视频社区抖音快手,问答社区知乎,分享类社区小红书等等。

而保留着兴趣类社区尊严的,都是虎扑、汽车之家这类某领域的垂类社区。

那么问题来了,为啥没有一个能像当年贴吧一样百花齐放的兴趣社区出现了呢?

一、走下神坛的百度贴吧

巅峰的百度贴吧什么样子?

从活跃来说,以魔兽世界吧和李毅吧两个老大哥为例,一秒刷新就是一页半的新帖不是问题;

从文化输出来说,贴吧诞生的网络热词不计其数,出自李毅吧的“屌丝”“高富帅”等词早就破圈,全网皆用;

从大事件来说,“贾君鹏你妈妈让你回家吃饭”耳不耳熟?08年掀起全网“抗韩圣战”的就是魔兽世界吧。

更不用说卧虎藏龙的贴吧有着各个领域的高质量内容输出者,比如现在B站知名的数码评测up主“笔吧评测室”就是来自于笔记本贴吧。

游戏类、小说类、校园类、动漫类各种分类下都有多个极具活跃度贴吧,在2016年的时候,贴吧的DAU达到了3000W。

然而,如果我们可以明确指出一个产品的巅峰时期,那意味着这个产品已经从巅峰跌落。

我跟百度贴吧的朋友聊了聊,在2018年的时候,贴吧DAU就已经跌破1000W,在2019年和春晚的活动后,贴吧DAU大概升到了1350W,而到现在,贴吧具体的DAU数值我没有获取到,但应该在1000W左右甚至更低。

诚然,日活千万的产品已经算体量非常大了,只是却大不如自己的过往。

并且,据我了解,今年贴吧的员工也有大幅衰减。

互联网产品如逆水行舟,不进则退。

百度贴吧,慢慢走下神坛。

二、有心无力的新兴社区们

相比其他领域,兴趣社区领域的切入者没那么多。

2014年从QQ独立出APP的兴趣部落,在一段时间的喧嚣后,这两年没了声响,通过下载量预估可以看到兴趣部落活得并不好。

(兴趣部落IOS下载预估数据-来自七麦数据)

今年上半年,头条系产品飞聊上线,肩负着冲击腾讯社交护城河的重任,不过也只是昙花一现。

(飞聊OS下载预估数据-来自七麦数据)

毕竟,哪怕相比起现在的百度贴吧APP,他们的数据都差了好几个数量级。

(百度贴吧IOS下载预估数据-来自七麦数据)

此外,即刻也在往兴趣社区这个方向转型,要是不下架的话,也应该是初具规模了。

同时,也不得不提到百度贴吧的同时代产品:豆瓣

豆瓣小组在用户端其实颇受好评,也有豆瓣鹅组这样的头部大组,但豆瓣官方对小组的态度却有点含糊不清,整个公司并没有把小组当成重点。

从“爱豆组”和“反对阿北独裁组”用户积极提建议报BUG的情况来看,似乎用户对小组的感情比官方还深刻。

还有一些社交和兴趣社区混合的小众产品,比如苏打和一罐(刚被即刻收购),整体而言也是不温不火。

为啥这些新的兴趣社区都不太行了?

三、新的兴趣社区们,哪一步没做好?

很多时候,我们去看一个成型的社区的内容,会发现这个社区内容似乎没有重点,好像都是一群用户在分享自己的日常,或者讨论一些热点新闻。

比如虎扑最大的版块步行街,大部分内容都是一群直男聊生活工作和热点新闻,跟篮球相关的内容也有,但并不多。

有人就觉得这就是社区中的主要内容,所以只要找到一群爱聊天爱分享的用户,把他们凑到一起,自然就能聊起来了。

于是就疯狂砸钱,一天把DAU怼到几十上百万,买量一时爽,留存火葬场。

像虎扑这样,大部分用户开始分享自己的生活,开始就热点新闻表达观点的情况,其实应该是算作社区成功的其中一种标志。

这意味着,这种情况是社区成功的结果,而并非社区成功的原因。

真正混过社区的人都知道,绝大部分用户是先被这个社区的特色内容吸引,再慢慢喜欢上这个社区的氛围,最后完全地认可这个社区及这个社区的用户。

当用户认可这个社区的时候,他就会愿意在这个社区中,用这个社区独有的方式,去分享自己所焦虑、疑惑、痛苦的事。

比如V2EX这个程序员社区,并非只有技术讨论,其中也有不少人关心脱发、猝死和职业发展。

比如在虎扑中,当JR们被绿了的时候,就会来到步行街发帖。

(经常会有虎扑用户分享自己的被绿经历)

但认可是一个过程,没有哪个用户一上来看几篇帖子就能认可一个社区的。

如果一个社区,不具备特色内容,也没有形成好的用户氛围,凭什么让用户认可这个社区呢?

从这个角度,再来看看这些新的兴趣社区们,你会发现,第一感觉,视觉和交互上,这些APP都不错。

然而,仔细一看,能做到有特色内容的社区都寥寥无几,更不用谈用户氛围了。

四、成功的社区是怎么做起来的?

我们不妨来研究下成功的社区,在前期积累流量的时候,做对了什么事。

在我看来,社区成功的核心就是两个:

  • 第一个,输出精准且高质量的内容。
  • 第二个,建立良好的参与感机制,让用户聊起来。

这两者具备双边网络效应,如果能击穿联通,那么一个社区就会形成一个非常良好的增长模型。

简单来说,就是给用户来社区的理由,以及给用户留下的动力,用户留下来,又会源源不断给到新的用户来社区的理由。

1. 输出精准且高质量的内容

我们常说,流量抓手无外乎这三个:工具、利益、内容

除了百度贴吧这种背靠搜索流量爸爸的社区产品外,其他的兴趣社区产品在前期都是靠内容来获取种子用户。

这些内容有两个特点:领域垂直、质量颇高

虎扑刚开始的时候,就是靠创始人程杭在芝加哥人工搬运第一手的NBA资讯,获得了第一波高质量的篮球爱好者;

新氧刚开始的时候,也是靠官方团队拍摄各大整形医院的实地照片,以及搬运国外优质的整形相关资料,获得了第一波关注。

我们把范围从“兴趣社区”扩大到“社区”,你会发现这一点仍然成立:

分享类社区小红书最开始的时候,就是一个叫做《出境购物指南》的PDF文件;

问答类社区知乎,最开始也是通过高质量的回答内容声名鹊起。

通过内容来的用户,在精准度和质量上也会更高,更符合前期核心用户的特征。

2. 建立良好的参与感机制,让用户聊起来

在大部分社区中,参与感机制就等同于UGC机制,如果用更容易理解的词来讲,这叫做:

塑造氛围并不需要很强的产品功能,建立UGC机制也不意味着需要上线等级和激励体系。

最重要的,你需要让用户知道他们该聊什么,怎么聊。

对兴趣社区而言,“聊什么”这个问题并不难,兴趣本身就是最重要的主题。

有的社区运营者,是有一定内容意识的,也知道在社区中去发一些偏干货类的东西。

然而大部分情况是,内容发出去了,用户看到了,顶多是点个赞,回复一些“感谢”、“牛逼”这些没啥意义的词语。

讲道理,这种单方面传递的内容,还不如做个公众号。

而我们回过头看看那些成功的社区是怎么聊的,你会发现一些很有意思的事。

  • 第一个,大部分帖子的回复都不是无意义的,无论是抖机灵还是喷人吐槽,而是正儿八经在讨论和交流。
  • 第二个,大部分帖子中,用户与用户在评论区的互动都做得很好,像贴吧和虎扑,光两个人就能刷好几版的留言。
  • 第三个,会有不少的热门帖子,不是因为发帖者的内容而火,而是靠着神回复的评论内容而火,最右更是把这点做到了极致。

一来二去,聊着聊着氛围就出来了,而社区氛围形成的标志,就是形成一些社区”黑话“。

远到贴吧时期的“李菊福”“来信砍”,近到虎扑的“我好了”,这些不仅仅是一句句社区黑话,也是一份份社区文化。

氛围,就是一个社区的护城河。

社区产品的氛围其实在产品前期就会奠定起基调,比如知乎的严谨认真的态度,就是在邀请制的时期慢慢培养出来的。

而这些基础,全都仰仗初期那一批核心种子用户,他们必须具备专业性,也必须具备热情。

并且,哪怕有了这一批用户,社区氛围也不是一蹴而就的,还需要时间慢慢沉淀。

社区就得是慢火熬汤,心急是做不好的。

五、兴趣社区的机遇和挑战

不得不说,与百度贴吧辉煌的那几年相比,目前的市场环境已经大不相同,正是这些不同,让优秀的社区更难出现。

一个社区中,90%的用户都是只看不发言的内容消费型用户,而对于这类用户而言,短视频的内容体验更好,因此大部分用户将会用短视频产品替换掉社区产品。

因为短视频抢占用户注意力的能力太强,像快手和抖音甚至会成为斗鱼、虎牙这种直播平台的第二竞品。

(来自《QuestMobile:2019年中国移动互联网秋季大报告》)

第二,是知识付费产品的成熟

天涯论坛和百度贴吧时期的内容生产者,大多是用爱发电,那时候积累粉丝不容易,粉丝变现也不容易,单纯的内容变现更不容易。

而现在能够让具备内容生产能力的人变现的途径一大堆,人都是趋利的,都会做正反馈及时而强烈的事情,无形之中也减少了社区中优质内容生产者的数量。

第三,是资本市场被惯坏了

2017年下半年开始,“增长黑客”这个岗位持续走红,诸如”3天0成本涨100W用户“的案例层出不穷。

老板和投资人的阈值被不断拉高,一款新产品,要是几个月的时间做不到几十上百万的日活,就是一顿暴砍。

但兴趣社区这种东西,本身就是慢工出细活才能做好。

然而,这并非意味着兴趣社区这条赛道没有未来。

人是群居动物,找到群体,找到归属感是写在基因里的需求。

并且,腾讯、知乎、头条、钉钉等等大厂相继入局,都推出了自己的兴趣社区类产品,这也意味着兴趣社区隐藏着的巨大机会。

机会伴随着挑战,就看谁能率先一步找到合理的增长模式。

不过,无数过往经历也告诉我们,第一个找到增长模式的人,不一定能笑到最后。

然而,正是这些未知的未来,才让人刺激,让人热血沸腾。

六、哪些新的兴趣社区产品有机会?

虽然目前的兴趣社区产品基本都是”圈子“”小组“的模式,但也有一些具备差异性的产品让我眼前一亮。

一个成功的问答社区,想要孕育一个成功的兴趣社区,的确有天然优势。

抛开流量优势不谈,知乎本身就具备了成熟的社区氛围,也具备了大量专业的内容,这样一看,对于兴趣社区而言重要的东西,知乎已经具备了。

背靠微信的流量,只要微信想推,量肯定是不愁的。

愁的是留存怎么做,怎么去解决内容和氛围的问题,如果好物圈开始跟微信公众号深入合作,那机会是相当大。

我想了很久要不要放即刻上来,毕竟即刻凉了,能不能回来都说不准。

得益于内容订阅器的功能,即刻的用户中有一大批都是互联网从业者,因此后期转社区后,一个叫做”产品经理的日常“的社区就很快形成。

上面提到,用户如果认可一个社区,是会愿意在这个社区去分享一些自己所焦虑、疑惑、痛苦的事。

而即刻的”产品经理的日常“做到了。

现在即刻收了一罐,不知道后续会如何发展,值得期待。

一般来说,兴趣社区类产品,都会以内容作为流量抓手来获取用户,但乌托邦这个产品另辟蹊径,选择了工具属性。

它拥有一套十分强大的后台管理功能,作为运营者你可以创建自己的社区并且自定义许许多多的功能,从用户激励体系到内容分区,运营社区所需功能都整得明明白白。

这也意味着,乌托邦这个产品在初期瞄准的是B端的用户,也就是各个社区的运营者们。

这的确是一种不同于其他社区的思路,随着微信公众号、头条号、直播平台的发展,KOL越来越细分和垂直,像李佳琦、papi酱这种具备极高商业价值的KOL不算少。

保不齐哪个领域的KOL就需要这么一个产品来运营一个社区,毕竟微信和微博的用户运营功能都太薄弱了。

但正如前文所说,社区的核心是特色内容和用户氛围,从工具属性切入,是否能够帮助运营者解决内容和氛围的问题,这还有待验证。

没错,这里我也把B站放进来了,并且这是我最看好的。

从兴趣社区的角度来讲,目前你最有可能在哪里找到一些非常小众兴趣的内容,在哪里找到喜欢这些内容的人们?我想只有B站。

跟爱奇艺、优酷这类视频网站不一样,B站有着辨识度极高的用户氛围,和覆盖面极广的内容。

尽管目前B站看起来仍是一个视频网站,那谁知道以后呢?

作为一名社区重度爱好者,我真心希望能看到更多好的社区类产品。

每个人都害怕孤独,每个人都需要找到自己的团体,每个人都需要归属感。

在天南地北里,能找到跟自己一样的人,这才是互联网的意义。

本文由@叶小戳 原创发布于人人都是产品经理,未经许可,禁止转载。

给作者打赏,鼓励TA抓紧创作!

谁在瓜分百度的搜索流量?

15:21 字节跳动 移动互联网时代 百度 移动互联网 小程序

作者:杨雪梅  来源:新浪科技

你的搜索习惯是否也在发生变化?

过去,我们习惯“百度一下”,今天,除了“百度”,我们会通过微博“随时随地发现新鲜事”;通过抖音“记录美好生活”;在快手上“看见每一种生活”;使用小红书“标记我的生活”;豆瓣里有“你的书影音世界”;有问题,还可以“上知乎”……

当用户意识到百度不再是搜索的中心时,中国移动搜索领域的新战役已经悄悄打响。

刚刚过去的一周,百度交出了2019年Q2业绩,相比上一季度有所好转,但净利润仍在下滑、营收增长疲软。 百度正面临严峻的外部挑战,李彦宏称“变革带来阶段性阵痛”。

2019年,是百度的变革年,它发了两份财报,让曾经引以为豪、作为根基的搜索业务进入公众关注的焦点,接受舆论和业绩的双重考验。

百度曾是中文搜索之王,但随着PC时代退出主舞台,移动互联网成为主场,搜索市场变天了。

如今虽然百度搜索仍是国内市场份额最大的搜索引擎,占比80%左右,百度App日活用户达1.88亿,但严峻的形势也摆在眼前: 市场竞争暗流涌动,其流量在不断被瓜分、红利消退、增长缓慢,商业模式充满争议,百度安稳赚钱的好日子不再。

比达咨询统计数据显示,浏览器和搜索引擎App是中国移动搜索的主要入口渠道,但不是唯一入口,在浏览器和搜索引擎App之外,购物类、地图类、视频音乐类、微信、新闻类、垂直社交类等App占据了不小的份额。

有网友就表示,自己会去小红书、蘑菇街搜穿衣搭配,在微博、豆瓣搜索并参与讨论明星八卦,以及去知乎和陌生人互动话题,而这些内容在搜索引擎上不一定都能搜到,且搜索体验也不好。

在移动互联网时代,超级App占据越来越多的用户时间和注意力,同时用户需求也在升级。另一方面,智能化、算法推荐的流行,改变了网民获取信息的方式,从以前的主动搜索变为习惯被动推荐。

用户行为和需求释放出强烈的市场信号,新的玩家看到了机会。

进入2019年,字节跳动对搜索的野心就开始显现。最早是1月份在今日头条App内上线“账号内搜索”功能;3月份传言前360搜索产品负责人吴凯加入担任搜索业务负责人,字节跳动对外回应时称搜索已上线,产品还处于测试阶段,彼时,今日头条App内已经可以搜到站内及部分站外的内容。

8月,“字节跳动招聘”公众号发文称字节跳动已建立搜索部门, 搜索团队正在全力打造出一个理想的搜索中台架构,而该搜索引擎是今日头条、抖音、西瓜、火山、懂车帝等多款App强有力的“幕后支持者”。

其招聘广告显示,搜索部门汇聚了来自Google、百度、Bing、360搜索团队的搜索技术骨干,团队涵盖了字节跳动的推荐、广告、IR、NLP、CV等技术,“这些技术的应用和交叉,让我们有更多机会突破传统搜索引擎的天花板,提升用户体验。”据称,该项目已运作上万台机器。

此外,字节跳动还通过收购、投资的方式扩建内容池,比如不久前控股互动百科。

当然,百度也并未坐以待毙。它也对外强调了自己“搜索+信息流”战略,通过“百家号+智能小程序”布局内容生态。

百度和字节跳动,这次在“搜索+信息流”领域狭路相逢了。

李彦宏曾说,“搜索是百度成功的所有秘密”,“搜索是百度的根基,是百度的核心价值”。 在百度发展的历史上,搜索的意义非同小可。

回看百度近20年的的搜索往事,它于1999年起步;2000年上线独立搜索门户;2001年从B端转向C端,推出独立搜索引擎,直接服务用户;2003年开始先后推出百度贴吧、百度知道、百度百科等产品;2005年完成上市,发展可谓顺风顺水。

2005年百度上市之时,国内搜索市场格局还是三分天下之势, 资料显示,百度、谷歌、雅虎所占市场份额分别为37%、23%、21%。

2010年,随着谷歌和雅虎退场,百度位居中文搜索市场第一位,并在之后市场份额也远高于市场排名第二第三的360和搜狗。

到2011年,百度网页搜索市场份额达83.6%,创历史新高。2015年,百度净利润为336.6亿元,同比增长155.1%。对比2018年,百度净利润仅为276亿元。

当时,移动互联网时代已经悄悄开启。2006年至2012年,中国的移动互联网市场以84.2%的速度飞速增长。随着4G时代的开启以及移动终端设备的凸显,2014年、2015年左右,移动互联网产业取得飞跃式发展。

但是随着移动互联网时代全面到来,百度搜索并没有跟上脚步,反而,受搜索业务负面新闻等影响,开始逐渐掉队。

2016年,百度先后遭遇了“血友病吧事件”和“魏则西事件”,并被国家网信办调查组调查, 在2016年Q3和Q4连续两个月出现营收同比负增长,全年营收增速仅为6%,创近十年新低。 百度面临舆论和营收的双重压力。

相比而言,BAT另外两巨头腾讯和阿里的社交和电商根基稳固,同时游戏、娱乐、金融等业务欣欣向荣。从2018财年业绩来看,腾讯总营收3127亿元净利润787亿元,阿里总营收3453亿元净利润693亿元,百度则为1023亿元、276亿元。 BAT中百度位置的尴尬显而易见。

进入2019年,市场形势眼见愈加严峻, 百度比往年更加重视搜索,开始稳固根基、加筑自己的搜索围墙。

今年以来,从管理层频繁变动,到新战略的施行,百度开始多方位保卫搜索业务。

2019年5月,百度Q1财报发布,迎来上市以来的首个季度亏损,百度核心表现不佳。与此同时,管理层震荡,在百度任职14年之久,负责搜索业务的向海龙离职,接任者是李彦宏认为“对公司搜索和信息流业务的增长有非常大贡献”的沈抖。

一方面是管理层的变革,另一方面,百度提出了移动生态。 李彦宏在内部信中表示,由“搜索+信息流”组成的双引擎,“百家号+小程序”组成的双生态,进一步夯实了百度App超级入口的地位。智能小程序则构建的是一个新的内容和服务生态,目前月活跃用户达2.7亿,入驻小程序数量15万,覆盖271个细分类别。

在搜索之外,百度似乎试图在信息流上下功夫,进而防御字节跳动。

其实从2016年,百度就开始重视信息流业务。在 2017 年的百度世界大会上,百度App的slogan更新为“有事搜一搜,没事看一看”,据说提出者正是沈抖。这一变更的背后,是百度将信息流产品加入搜索。“搜索+信息流”双引擎战略在当时开始落地。在百科上,百度App的描述更是结合了搜索功能和智能信息推荐的移动互联时代的智能产品。

只不过以算法推荐见长的今日头条异军突起,百度在信息流方面并没有抓住最好的机会。

就在不久前,在谈及竞争时,沈抖也只能表示,搜索业务很赚钱,新的企业进入这个市场也不是什么新鲜事。但他认为,搜索行业的入行门槛很高,从搜索引擎转到信息流还是很简单的,只需要从用户的搜索中总结出他们的兴趣,反过来做的话就很难,因为信息流都是去匹配用户比较广泛的兴趣。

来自字节跳动的竞争只是一个方面, 面对更多垂直内容产品的分流,百度欲通过智能小程序来聚合应用。

2018年7月,百度智能小程序上线时,沈抖提到,移动互联网时代,各个App使得整个用户体验是割裂的,百度推出智能小程序和百家号,就是希望互联网应该是互联互通、平等的局面,是为了解决移动互联网割裂的问题。

不同于微信小程序,有业内人士认为,小程序针对搜索、内容平台,更多是激活流量的思考;而微信小程序的目的是完善生态,让开发者开发更多好应用,来服务好10亿微信用户。

2019年3月,百度搜索全面接入智能小程序,开始开放更多流量给小程序、权重提高。 百度想通过小程序盘活、拉回更多的流量。

不过,虽然用户可以在百度App内通过智能小程序搜索到趣头条、小红书、快手、B站、58同城、齐家网等内容平台的内容,但聚合内容平台后, 如何让这些平台的用户愿意在百度App里停留,并形成“没事看一看”的用户习惯,对百度“搜索+信息流”战略来说仍然是道阻且长。

过去,搜索更多是工具属性,用户使用具有强烈的目的性,用完即走是常态。但如今,当字节跳动这样的玩家进入,开始用短视频、信息流等内容来影响搜索习惯时,用户在搜索信息时的停留时间就会变久,沉迷度提高。

当人的需求不再只是信息,而是服务,搜索的方式也更多样化。

如今,用户习惯潜移默化受到影响、会从不同的产品中寻找需要的信息,此外用户需求发生变化,比如在搜索信息、浏览新闻资讯的同时,还想要社交、互动、购物、听音乐、看视频等, 未来,交互性更强垂直类娱乐App仍然会不断瓜分搜索流量。

这或许也是头部玩家同时聚焦“搜索+信息流”战略的原因之一。正如百度App slogan说的“有事搜一搜,没事看一看”, 很明显,在搜索之外,也在强调用户停留。

此外,随着移动搜索将迎来新的市场格局,不管是百度、字节跳动,还是行业其他产品,都不得不重视信息孤岛的新问题。知乎创始人周源表示,“大家面临的信息孤岛问题,以及用户获得高质量内容的成本越来越高的问题,都是一样的。”

这不同于PC时代,搜索引擎是用户获取信息的最主要入口,随着移动互联网时代到来,各种垂直移动App分走了一些属性显明的目标用户和流量, 垂直领域的每一个超级App都有能力占据用户足够多的时间和注意力。

头条、知乎、小红书等移动App更多是内容闭环,移动互联网用户的搜索需求分布在不同的信息孤岛。

今年,聚合效应和需求明显变大。百度与字节跳动都在大力投资布局搜索相关的内容产品,比如近期,百度就先后投资了凯叔讲故事、果壳、知乎等产品,通过小程序聚合内容产品或者社区,而字节跳动也控股互动百科。为搜索填充和储备内容粮仓,成为大战来临前的重要功课。

但是信息孤岛还很难真正打破。

TMT产业时评人张书乐认为,无论是从搜索到内容(百度过去的玩法),还是由内容进击搜索(头条现在的意图),其实都是互联网巨头们一直都在试图进行的“闭环”尝试。

不过,他也表示,这样的“闭环”其实最终还是开放式的,对各种合作伙伴平台开放,排斥纯粹竞品。 毕竟,没有一个厂商或者一个联盟,真正能在移动互联网领域中达到大而全。

值得注意的是,未来,如果字节跳动成为移动搜索市场强有力的竞争者,围绕自然搜索排名、搜索结果的公正性和客观性等新的问题和争议也将不断产生,行业格局也将持续发生变化。

一切皆流,无物常住。中国互联网搜索20年将过,新的搜索故事也将展开。 属于百度的时代过去与否,且看这一战如何展开。

  2017年9月携程金融成立,在金融和风控业务中,有多种场景需要对图关系网络进行分析和实时查询,传统关系型数据库难以保证此类场景下的关联性能,且实现复杂性高,离线关联耗时过长,因此对图数据库的需求日益增加。携程金融从2020年开始引入大规模图存储和图计算技术,基于nebula构建了千亿级节点的图存储和分析平台,并取得了一些实际应用成果。本文主要分享nebula在携程金融的实践,希望能带给大家一些实践启发。

  首先我们来简单介绍下图相关的概念:

  在计算机科学中,图就是一些顶点的集合,这些顶点通过一系列边结对(连接)。比如我们用一个图表示社交网络,每一个人就是一个顶点,互相认识的人之间通过边联系。

  在图数据库中,我们使用 (起点,边类型,rank,终点) 表示一条边。起点和终点比较好理解,表示一条边两个顶点的出入方向。边类型则是用于区分异构图的不同边,如我关注了你,我向你转账,关注和转账就是两种不同种类的边。而rank是用来区分同起始点同终点的不同边,如A对B的多次转账记录,起点、终点、边类型是完全相同的 ,因此就需要如时间戳作为rank来区分不同的边。

  同时,点边均可具有属性,如:A的手机号、银行卡、身份证号、籍贯等信息均可作为A的点属性存在,A对B转账这条边,也可以具有属性,如转账金额,转账地点等边属性。

  1.2 什么时候用图

  (信息收集于开源社区、公开技术博客、文章、视频)

  诈骗电话的特征提取,如不在三步社交邻居圈内,被大量拒接等特征。实时识别拦截。(银行/网警等)

  转账实时拦截 (银行/支付宝等)

  实时欺诈检测,羊毛党的识别(电商)

  黑产群体识别,借贷记录良好用户关联,为用户提供更高额贷款、增加营收

  影子集团、集团客户多层交叉持股、股权层层嵌套复杂关系的识别(天眼查/企查查)

  在数据仓库开发过程中, 会因为数据跨表关联产生大量的中间表,使用图可直接根据关系模型表示出数据加工过程和数据流向,以及在依赖任务问题时快速定位上下游。

  ip关系等黑客攻击场景,计算机进程与线程等安全管理

  好友推荐,行为相似性,咨询传播路径,可能认识的人,大v粉丝共同关注,共同阅读文章等,商品相似性,实现好友商品或者咨询的精准推荐

  通过对用户画像、好友关系等,进行用户分群、实现用户群体精准管理

  8)供应链上下游分析

  如汽车供应链上下游可涉及上万零件及供应商,分析某些零件成本上涨/供应商单一/库存少等多维度的影响(捷豹)

  1.3 谁在研发图,谁在使用图

  (信息收集于开源社区、公开技术博客、文章、视频)

  目前国内几家大公司都有各自研发的图数据库,主要满足内部应用的需求,大多数都是闭源的,开源的仅有百度的hugegraph。其他比较优秀的开源产品有Google Dgraph, vesoft的nebula 等,其中nebula在国内互联网公司应用非常广泛。结合我们的应用场景,以及外部公开的测试和内部压测,我们最终选择nebula构建金融图平台。

  2.1. 图平台建设

  我们的图平台早期只有1个3节点的nebula集群,随着图应用场景的不断扩充,需要满足实时检索、离线分析、数据同步与校验等功能,最终演化成上述架构图。

  1)离线图:主要用于图构建阶段(建模、图算法分析),通过spark-connector同集团的大数据平台打通,此外我们还将Nebula提供的数10种常用图算法进行工具化包装,方便图分析人员在spark集群提交图算法作业。

  2)线上图:经过离线图分析确定最终建模后,会通过spark-connector将数据导入线上图。通过对接qmq消息(集团内部的消息框架) 实时更新,对外提供实时检索服务。 同时也会有T+1的hive增量数据通过spark-connector按天写入。

  3)全量校验:虽然 Nebula Graph 通过 TOSS 保证了正反边的插入一致性,但仍不支持事务,随着数据持续更新,实时图和离线(hive数据)可能会存在不一致的情况,因此我们需要定期进行全量数据的校验(把图读取到Hive,和Hive表存储的图数据进行比对,找出差异、修复),保证数据的最终一致性。

  2.2. 遇到的问题

  在nebula应用过程中,也发现一些问题,期待逐步完善:

  1)资源隔离问题,目前nebula没有资源分组隔离功能 ,不同业务会相互影响;如业务图A在导数据,业务图B线上延迟就非常高。

  2)版本升级问题:

  nebula在版本升级过程中需要停止服务,无法实现热更新;对于类似实时风控等对可靠性要求非常高的场景非常不友好。此种情况下如需保证在线升级,就需要配备主备集群,每个集群切量后挨个升级,增加服务复杂性和运维成本。

  客户端不兼容,客户端需要跟着服务端一起升级版本。对于已有多个应用使用的nebula集群,想要协调各应用方同时升级客户端是比较困难的。

  三、内部应用案例分析

  3.1 数据血缘图

  数据治理是近年来比较热的一个话题,他是解决数仓无序膨胀的有效手段,其中数据血缘是数据有效治理的重要依据,金融借助nebula构建了数据血缘图,以支撑数据治理的系统建设。

  数据血缘就是数据产生的链路,记录数据加工的流向,经过了哪些过程和阶段;主要解决 ETL 过程中可能产出几十甚至几百个中间表导致的复杂表关系,借用数据血缘可以清晰地记录数据源头到最终数据的生成过程。

  图 a 是数据血缘的关系图,采用库名 + 表名作为图的顶点来保证点的唯一性,点属性则是分开的库名和表名,以便通过库名或者表名进行属性查询。在两张表之间会建立一条边,边的属性主要存放任务的产生运行情况,比如说:任务开始时间,结束时间、用户 ID等等同任务相关的信息。

  图 b 是实际查询中的一张关系图,箭头的方向表示了表的加工方向,通过上游或者下游表我们可以快速地找到它的依赖, 清晰明了地显示从上游到下游的每一个链路。

  如果要表达复杂的血缘依赖关系图,通过传统的关系型数据库需要复杂的SQL实现(循环嵌套),性能也比较差,而通过图数据库实现,则可直接按数据依赖关系存储,读取也快于传统DB,非常简洁。目前,数据血缘也是金融BU在图数据库上的一个经典应用。

  3.2 风控关系人图

  关系人图常用于欺诈识别等场景,它是通过 ID、设备、手机标识以及其他介质信息关联不同用户的关系网络。比如说,用户 A 和用户 B 共享一个 WiFi,他们便是局域网下的关系人;用户 C 和用户 D 相互下过单,他们便是下单关系人。简言之,系统通过多种维度的数据关联不同的用户,这便是关系人图。

  构建模型时,通常要查询某个时点(比如欺诈事件发生前)的关系图,对当时的图进行模型抽取和特征构建,我们称这个过程为图回溯。随着回溯时间点的不同,返回的图数据也是动态变化的;比如某人上午,下午各自打了一通电话, 需要回溯此人中午时间点时的图关系,只会出现上午的电话记录,具体到图,则每类边都具有此类时间特性,每一次查询都需要对时间进行限制。

  对于图回溯场景,最初我们尝试通过HIVE SQL实现,发现对于二阶及以上的图回溯,SQL表达会非常复杂,而且性能不可接受(比如二阶回溯 Hive需要跑数小时,三阶回溯Hive几乎不能实现);因此尝试借助图数据库来实现,把时间作为边rank进行建模,再根据边关系进行筛选来实现回溯。这种回溯方式更直观、简洁,使用简单的API即可完成,在性能上相比Hive也有1个数量级以上的提升(二阶回溯,图节点:百亿级,待回溯节点:10万级)。

)。这个例子是用一种边进行回溯,实际查询中可能会涉及到 2~3 跳,且存在异构边(打电话是一种边,点外卖又是一种边,下单酒店机票是一种边,都是不同类型的边),而这种异构图的数据都具有回溯特征,因此实际的关系人图回溯查询也会变得复杂。

  3.3 实时反欺诈图

  用户下单时,会进入一个快速风控的阶段:通过基于关系型数据库和图数据库的规则进行模型特征计算,来判断这个用户是不是风险用户,要不要对该用户进行下单拦截(实时反欺诈)。

  我们可以根据图关系配合模型规则,用来挖掘欺诈团伙。比如说,已知某个 uid 是犯欺团伙的一员,根据图关联来判断跟他关系紧密的用户是不是存在欺诈行为。为了避免影响正常用户的下单流程,风控阶段需要快速响应,因此对图查询的性能要求非常高(P95 <15ms)。我们基于nebula构建了百亿级的反欺诈图,在查询性能的优化方面进行了较多思考。

  此图 Schema 为脱敏过后的部分图模型,当中隐藏很多建模信息。这里简单讲解下部分的查询流程和关联信息。

  如上图为一次图查询流程,每一次图查询由多个起始点如用户uid、用户mobile等用户信息同时开始,每条线为一次关联查询,因此一次图查询由几十次点边查询组成,由起始点经过一跳查询和2跳查询,最终将结果集返回给风控引擎。

  系统会将用户的信息,转化为该用户的标签。在图查询的时候,根据这些标签,如 uid、mobile 进行独立查询。举个例子,根据某个 uid 进行一跳查询,查询出它关联的 5 个手机号。再根据这 5 个手机号进行独立的 2 跳查询,可能会出来 25 个 uid,查询会存在数据膨胀的情况。因此,系统会做一个查询限制。去查看这 5 个手机号关联的 uid 是不是超过了系统设定的热点值。如果说通过 mobile 查询出来关联的手机号、uid 过多的话,系统就会判断其为热点数据,不进行边结果返回。(二阶/三阶回溯,图点边:百亿级)。

  在上述应用场景中,对于风控关系人图和反欺诈图,由于图规模比较大(百亿点边),查询较多,且对时延要求较高,遇到了一些典型问题,接下来简单介绍一下。

  4.1 查询性能问题

  为了满足实时场景2跳查询p95 15ms需求,我们针对图schema和连接池以及查询端做了一些优化:

  4.1.1 牺牲写性能换取读性能

  首先,我们来看看这样的一个需求: 查询id关联的手机号 ,需要满足对于这个手机号关联边不超过3个。这里解释下为什么要限制关联边数量, 因为我们正常个体关联边数量是有限的,会有一个对于大多数人的p95这样的阈值边数量,超过这个阈值就是脏数据。为了这个阈值校验, 就需要对每次查询的结果再多查询一跳。

  如图(a)所示,我们需要进行2次查询,第一跳查询是为了查询用户id关联的手机号, 第二跳查询是为了保证我们的结果值是合法的(阈值内),这样每跳查询最终需要进行2跳查询来满足。如图给出了图查询的gsql 2步伪码,这种情况下无法满足我们的高时效性。如何优化呢?看下图(b) :

  我们可以将热点查询固定在点属性上,这样一跳查询时就可以知道该点有多少关联边, 避免进行图 a 中(2)语句验证。还是以图 (a)为例,从一个用户 ID 开始查询,查询他的手机号关联,此时因为手机号关联的边已经变成了点属性(修改了 schema),图(a) 2 条查询语句实现的功能就可以变成一条查询 go from $id over $edgeName where

  这种设计的好处就是,在读的时候可以加速验证过程, 节约了一跳查询。带来的成本是:每写一条边,同时需要更新2个点属性来记录点的关联边情况,而且需要保证幂等(保证重复提交不会叠加属性+1),当插入一条边的时,先去图里面查询边是否存在,不存在才会进行写边以及点属性 +1 的操作。也就是我们牺牲了写性能,来换取读性能,并通过定期check保证数据一致。

  4.1.2 池化连接降低时延

  第二个优化手段是通过池化连接降低时延。Nebula 官方连接池每次进行查询均需要进行建立初始化连接-执行查询任务-关闭连接。而在高频(QPS 会达到几千)的查询场景中,频繁的创建、关闭连接非常影响系统的性能和稳定性。且建立连接过程耗时平均需要6ms, 比实际查询时长1.5ms左右高出几倍,这是不可接受的。因此我们对官方客户端进行了二次封装,实现连接的复用和共享。最后将查询p95从 20ms 降低到了 4ms。通过合理控制并发,我们最终将 2跳查询性能控制在p95 15ms 。

  4.1.3 查询端优化

  对于查询端,像3.3中的例图,每一次图查询由多个起始点开始,可拆解为几十次点边查询,需要让每一层的查询尽可能地并发进行,降低最终时延。我们可以先对 1 跳查询并发(约十几次查询),再对结果进行分类合并,进行第二轮的迭代并发查询(十几到几十次查询),通过合理地控制并发,可将一次组合图查询的 P95 控制在 15 ms 以内。

  4.2 边热点问题

  在图查询过程中,存在部分用户id 关联过多信息,如黄牛用户关联过多信息,这部分异常用户会在每一次查询时被过滤掉,不会继续参与下一次查询,避免结果膨胀。而判断是否为异常用户,则依赖于数据本身设定的阈值,异常数据不会流入下一阶段对模型计算造成干扰。

  4.3 一致性问题

  Nebula Graph 本身是没有事务的,对于上文写边以及点属性 +1 的操作,如何保证这些操作的一致性,上文提到过,我们会定期对全量HIVE表数据和图数据库进行check,以 HIVE 数据为准对线上图进行修正,来实现最终一致性。目前来说,图数据库和 HIVE 表不一致的情况还是比较少的。

  基于nebula的图业务应用,完成了对数据血缘、对关系人网络、反欺诈等场景的支持,并将持续应用在金融更多场景下,助力金融业务。我们将持续跟进社区,结合自身应用场景推进图平台建设 ;同时也期待社区版能提供热升级、资源隔离、更丰富易用的算法包、更强大的studio等功能。

我要回帖

更多关于 有没有靠谱的网址 的文章

 

随机推荐