大数据时代,问卷调查问卷数据分析方法是否有存在的必要

对于建筑设计企业来说,我们常常提到【以用户为核心】的设计,一定不能缺少用户研究这一环节,确实,现在的建筑师们逐渐都开始意识到,他们有必要输出一个针对使用者的模型或者用户报告来辅助于设计。以前,无论你做什么设计,前辈们都会告诉你,设计师和科学家不一样,锁在实验室里的,单靠想象力,可出不了什么好设计,一定要走出去,做用户研究。现在大家还会多提三个字:大数据。关于「用户研究」,百度百科里是这么定义的:用户研究的首要目的是帮助企业定义产品的目标用户群、明确、细化产品概念,并通过对用户的任务操作特性、知觉特征、认知心理特征的研究,使用户的实际需求成为产品设计的导向,使产品更符合用户的习惯、经验和期待。简单来说,就是让你的设计尽可能满足企业本身和使用者的双方需求。??大数据与小数据在互联网浪潮尚未到来之前,我们做用户研究,通常是定量的问卷调查、定性的深度访谈、焦点小组等方法来收集用户信息(我们称为“小数据”),进行研究分析但都有一定“拍脑子”下定论的作风,这种根据不完全数据的主观做法,可能会误导设计走向一条不归路。现如今,我们发现用户的个性化需求越加明显,一个在细节上的 Get 或许能让你的设计脱颖而出。为此需要在“小数据”研究的基础上纳入互联大数据,大数据对于市场数据的直观反馈,使得用户研究员在制定产品策略的时候更加的贴近现实市场,更容易产生成功的产品,做更精准的设计,使其产品策略既能正确适应大众市场又能满足用户个性化需求。比方说,我们设计一款杯子,可以从以下多个方面应用大数据:1、由市场反推产品机会传统的用户研究及产品设计通常单从用户需求和痛点出发,由设计师通过设计解决用户需求完成设计,并由研发选好工艺材料后评估成本,并以某种方式推向市场。此种方式对产品在制定价格策略时存在较强的被动性。而大数据的运用使的我们可以快速研究一遍市场情况,我们可以借助大数据检索工具,做出价格与造型,价格与销量的分析图。你会发现,原来价格在 25-85 元的杯子销量最好,而这个价格的杯子市场普遍是这样的造型和功能,那我们在制定产品策略的时候可以更有针对性。这些产品特征也对接下来的设计阶段有很好的指导意义,结合用户需求,建筑设计师可以通过差异化设计来区别同类产品,并且在这个分段中脱颖而出。2、给予设计师一些设计规范LKK 洛可可互联网用户大数据产品事业部总经理张欢曾表示,她带领的用研团队在做杯子的大数据研究时,惊人的发现 90 后喜欢的杯子,85 后一定会喜欢,但是 85 后喜欢的杯子,90 不一定会喜欢。产品需要找到自己的核心用户,用户研究需要输出用户画像,以往我们通常会根据深访结论直接拟定一个感觉对的人群就开始设计,那现在我们可以通过大数据,精准找到产品目标用户群体,这样一来,研究就变得有意义了。而这也是互联网大数据对于设计而言最明显的益处。建筑师在做设计的阶段一般都特别喜欢想象单体呈现的样子,而理性的大数据能给予设计师一些设计规范,打破这个右脑意淫出来的想法,感性与理性共存。3、发现使用者对产品的关注点和兴趣点如果是在一般的产品销售领域,我们通过对电商平台的评论、论坛观点、用户评测及相关新闻等内容的自然语言分析,可以进一步得到使用者对于产品的关注点。比如,在电商评论中,66 元以下的保温杯大众评论中,更多的是集中于水杯味道、色差、掉漆现象、漏水拧盖声音等问题,而与高价格段评论相比,其反馈的以漏水问题高于味道问题。在低价格段如果我们产品能合理的解决这些问题即可获得用户的好评,同时在高价格段产品中出了解决异味问题还需着力解决漏水问题。由此可见,互联网评论更直观的反馈了使用者对于他们所体验过的或即将要体验的空间的关注点和需求点。这对用户定型研究和设计的定量标准,甚至后期的产品营销都有着及其重要的指导意义。??大数据从何而来?1、巧妙的利用互联网工具,如百度指数、淘宝指数、阿里指数、微指数等公开数据平台;2、购买深度定制化的市场数据,如淘宝生意参谋,第三方电商数据平台,如京拍档、魔镜等;3、与大数据相关的第三方公司合作,如华院数据,协助我们做数据检索与呈现,帮助我们做用户相关评论检索分析;4、打开互联网社交入口,如腾讯、新浪等 ;5、充分利用自身数据,搭建专属于自己的数据库,比如洛可可正在搭建属于洛可可的12年数据库;6、搭建共享资源渠道,链接客户与客户的资源,实现数据共通,达到共赢的目的;从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户「口味」的产品和服务,并结合用户需求有针对性地调整和优化自身,就是大数据的价值,设计师应该学会和懂得利用大数据,做「以用户为核心」的设计。(以上图片均为刘晔本人拍摄)— 刘晔 —行走在城市产业顶端的思想践行者
建筑类文章及设计类文章编写宣传
新华社客户端依托国家通讯社遍布全球的新闻信息采集网络,全天候发布一手新闻资讯。
中国网,呈现一个真实的中国
中国青年网,日正式开通,共青团中央主办的中央重点新闻网站,是国内最大的青年主流网站。
日常生活中的百科、文艺背后的历史,热点深处的冷知识。用轻幽默、有情趣的方式一起涨姿势、正三观。
站立在时代前沿的晨报人和所有新闻工作者一样,为社会发展鼓与呼。面对着一个变革中的社会,一个高速发展的时代,晨报人恪守着新闻职责;从小处着手,每一段文字、每一个标题、晨报人都兢兢业业不敢丝毫懈怠。
(C) 2016 今日头条 违法和不良信息举报电话:010-公司名称:北京字节跳动科技有限公司大数据应用及其分析:传统市场研究的几点价值
关注IDC评述网官方微信:idcps-com 新浪微博:
大数据这个概念近来一直受到关注。大数据并非一个确切的概念,这个概念一方面指数据体量巨大,超出一般电脑所处理数据量几个级别;另一方面也指处理的数据类型多样化,远远超出传统数据格式和分析工具能处理的范畴。也有观点指大数据是指不用抽样方法得到的数据。在这篇文章中,我从社会学科研究方式发展的角度来阐述大数据的影响,以及大数据和市场研究的相互关系。
第一次数据化的影响&&&定性研究和定量研究
市场研究是一门应用社会学的学科,一个基本的分类就是定性研究和定量研究。简单地说,定量研究一定有数字分析,定性研究没有数字分析。大多数研究人员也各自站队为定量研究人员和定性研究人员。我们先来讨论一下这样划分的本质是什么。
在几乎所有社会科学的学科中,最一开始的数据都是非数字的。比如,我们去做问卷调查询问被访者,你家有汽车吗?如果有,我们打一个勾。在把这些答案转化为数据之后,我们可以计算有多少比例的被访者有汽车等等。这个把非数字的信息数字化的过程,我们称之为数据化。这个过程在本质上同把声音数字化和图像数字化的过程并没有区别。
因此,数据的本质都是定性的。研究人员可以选择直接处理定性数据,也可以选择多走一步数据化后处理定量数据。没有哪一种方法在本质上更好。事实上,两种方式都产生了伟大的研究。(由于篇幅限制,这里不举例说明了。)
但在现实中不容否认的是,定量研究似乎享受更高的社会地位。在西方各个社会学科定量研究发展的初期,定量研究常常和具备高级数量分析技巧的和相应工作语言的年轻博士挂钩,定量研究被认为是未来,校园里许多年老的教授和研究者困惑不已并感受到压力。许多大学都大力投资来支持定量研究,Departments of Government 被改名为Departments of Political Sciences, Departments of Speech 被改名为Departments of Communication, 即便名字没改,研究的内容已经发生变化了,社会学科转向定量研究的风潮可见一斑。那个时候年轻学者对数据的兴趣和痴迷不低于今日。归其原因,一方面由于测量理论的发展,许多研究主体数据化,定量研究从科学发展的浪潮中受益了;另一方面电脑的发展也促成了这个变化。
当电脑开始在美国大学变得不那么神秘的60年代初期,它们是不适合社会科学研究的,电脑的应用是围绕着物理科学来进行的。物理科学通常要求在很小的数据量上进行非常复杂的运算,而社会科学通常的数据量很&大&。那个时候物理科学可以拿到很多的资助,所以大部分软件和程序都是围绕物理科学开发的。直到60年代末期才出现比较强大的为社会科学研究而设计的分析软件。
70年代末的个人计算机的出现让社会科学定量研究看到了普及的希望。微型化的、能支付的起的电脑已经足够强大,可以做很多常规分析,但是它们不能处理&大&数据。碰到大的数据样本,只能手动的去计算,直到八十年代的微型电脑内存技术有了革命性的变化。新型电脑不仅能进行大样本的简单处理和分析,而且能进行复杂的运算,比如因子分析,最小空间分析等等。一个定量研究者和一台微型电脑所做的分析,就能轻易超过以前一个团队和一个机房才能做的分析。
于是,微型电脑给定量研究带来了我们所能看见的明显优势。然而,微型电脑给定性研究也带来了同样的优势,只是我们不太注意罢了。比如,以前我们做定性研究访问的时候,一般就是记笔记。现在我可以带着我的个人电脑现场记录,也可以轻松地剪辑录像仔细解读。当我们写定性报告的时候,现在可以很轻松的检索信息,旁引博证,插入图片等,还可以轻松的把文字和其它信息挪动。互联网也使得远程图书馆发展起来,对定性研究的帮助也是一日千里。
你或许觉得电脑在定性研究上的应用比起定量研究来太苍白了,但是我们仔细想一想,电脑对定量研究的贡献不也是让研究者轻松地去做过去能做但很费时费力的分析工作吗?
虽然性质相同,但定性研究和定量研究其实有自己不同的优势和劣势,他们完美的互补。一个好的研究人员应该对定性和定量都不陌生,当碰到实际问题的时候,应该能同时考虑定性和定量的选择。定性和定量都需要特殊的训练,现实中一个人精力和时间是有限的,我们也总想擅长点什么,所以偏向定性或定量就顺理成章了。但我们必须警惕专业化中潜伏的危险:定量人员会经常把统计分析的表面结果当成一切,定性人员也会经常把观点当成观察,把感觉当成发现。
时间已经证明,定性方法并没有被淹没在数据化的浪潮中。相反,定性方法和定量方法在生活中处处体现,他们或者平行或者交叉,不可分离。我们可以用数字形容汽车的速度,但不能用数字描述一个孩子的可爱。另一方面,我们知道一个人的捐赠大小是不足以测量一个人善心的,但是他们之间也不是没有关系;我们知道有高度不代表你能打篮球中锋,但没有高度你是万万不行的。定性和定量,你中有我,我中有你。
如果我们把六、七十年代数据化带给社会学科研究方法的变化 ¾ 定量研究和定性研究的分野和发展,看作是第一次数据化浪潮冲击的话,那么大数据将会给社会科学研究方式带来第二次冲击。
大数据及其分析
如今大数据带给我们社会科学研究者的两难境地就如同以前数据化带给定性研究者的两难境地一样。一方面,稍微一点想象,所有事物都可能转化为数据形式,并且给我们带来冲击。把世间万物转化为数据的需求来源于人类测量、记录和分析世界的渴望(舍恩伯格和库克耶 2013)。另一方面,我们面对大数据,却缺少分析大数据的思路、方法、甚至工具。所以不奇怪的是现在的很多社会学科研究者采取抽样的方式来分析大数据。
过去定量研究的一个关键支柱是抽样理论。过去由于获得数据的昂贵,我们倾向于用最少的数据量获得最多的信息,抽样省时省力省钱;而且由于技术分析手段的局限性,我们也只能处理分析&小数据&。那如何保证抽样的结果能比较客观的代表总体呢?依据所研究的问题,满足随机抽样(经典抽样)或最优抽样的标准,就能最大限度的保证精确性。抽样理论实际上获得了巨大成功,成为现代社会、现代测量领域的支柱。
抽样数据相比全体数据是在不可收集和分析全部数据的情况下的选择。在数据成本越来越低的时代,促使我们来使用样本数据的经济原因已经被撼动。另外,样本数据的成功取决于抽样的随机性,但在抽样的实际工作中保证随机性是非常困难的。我们市场研究的同事都知道,当前无论采用什么方法做抽样,比如电话,入户,街头拦截等等,有一系列的操作上的障碍使你无法保证样本的随机性。祝建华教授在一次讨论中提到,如果抽样的对象很复杂,比如&网络&,那么根本找不到一个最优抽样的判断标准,更不可能奢求以抽样求得的小网络能反映大网络的情况。
另一个我们不主张使用样本数据来研究大数据的理由是,样本数据会给我们的分析方法带来困惑和障碍。举个例子,我们做回归分析的时候,变量之间的多元共线性是一个严重干扰我们估计Beta的因素。但是当样本扩大到非常大的时候,这个影响趋于零。这一点无论是通过模拟数据还是真实数据都得到了验证。我们有文章在AMA的会议上发表。
样本数据一旦收集完成,它的应用就相应的缺乏延展性。比如,我们难以或者不可以重新分析这些数据以验证计划之外的想法;当我们的分析单位越来越小的时候,样本数据的错误率变得越来越高,因为落到一个分析单位上的样本量越来越小;样本数据常常不能帮助我们完成对异常或小概率事件的分析,而发现和预测这些小概率事件常常是数据分析的一个重要目的。
那么,大数据研究的目的是什么呢? 通常在社会科学领域中,我们的研究目的是发现和验证事物之间的因果关系,然而发现和分析因果关系是非常困难的一项任务。例如一个14岁的初中学生跳楼了,是什么原因导致他这种行为呢?媒体对其他青少年相似行为的报导?社会大环境所致?学校功课的压力?家庭不和睦?个人心理状态?和同学吵架之后的过激念头导致?&&我们可以列出上百种可能的因素,因为社会现象之复杂,各种事物之间确实有存在着千丝万缕的联系。我们当然很容易说这些因素都有可能是原因,也可以简而化之说学校压力是主因,但这些表述对我们没有任何价值。
因果关系的成立是有一系列严格条件的。在各社会学科研究中,我们通常从建立假设开始,然后进行实验设计和抽样,通过对比检验,这个假设或者成立或者被推翻。所建立的假设通常来源于定性研究、理论、其它研究或者灵感。即便假设成立,因为抽样的原因和其它因素,也要明确其适用范围,整个过程费时费力。美国著名社会学家厄尔&芭比博士曾经指出,社会科学研究结果的最佳表述方式是概率,是相关关系,而非因果关系。这一点与舍恩伯格在《大数据时代》中提倡的&转向相关关系&分析有异曲同工之妙。
舍恩伯格提倡在大数据的分析中,人们应该从对于因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上来。只要发现了事物之间的相关关系,那么就已经能产生巨大的经济和社会效益。他通过实际的案例说明,大数据和相关分析的结合已经产生了许多巨大的发现,并且由于数据大,能够令我们更有机会发现有价值的局部相关关系。
在小样本时代,数据稀缺,所以我们首先追求数据精确,其次追求结果精确。但大数据时代,数据之杂,不可能精确,追求数据的精确就会导致我们寸步难行,数据不精确会成为一个常态,也是世界的本质。数据不精确,结果也很难&精确&。但机器学习理论和实践都证明,允许数据的混杂和不精确,我们分析所得出的结论才更有延展性和外部适用性。
因为大数据中很大比例是文本数据,分析的很大障碍是机器的语义分析能力。只有具备了一定的语义分析能力,机器分析才有价值,文本形式的大数据才能得到有效分析。目前的大多数语义分析能力都是采用有监督的机器学习。机器学习包括训练集的质量,训练集规模和机器学习算法,训练集的质量是可以采用人工标注的方式来提高。此外,对市场研究而言,品类知识也是需要机器事先储备的。
可以想象,未来云计算和云储存的普及,大数据分析方法的发展以及针对大数据的智能软件的开发,将会为个人处理分析大数据提供必要的物质条件,就如同七、八十年代微型计算机、内存和相应软件的开发会为定量研究带来的变化一样。
大数据时代传统市场研究的价值
大数据带来的数据化浪潮已经触动市场研究的每一个人。Joan Lewis,宝洁全球客户和市场知识官, 2011年ARF的演讲中呼吁要让社会化媒体的大数据应用于市场研究。她讲到了以下几点:
数据的丰富性和自主性
社会化媒体数据包含了消费者的购买习惯,用户需求,品牌偏好等,且都是消费者自愿表述的对产品满意度和质量问题的想法,充满了情感因素,我们无需费尽心思的引导消费者参与调查问卷
&减少研究的&未知&视角
市场问卷调查有其固有的局限性,那就是你必须明确你的问题是什么。问卷设计者本身有未知的方面,所以在设计问题时会忽略自己的&未知&,但这些&未知&很有可能就是消费者所需要的方面
数据的实时化的特征
不同于以往的发放回收市场调研报告再解决消费者问题,如今可以使营销人员快速发起营销活动,第一时间测试营销新方法,同时可以第一时间确认理解和追踪消费者的反馈
数据的低投入特征
&传统的市场调研方式费工费时,结合社会化媒体的市场调研则是低投入高回报的产业。使用正确的调研产品和方法便可以对消费者群体的用户习惯和反馈进行透彻分析。运用社会化媒体监测软件帮助企业在线倾听消费者意见,评估获取其见解。
市场研究的使命是揭示消费者视角,为企业提供有价值的洞察和支持企业做出有意义的决策。从这个意义上来说,每一个市场研究人员都应该为社会化媒体平台和数据欢呼,因为它弥补了问卷数据一些方面的不足。(你是不是经常会发现,当我们从事另一个领域的工作时,才会意识到原来工作方法的不足和优点。)另一方面,针对社会化媒体数据分析的新兴公司确实对传统的市场研究公司形成竞争和挑战。
竞争的最大压力是传统的市场研究还没有适应社会化媒体大数据时代的研究体系。正如Joe Tripodi (可口可乐营销副总裁)在《哈佛商业评论》(2011年4月)上指出的,&在印象时代,通过问卷询问方式获取的知名度,使用率,认知度等衡量品牌健康的指标体系,在消费者表达的时代就未必适用。因此,从品牌建设效果衡量的角度,也需要一套适应消费者表达时代的指标体系。&同时,尽管对大数据的整合与分析才刚刚起步,但已经有了一系列令人耳目一新的发现和应用。无数的案例和论著都指出,大数据的整合和分析,其前景和应用不可限量。
传统的市场研究的价值在哪里?或者说,其应该坚守什么才更有价值?
坚持深度&&&&
坚持基于人类本性的研究框架(陈富国,MetaThink的CEO,2012在CMRA会议上的演讲)。人的行为和态度归根结底是人的本性来决定的,坚持对人类本性的研究才能更好的帮助我们深度理解人类行为模式,以及动察人类行为的变迁。加强对生活本质、生活价值和生命认知的理解,加强对于&意义、&需要&、&体验&和&情感&等等人类内部语言和图式的挖掘。机器不但缺乏&体验&和&情感&,而且缺乏对&意义&和&需要&的理解。由于人类本身具有的抽象思维和语言文本分析能力,正能达到我们在此一领域所需要的深度。
坚持人与自然,人与社会的研究广度。人类的行为模式是在与自然环境和社会环境的互动中演进的,演进的过程复杂而又有趣。加强对于&个人与群体&,&群体与群体&等等社会群体内部形式和意义的挖掘。互联网已经深刻地改变了人类的群体构成方式(Hayes 2010),而对其意义的思考和挖掘才刚刚起步。
坚持实验设计&
&实验设计的本质是&控制&。在半人工的环境里我们控制一些因素来测试这些因素的影响和结果,这种研究常被用来探究营销和产品元素的影响。这种方法直接,且非常有效果。例如基于实验设计的联合分析,具有坚实的科学依据,它主要以实验设计科学和数学心理学为基础。到目前为止,联合分析已经发展成为一种含有多种方法的体系,并改变了许多企业的新产品开发过程和市场战略。许多出色的产品,比如麦斯威尔咖啡,拍宝面酱,Courtyard酒店等等,都是联合分析的产出。除此之外,联合分析方法在统计学上的严谨性和灵活性也受到其它领域从业人员和学者的关注,并被大量应用于交通研究、政府政策、医学、经济学以及政治科学等领域。
&坚持模型化
模型,简单的说,就是一种事物之间联系和运作的方式。开发模型(探索事物之间的联系和运作方式)是一个非常艰苦的过程,但一旦模型成立,却能极大的简化人们的思维和决策过程。营销人员在繁杂的运作中,需要找到营销元素之间的关联,市场研究要坚持能立足于这一点。
坚持发展测量工具&
市场研究本质就是测量,但测量需要测量工具和方法。营销在目前有许多相对抽象的概念,没有对这些概念以及概念之间关系的测量,就没有营销大的发展,比如品牌资产,购买意向等等。
坚持这些原则和方法并不排斥社会化媒体和大数据。
恰恰相反,社会化媒体为我们提供了观察和理解消费者互联网生活的平台,毕竟互联网已经成为年轻消费者生活的一个重要组成部分。大数据的分析可能会把许多以前看似不相关的变量联系起来,这种联系会为我们更好的洞察消费者提供线索和引领,也会为我们开发数理模型提供更多的变量和思路。
回顾历史,我们意识到第一次数据化(&大&数据)浪潮带给社会科学研究方式的影响和变化;思考现在,我们充分理解大数据(第二次数据化)浪潮带给我们社会科学研究者的困惑、迷茫和不解,伴随着震撼、惊喜和欢呼;展望未来,我们深信市场研究正处在量变通往质变的道路上。
相关热词搜索:
延伸阅读:
24小时点击排行大数据时代问卷是否有存在的理由_百度知道
大数据时代问卷是否有存在的理由
我有更好的答案
肯定是有的呀,可以更好的掌握大家的需求之类的
为您推荐:
下载知道APP
随时随地咨询
出门在外也不愁您的 IP 地址/地理位置:220.177.198.53江西&&吉安&&联通
当前位置: &
大数据时代:如何通过数据建模方法为用户画像? 16:10:33&|&编辑:王新星&|&查看:&|&评论:
经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。
从1991年的万维网开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了&大数据时代&。经历了这两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深入,一个概念悄然而生:用户画像(UserProfile),完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。
一、什么是用户画像?
男,31岁,已婚,收入1万以上,爱美食,团购达人,喜欢红酒配香烟。
这样一串描述即为用户画像的典型案例。如果用一句话来描述,即:用户信息标签化。
如果用一幅图来展现,即:
二、为什么需要用户画像
用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如,可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少?
也可以做数据挖掘工作:利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢红酒的人年龄段分布情况?
大数据处理,离不开计算机的运算,标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够&理解& 人。当计算机具备这样的能力后,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。
三、如何构建用户画像
一个标签通常是人为规定的高度精炼的特征标识,如年龄段标签:25~35岁,地域标签:北京,标签呈现出两个重要特征:语义化,人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如,判断用户偏好。短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。
人制定标签规则,并能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即:用户标签,向我们展示了一种朴素、简洁的方法用于描述用户信息。
3.1 数据源分析
构建用户画像是为了还原用户信息,因此数据来源于:所有用户相关的数据。
对于用户相关数据的分类,引入一种重要的分类思想:封闭性的分类方式。如,世界上分为两种人,一种是学英语的人,一种是不学英语的人;客户分三类,高价值客户,中价值客户,低价值客户;产品生命周期分为,投入期、成长期、成熟期、衰退期&所有的子分类将构成了类目空间的全部集合。
这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景,业务需求的不同,也许各有道理,按需划分即可。
本文将用户数据划分为静态信息数据、动态信息数据两大类。
静态信息数据
用户相对稳定的信息,如图所示,主要包括人口属性、商业属性等方面数据。这类信息,自成标签,如果企业有真实信息则无需过多建模预测,更多的是数据清洗工作,因此这方面信息的数据建模不是本篇文章重点。
动态信息数据
用户不断变化的行为信息,如果存在上帝,每一个人的行为都在时刻被上帝那双无形的眼睛监控着,广义上讲,一个用户打开网页,买了一个杯子;与该用户傍晚溜了趟狗,白天取了一次钱,打了一个哈欠等等一样都是上帝眼中的用户行为。当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞&双十一大促给力&的微博消息。等等均可看作互联网用户行为。
本篇文章以互联网电商用户,为主要分析对象,暂不考虑线下用户行为数据(分析方法雷同,只是数据获取途径,用户识别方式有些差异)。
在互联网上,用户行为,可以看作用户动态信息的唯一数据来源。如何对用户行为数据构建数据模型,分析出用户标签,将是本文着重介绍的内容。
3.2 目标分析
用户画像的目标是通过分析用户行为,最终为每个用户打上标签,以及该标签的权重。如,红酒 0.8、李宁 0.6。
标签,表征了内容,用户对该内容有兴趣、偏好、需求等等。
权重,表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单的理解为可信度,概率。
3.3 数据建模方法
下面内容将详细介绍,如何根据用户行为,构建模型产出标签、权重。一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间,什么地点,做了什么事。
什么用户:关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。
以上列举了互联网主要的用户标识方法,获取方式由易到难。视企业的用户粘性,可以获取的标识信息有所差异。
什么时间:时间包括两个重要信息,时间戳+时间长度。时间戳,为了标识用户行为的时间点,如,(精度到秒),.083612(精度到微秒),通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。浏览器时间精度,准确度最多也只能到毫秒。时间长度,为了标识用户在某一页面的停留时间。
什么地点:用户接触点,Touch Point。对于每个用户接触点。潜在包含了两层信息:网址 + 内容。网址:每一个url链接(页面/屏幕),即定位了一个互联网页面地址,或者某个产品的特定页面。可以是PC上某电商网站的页面url,也可以是手机上的微博,微信等应用某个功能页面,某款产品应用的特定画面。如,长城红酒单品页,微信订阅号页面,某游戏的过关页。
内容:每个url网址(页面/屏幕)中的内容。可以是单品的相关信息:类别、品牌、描述、属性、网站信息等等。如,红酒,长城,干红,对于每个互联网接触点,其中网址决定了权重;内容决定了标签。
注:接触点可以是网址,也可以是某个产品的特定功能界面。如,同样一瓶矿泉水,超市卖1元,火车上卖3元,景区卖5元。商品的售卖价值,不在于成本,更在于售卖地点。标签均是矿泉水,但接触点的不同体现出了权重差异。这里的权重可以理解为用户对于矿泉水的需求程度不同。即,愿意支付的价值不同。
矿泉水 1 // 超市
矿泉水 3 // 火车
矿泉水 5 // 景区
类似的,用户在京东商城浏览红酒信息,与在品尚红酒网浏览红酒信息,表现出对红酒喜好度也是有差异的。这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。
所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。
什么事:用户行为类型,对于电商有如下典型行为:浏览、添加购物车、搜索、评论、购买、点击赞、收藏 等等。
不同的行为类型,对于接触点的内容产生的标签信息,具有不同的权重。如,购买权重计为5,浏览计为1
红酒 1 // 浏览红酒
红酒 5 // 购买红酒
综合上述分析,用户画像的数据模型,可以概括为下面的公式:用户标识 + 时间 + 行为类型 + 接触点(网址+内容),某用户因为在什么时间、地点、做了什么事。所以会打上**标签。
用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:
标签权重=衰减因子&行为权重&网址子权重
如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。
标签:红酒,长城
时间:因为是昨天的行为,假设衰减因子为:r=0.95
行为类型:浏览行为记为权重1
地点:品尚红酒单品页的网址子权重记为 0.9(相比京东红酒单品页的0.7)
假设用户对红酒出于真的喜欢,才会去专业的红酒网选购,而不再综合商城选购。
则用户偏好标签是:红酒,权重是0.95*0.7 * 1=0.665,即,用户A:红酒 0.665、长城 0.665。
上述模型权重值的选取只是举例参考,具体的权重值需要根据业务需求二次建模,这里强调的是如何从整体思考,去构建用户画像模型,进而能够逐步细化模型。
四、总结:
本文并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。
核心在于对用户接触点的理解,接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减,决定了权重模型是关键,权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商,但其实,可以根据产品的不同,重新定义接触点。
比如影视产品,我看了一部电影《英雄本色》,可能产生的标签是:周润发 0.6、枪战0.5、港台 0.3。
最后,接触点本身并不一定有内容,也可以泛化理解为某种阈值,某个行为超过多少次,达到多长时间等。
比如游戏产品,典型接触点可能会是,关键任务,关键指数(分数)等等。如,积分超过1万分,则标记为钻石级用户。钻石用户 1.0。
百分点现已全面应用用户画像技术于推荐引擎中,在对某电商客户,针对活动页新访客的应用中,依靠用户画像产生的个性化效果,对比热销榜,推荐效果有显著提升:推荐栏点击率提升27%, 订单转化率提升34%。
相关阅读:
搜索"raincent"或扫描下面的二维码

我要回帖

更多关于 调查问卷原始数据下载 的文章

 

随机推荐