年报季已结束,港股年报尚能饭否

  编者按:近期港股热出现了退潮。溢价从低位反弹接近6%,南下资金的净流入量较3月中上旬也出现了明显回落。  在季结束的这个时点,港股究竟还有没有吸引力?尤其是考虑到全球资金风险偏好出现回落,地缘政治风险抬升的大背景,作为传统上对风险较为敏感的港股市场,下一步会如何表现?  文章:港股尚能饭否?——节后盘前,细说估值  来源:云峰金融  近期港股热出现了一定程度的退潮。尽管从指数来看跌幅不大,恒生指数本月还微涨0.6%,但从市场热情来看出现了降温,主要体现在两个方面。  A溢价从低位反弹接近6%,重新回到了120的水平,与去年九月持平。    南下资金的净流入量较3月中上旬出现了明显回落,从单日平均20亿人民币回落至了10亿人民币。    站在年报季结束的这个时点,港股究竟还有没有吸引力?尤其是考虑到全球资金风险偏好出现回落,地缘政治风险抬升的大背景,作为传统上对风险较为敏感的港股市场,下一步会如何表现?  上周我们试图用可视化的方式汇总了年报季的诸多(详见《港股年报季,数据大公开》),从中得到的结论是喜忧半参的,一方面微观层面的公司业绩确实有了一定的回暖迹象,但另一方面市场估值已经大不如去年初那样的便宜。  如果不考虑短期风险偏好的因素,我们认为对于长线资金来说,港股的吸引力最终还是要落脚在基本面。我们试图全方位的考察港股,尤其是港股通标的目前的估值水平,希望为投资者提供参考。  三个维度的估值分析  作为一个完整的估值体系分析,至少应该包含三个维度:  第一,基于历史纵向比较的估值水平,包括P/E,P/B,P/FCF,股息率等方面;  第二,考虑盈利增长后的估值水平,包括盈利一致预期(EPS Estimate Consensus)的变化、PEG和动态估值等;  第三,与其他市场的估值比较。对国内资金来说,至少可以在A股和港股间进行选择,而全球资金的配置范围更广。  此外,我们的分析样本主要选择了港股通内的公司,一方面因为这一样本涵盖了港股市场的主流投资标的,另一方面也会让分析结果对国内投资者更具参考意义。  从股价涨幅来看,港股通指数今年持续跑赢恒生和恒生国企指数,也反映出市场对其中公司的关注度高于其他标的。  ,云锋金融整理  港股通标的估值已脱离低点  如果从静态水平来看,2017年年报季后的静态PE为16.4倍,相比去年年报季后的14倍有明显的提升,也接近了2015年的16.7倍。而如果剔除低估值的金融行业之后,港股其余行业的静态市盈率事实上已经超过了2015年的高点,达到22.2倍。  注:剔除负值和高于100的异常值,采用市值加权  ,云锋金融整理  如果看静态市净率,目前2.22倍的水平较去年的绝对低点有所抬升,但仍低于年。如果剔除掉金融行业,则与年的高点接近。  注:剔除负值、高于100的异常值,采用市值加权  ,云锋金融整理  市现率情况也是类似,但相较年高点距离更远。这显示目前港股通公司整体现金流情况较好,与去年货币宽松的大环境有关。  注:剔除负值、高于1000的异常值,采用市值加权  ,云锋金融整理  股息率方面,过去五年则一直处于区间波动的状态,但考虑到无风险利率在过去一年有所抬升,因此目前的股息率吸引程度相较去年明显下降。  ,云锋金融整理  估值底部抬升,金融房地产仍是低估“重灾”区  如果对港股通中估值最低的十家公司进行逐年统计,可以看出最近五年以来的估值底部一直处于抬升状态。  注:扣非P/E是指扣除非经常性损益的P/E,下同  ,云锋金融整理  这一抬升是股价上行还是盈利下行造成的呢?以过去三年的榜单上都出现的个股——宝龙地产(1238.hk)为例,可以看出估值上升的主要推动力在于股价而非盈利下滑。这也反映出市场对低市盈率个股有明显的偏好。  ,云锋金融整理  如果拆分低估值榜单中的行业属性,可以看到过去三年金融和房地产一直是最被低估的行业,但金融行业低估程度在逐年好转,这与去年一年来南下资金的巨额流入有关。  ,云锋金融整理  小结一下,从历史的纵向比较来看,港股通标的估值已然不低,尽管相较年的高点尚有距离,但和2016年相比有了相当程度的修复。  但估值不能脱离盈利单独考量,毕竟比起目前有多便宜,股市投资者更关注未来的增长。那么考虑盈利情况后的估值又如何呢?  去年盈利增长略不及预期,但市场对今年保持乐观  如果将本次年报季的结果和市场之前的一致预期作对比,可以看到业绩不及预期的公司比例高于业绩超预期的公司,其中主要是金融行业拖了后腿,该行业业绩超预期的公司只占15%。而与之相对的是,信息技术、房地产和工业企业中业绩超预期的比例较高。  注:业绩超预期和不及预期分别指净利润高于或低于市场一致预期3%及以上  ,云锋金融整理  如果向前看盈利增长,为了方便与过去两年情况进行对比,我们取近似于港股通成分的MSCI China作为考察对象。市场对今年MSCI China的盈利增长相较过去两年乐观一些,2017年的盈利预测在今年以来迎来了一波上调,而过去两年的同期,盈利预测还是继续下调的。  资料来源:高盛  考虑盈利增长之后的估值较为合理  先看PEG(即动态市盈率/预期盈利增长),在剔除亏损和盈利负增长的公司之后,剩下的260家港股通公司中,有150家PEG小于1,显示估值较为合理。  ,云锋金融整理  再看动态估值。为了和历史比较,我们依然拿MSCI China作为近似的考察对象。根据高盛的最新报告,目前MSCI China的动态市盈率在十年均值附近,但如果剔除银行业,已经较均值高了0.5个标准差。动态市净率则好很多,即使剔除银行业,也仍在十年均值附近。但无论如何,与一年前市净率跌破08年金融危机低点时比,市场估值已经出现了不小的修复。  资料来源:高盛  港股通在全球市场中估值合理,但相较A股不再有优势  最后,如果将港股通的估值与全球其他主要市场进行对比,可以看到其处于中性位置。而恒生国企指数由于存在大量的低估金融股,因此仍是最便宜的指数。若将港股通与沪深300相比,已不具有估值优势。因此,尽管考虑到资金配置需求以及部分行业和公司的估值差异,南下资金仍将继续进入港股市场,但就港股通整体而言,对南下资金的吸引力不再像过去那么巨大。  ,云锋金融整理  总而言之,通过上述分析,我们认为经过前场的大幅上涨,以港股通标的为代表的港股市场在过去一年中完成了一定的估值修复,整体估值水平明显提升。接下来的港股走势,可能更多取决于盈利增长的势头能否保持。市场目前预计下半年经济增速会回落,从而影响企业盈利前景。若实际情况优于这一预期,则港股仍有较大的上行空间。  此外,短期市场的不确定性正在增加,境内外宏观基本面和地缘政治恶化导致的风险偏好回落和南下资金降温都会对短期港股市场造成压力。
责任编辑:zqn
回复0条,有0人参与
以下网友评论只代表同花顺网友的个人观点,不代表同花顺金融服务网观点。
资金流入/万
同花顺财经官方微信号
手机同花顺财经
炒股必备&同花顺财经
同花顺爱基金
您有什么问题想要告诉我们?
留下您的联系方式,以便我们向您反馈结果
提交成功,感谢您的支持!违法鸟市何以存在
北京新增宅地仅390万m2
业界预判楼市谷底已过
行书潮中的王国宇
誓不罢休!逮捕维基解密创始人阿桑奇成美首要任务
《蓝精灵:寻找神秘村》影评:观众不会一再
争议白酒估值泡沫 1/3贵州茅台换来整个电影业
接受PR>=1、BR>=1,流量相当,内容相关类链接。在10个鸡蛋上坐了3星期后,终于成功孵化出第一颗鸡蛋。
但礼仪小姐、导购小姐依然是场内的一道风景线。
声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
  编者按:近期港股热出现了退潮。AH股溢价从低位反弹接近6%,南下资金的净流入量较3月中上旬也出现了明显回落。
  在年报季结束的这个时点,港股究竟还有没有吸引力?尤其是考虑到全球资金风险偏好出现回落,地缘政治风险抬升的大背景,作为传统上对风险较为敏感的港股市场,下一步会如何表现?
  文章:港股尚能饭否?――节后盘前,细说估值
  来源:云峰金融
  近期港股热出现了一定程度的退潮。尽管从指数来看跌幅不大,恒生指数本月还微涨0.6%,但从市场热情来看出现了降温,主要体现在两个方面。
  AH股溢价从低位反弹接近6%,重新回到了120的水平,与去年九月持平。
  资料来源:Wind
  南下资金的净流入量较3月中上旬出现了明显回落,从单日平均20亿人民币回落至了10亿人民币。
  资料来源:Wind
  站在年报季结束的这个时点,港股究竟还有没有吸引力?尤其是考虑到全球资金风险偏好出现回落,地缘政治风险抬升的大背景,作为传统上对风险较为敏感的港股市场,下一步会如何表现?
  上周我们试图用可视化的方式汇总了年报季的诸多数据(详见《港股年报季,数据大公开》),从中得到的结论是喜忧半参的,一方面微观层面的公司业绩确实有了一定的回暖迹象,但另一方面市场估值已经大不如去年初那样的便宜。
  如果不考虑短期风险偏好的因素,我们认为对于长线资金来说,港股的吸引力最终还是要落脚在基本面。我们试图全方位的考察港股,尤其是港股通标的目前的估值水平,希望为投资者提供参考。
  三个维度的估值分析
  作为一个完整的估值体系分析,至少应该包含三个维度:
  第一, 基于历史纵向比较的估值水平,包括P/E,P/B,P/FCF,股息率等方面;
  第二, 考虑盈利增长后的估值水平,包括盈利一致预期(EPS Estimate Consensus)的变化、PEG和动态估值等;
  第三, 与其他市场的估值比较。对国内资金来说,至少可以在A股和港股间进行选择,而全球资金的配置范围更广。
  此外,我们的 分析样本主要选择了港股通内的公司,一方面因为这一样本涵盖了港股市场的主流投资标的,另一方面也会让分析结果对国内投资者更具参考意义。
  从股价涨幅来看,港股通指数今年持续跑赢恒生和恒生国企指数,也反映出市场对其中公司的关注度高于其他标的。
  资料来源:Wind,云锋金融整理
  港股通标的估值已脱离低点
  如果从静态市盈率水平来看,2017年年报季后的静态PE为16.4倍,相比去年年报季后的14倍有明显的提升,也接近了2015年的16.7倍。而如果剔除低估值的金融行业之后,港股其余行业的静态市盈率事实上已经超过了2015年的高点,达到22.2倍。
  注:剔除负值和高于100的异常值,采用市值加权
  资料来源:Wind,云锋金融整理
  如果看静态市净率,目前2.22倍的水平较去年的绝对低点有所抬升,但仍低于年。如果剔除掉金融行业,则与年的高点接近。
  注:剔除负值、高于100的异常值,采用市值加权
  资料来源:Wind,云锋金融整理
  市现率情况也是类似,但相较年高点距离更远。这显示目前港股通公司整体现金流情况较好,与去年货币宽松的大环境有关。
  注:剔除负值、高于1000的异常值,采用市值加权
  资料来源:Wind,云锋金融整理
  股息率方面,过去五年则一直处于区间波动的状态,但考虑到无风险利率在过去一年有所抬升,因此目前的股息率吸引程度相较去年明显下降。
  资料来源:Wind,云锋金融整理
  估值底部抬升,金融房地产仍是低估“重灾”区
  如果对港股通中估值最低的十家公司进行逐年统计,可以看出最近五年以来的估值底部一直处于抬升状态。
  注:扣非P/E是指扣除非经常性损益的P/E,下同
  资料来源:Wind,云锋金融整理
  这一抬升是股价上行还是盈利下行造成的呢?以过去三年的榜单上都出现的个股――宝龙地产(1238.hk)为例,可以看出估值上升的主要推动力在于股价上涨而非盈利下滑。这也反映出市场对低市盈率个股有明显的偏好。
  资料来源:Wind,云锋金融整理
  如果拆分低估值榜单中的行业属性,可以看到过去三年金融和房地产一直是最被低估的行业,但金融行业低估程度在逐年好转,这与去年一年来南下资金的巨额流入有关。
  资料来源:Wind,云锋金融整理
  小结一下,从历史的纵向比较来看,港股通标的估值已然不低,尽管相较年的高点尚有距离,但和2016年相比有了相当程度的修复。
  但估值不能脱离盈利单独考量,毕竟比起目前有多便宜,股市投资者更关注未来的增长。那么考虑盈利情况后的估值又如何呢?
  去年盈利增长略不及预期,但市场对今年保持乐观
  如果将本次年报季的结果和市场之前的一致预期作对比,可以看到业绩不及预期的公司比例高于业绩超预期的公司,其中主要是金融行业拖了后腿,该行业业绩超预期的公司只占15%。而与之相对的是,信息技术、房地产和工业企业中业绩超预期的比例较高。
  注:业绩超预期和不及预期分别指净利润高于或低于市场一致预期3%及以上
  资料来源:Wind,云锋金融整理
  如果向前看盈利增长,为了方便与过去两年情况进行对比,我们取近似于港股通成分的MSCI China作为考察对象。市场对今年MSCI China的盈利增长相较过去两年乐观一些,2017年的盈利预测在今年以来迎来了一波上调,而过去两年的同期,盈利预测还是继续下调的。
  资料来源:高盛
  考虑盈利增长之后的估值较为合理
  先看PEG(即动态市盈率/预期盈利增长),在剔除亏损和盈利负增长的公司之后,剩下的260家港股通公司中,有150家PEG小于1,显示估值较为合理。
  资料来源:Wind,云锋金融整理
  再看动态估值。为了和历史比较,我们依然拿MSCI China作为近似的考察对象。根据高盛的最新报告,目前MSCI China的动态市盈率在十年均值附近,但如果剔除银行业,已经较均值高了0.5个标准差。动态市净率则好很多,即使剔除银行业,也仍在十年均值附近。但无论如何,与一年前市净率跌破08年金融危机低点时比,市场估值已经出现了不小的修复。
  资料来源:高盛
  港股通在全球市场中估值合理,但相较A股不再有优势
  最后,如果将港股通的估值与全球其他主要股票市场进行对比,可以看到其处于中性位置。而恒生国企指数由于存在大量的低估金融股,因此仍是最便宜的指数。若将港股通与沪深300相比,已不具有估值优势。因此, 尽管考虑到资金配置需求以及部分行业和公司的估值差异,南下资金仍将继续进入港股市场,但就港股通整体而言,对南下资金的吸引力不再像过去那么巨大。
  资料来源:Wind,云锋金融整理
  总而言之,通过上述分析,我们认为经过前期市场的大幅上涨,以港股通标的为代表的港股市场在过去一年中完成了一定的估值修复,整体估值水平明显提升。接下来的港股走势,可能更多取决于盈利增长的势头能否保持。市场目前预计下半年经济增速会回落,从而影响企业盈利前景。若实际情况优于这一预期,则港股仍有较大的上行空间。
  此外,短期市场的不确定性正在增加,境内外宏观基本面和地缘政治恶化导致的风险偏好回落和南下资金降温都会对短期港股市场造成压力。
欢迎举报抄袭、转载、暴力色情及含有欺诈和虚假信息的不良文章。
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
搜狐公众平台官方账号
生活时尚&搭配博主 /生活时尚自媒体 /时尚类书籍作者
搜狐网教育频道官方账号
全球最大华文占星网站-专业研究星座命理及测算服务机构
智通财经网―中国专业黄金、白银、外汇财经新闻资讯门户,智通...
9216文章数
主演:黄晓明/陈乔恩/乔任梁/谢君豪/吕佳容/戚迹
主演:陈晓/陈妍希/张馨予/杨明娜/毛晓彤/孙耀琦
主演:陈键锋/李依晓/张迪/郑亦桐/张明明/何彦霓
主演:尚格?云顿/乔?弗拉尼甘/Bianca Bree
主演:艾斯?库珀/ 查宁?塔图姆/ 乔纳?希尔
baby14岁写真曝光
李冰冰向成龙撒娇争宠
李湘遭闺蜜曝光旧爱
美女模特教老板走秀
曝搬砖男神奇葩择偶观
柳岩被迫成赚钱工具
大屁小P虐心恋
匆匆那年大结局
乔杉遭粉丝骚扰
男闺蜜的尴尬初夜
客服热线:86-10-
客服邮箱:年报季已结束 港股尚能饭否?|港股|股息率|公司产业_新浪财经_新浪网
  编者按:近期港股热出现了退潮。AH股溢价从低位反弹接近6%,南下资金的净流入量较3月中上旬也出现了明显回落。
  在年报季结束的这个时点,港股究竟还有没有吸引力?尤其是考虑到全球资金风险偏好出现回落,地缘政治风险抬升的大背景,作为传统上对风险较为敏感的港股市场,下一步会如何表现?
  来源:云峰金融
  近期港股热出现了一定程度的退潮。尽管从指数来看跌幅不大,本月还微涨0.6%,但从市场热情来看出现了降温,主要体现在两个方面。
  AH股溢价从低位反弹接近6%,重新回到了120的水平,与去年九月持平。
  资料来源:Wind
  南下资金的净流入量较3月中上旬出现了明显回落,从单日平均20亿人民币回落至了10亿人民币。
  资料来源:Wind
  站在年报季结束的这个时点,港股究竟还有没有吸引力?尤其是考虑到全球资金风险偏好出现回落,地缘政治风险抬升的大背景,作为传统上对风险较为敏感的港股市场,下一步会如何表现?
  上周我们试图用可视化的方式汇总了年报季的诸多数据(详见《港股年报季,数据大公开》),从中得到的结论是喜忧半参的,一方面微观层面的公司业绩确实有了一定的回暖迹象,但另一方面市场估值已经大不如去年初那样的便宜。
  如果不考虑短期风险偏好的因素,我们认为对于长线资金来说,港股的吸引力最终还是要落脚在基本面。我们试图全方位的考察港股,尤其是港股通标的目前的估值水平,希望为投资者提供参考。
  三个维度的估值分析
  作为一个完整的估值体系分析,至少应该包含三个维度:
  第一,基于历史纵向比较的估值水平,包括P/E,P/B,P/FCF,股息率等方面;
  第二,考虑盈利增长后的估值水平,包括盈利一致预期(EPS Estimate Consensus)的变化、PEG和动态估值等;
  第三,与其他市场的估值比较。对国内资金来说,至少可以在A股和港股间进行选择,而全球资金的配置范围更广。
  此外,我们的分析样本主要选择了港股通内的公司,一方面因为这一样本涵盖了港股市场的主流投资标的,另一方面也会让分析结果对国内投资者更具参考意义。
  从股价涨幅来看,港股通指数今年持续跑赢恒生和恒生国企指数,也反映出市场对其中公司的关注度高于其他标的。
  资料来源:Wind,整理
  港股通标的估值已脱离低点
  如果从静态市盈率水平来看,2017年年报季后的静态PE为16.4倍,相比去年年报季后的14倍有明显的提升,也接近了2015年的16.7倍。而如果剔除低估值的金融行业之后,港股其余行业的静态市盈率事实上已经超过了2015年的高点,达到22.2倍。
  注:剔除负值和高于100的异常值,采用市值加权
  资料来源:Wind,云锋金融整理
  如果看静态市净率,目前2.22倍的水平较去年的绝对低点有所抬升,但仍低于年。如果剔除掉金融行业,则与年的高点接近。
  注:剔除负值、高于100的异常值,采用市值加权
  资料来源:Wind,云锋金融整理
  市现率情况也是类似,但相较年高点距离更远。这显示目前港股通公司整体现金流情况较好,与去年货币宽松的大环境有关。
  注:剔除负值、高于1000的异常值,采用市值加权
  资料来源:Wind,云锋金融整理
  股息率方面,过去五年则一直处于区间波动的状态,但考虑到无风险利率在过去一年有所抬升,因此目前的股息率吸引程度相较去年明显下降。
  资料来源:Wind,云锋金融整理
  估值底部抬升,金融房地产仍是低估“重灾”区
  如果对港股通中估值最低的十家公司进行逐年统计,可以看出最近五年以来的估值底部一直处于抬升状态。
  注:扣非P/E是指扣除非经常性损益的P/E,下同
  资料来源:Wind,云锋金融整理
  这一抬升是股价上行还是盈利下行造成的呢?以过去三年的榜单上都出现的个股——(1238.hk)为例,可以看出估值上升的主要推动力在于股价上涨而非盈利下滑。这也反映出市场对低市盈率个股有明显的偏好。
  资料来源:Wind,云锋金融整理
  如果拆分低估值榜单中的行业属性,可以看到过去三年金融和房地产一直是最被低估的行业,但金融行业低估程度在逐年好转,这与去年一年来南下资金的巨额流入有关。
  资料来源:Wind,云锋金融整理
  小结一下,从历史的纵向比较来看,港股通标的估值已然不低,尽管相较年的高点尚有距离,但和2016年相比有了相当程度的修复。
  但估值不能脱离盈利单独考量,毕竟比起目前有多便宜,股市投资者更关注未来的增长。那么考虑盈利情况后的估值又如何呢?
  去年盈利增长略不及预期,但市场对今年保持乐观
  如果将本次年报季的结果和市场之前的一致预期作对比,可以看到业绩不及预期的公司比例高于业绩超预期的公司,其中主要是金融行业拖了后腿,该行业业绩超预期的公司只占15%。而与之相对的是,信息技术、房地产和工业企业中业绩超预期的比例较高。
  注:业绩超预期和不及预期分别指净利润高于或低于市场一致预期3%及以上
  资料来源:Wind,云锋金融整理
  如果向前看盈利增长,为了方便与过去两年情况进行对比,我们取近似于港股通成分的MSCI China作为考察对象。市场对今年MSCI China的盈利增长相较过去两年乐观一些,2017年的盈利预测在今年以来迎来了一波上调,而过去两年的同期,盈利预测还是继续下调的。
  资料来源:高盛
  考虑盈利增长之后的估值较为合理
  先看PEG(即动态市盈率/预期盈利增长),在剔除亏损和盈利负增长的公司之后,剩下的260家港股通公司中,有150家PEG小于1,显示估值较为合理。
  资料来源:Wind,云锋金融整理
  再看动态估值。为了和历史比较,我们依然拿MSCI China作为近似的考察对象。根据高盛的最新报告,目前MSCI China的动态市盈率在十年均值附近,但如果剔除银行业,已经较均值高了0.5个标准差。动态市净率则好很多,即使剔除银行业,也仍在十年均值附近。但无论如何,与一年前市净率跌破08年金融危机低点时比,市场估值已经出现了不小的修复。
  资料来源:高盛
  港股通在全球市场中估值合理,但相较A股不再有优势
  最后,如果将港股通的估值与全球其他主要股票市场进行对比,可以看到其处于中性位置。而恒生国企指数由于存在大量的低估金融股,因此仍是最便宜的指数。若将港股通与沪深300相比,已不具有估值优势。因此,尽管考虑到资金配置需求以及部分行业和公司的估值差异,南下资金仍将继续进入港股市场,但就港股通整体而言,对南下资金的吸引力不再像过去那么巨大。
  资料来源:Wind,云锋金融整理
  总而言之,通过上述分析,我们认为经过前期市场的大幅上涨,以港股通标的为代表的港股市场在过去一年中完成了一定的估值修复,整体估值水平明显提升。接下来的港股走势,可能更多取决于盈利增长的势头能否保持。市场目前预计下半年经济增速会回落,从而影响企业盈利前景。若实际情况优于这一预期,则港股仍有较大的上行空间。
  此外,短期市场的不确定性正在增加,境内外宏观基本面和地缘政治恶化导致的风险偏好回落和南下资金降温都会对短期港股市场造成压力。
责任编辑:张海营十年回顾:Hadoop老矣,尚能饭否?
(window.slotbydup=window.slotbydup || []).push({
id: '2611110',
container: s,
size: '240,200',
display: 'inlay-fix'
您当前位置: &
[ 所属分类
作者 红领巾 ]
Hadoop,十岁生日快乐!
于日诞生的它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。InfoQ特别策划了系列文章,为大家梳理Hadoop这十年的变化,以及技术圈的生态状况,这是为Hadoop庆生的第一篇。
一张图回顾Hadoop十年
什么是大数据?
大数据指的是规模超过现有数据库工具获取、存储、管理和分析能力的数据集,并同时强调并不是超过某个特定数量级的数据集才是大数据。
by 麦肯锡《大数据:创新、竞争和生产力的下一个前沿领域》
大数据的定义聚焦在“大“。从表面上看,数据规模的增长的确为处理数据带来了很大的问题。具体来说,在同样时间内获取与以前相同价值的数据变得不可为了。换言之,本质问题是数据的价值密度变低了,数据交换速率变慢了,所以催生了很多新型数据处理技术和工具,如Google的GFS和MapReduce,Apache Hadoop生态系统,美国伯克利大学AMPLab的Spark等;出现了对时间敏感程度不同的计算模式,如批式计算模式、交互式计算模式、流计算模式、实时计算模式等。计算模式的差异只是决定获取价值的技术不同,取决于上层业务需求的不同。
实际上,所谓大数据问题的本质应是数据的资产化和服务化,而挖掘数据的内在价值是研究大数据的最终目标。
大数据缘起于Google
Google在搜索引擎上所获得的巨大成功,很大程度上是由于采用了先进的大数据管理和处理技术,是针对搜索引擎所面临的日益膨胀的海量数据存储问题以及在此之上的海量数据处理问题而设计的。
Google提出了一整套基于分布式并行集群方式的基础架构技术,利用软件的能力来处理集群中经常发生的节点失效问题。Google使用的大数据平台主要包括五个相互独立又紧密结合在一起的系统:分布式资源管理系统Borg,Google文件系统(GFS),针对Google应用程序的特点提出的MapReduce 编程模式,分布式的锁机制Chubby以及大规模分布式数据库BigTable。
Borg是这五个系统中最为神秘的一个,直到2015年Google才在EuroSys 2015上发表了题为“Large-scale cluster management at Google with Borg”的论文。称Google内部不仅像计算型的应用,比如MapReduce、Pregel等运行在Borg上,存储类的应用,比如GFS,BigTable和Megastore等也运行在上面,真正做到了批处理作业和长周期服务的混合部署和资源动态调度。得益于此项技术,可以使平均资源利用率达到30%~75%以上,大大高于业界平均水平的6%~12%。
GFS是一个大型的分布式文件系统,它为Google云计算提供海量存储,并且与Chubby、MapReduce和BigTable等技术结合得十分紧密,处于系统的底层。它的设计受到Google特殊的应用负载和技术环境的影响。相对于传统的分布式文件系统,为了达到成本、可靠性和性能的最佳平衡,GFS从多个方面进行了简化。
MapReduce是处理海量数据的并行编程模式,用于大规模数据集的并行运算。MapReduce通过“Map(映射)”和“Reduce(化简)”这样两个简单的概念来参加运算。用户只需要提供自己的Map 函数以及Reduce 函数就可以在集群上进行大规模的分布式数据处理。这一编程环境能够使程序设计人员编写大规模的并行应用程序时不用考虑集群的可靠性、可扩展性等问题。应用程序编写人员只需要将精力放在应用程序本身,关于集群的处理问题则交由平台来完成。与传统的分布式程序设计相比,MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节,具有简单而强大的接口。正是由于MapReduce具有函数式编程语言和矢量编程语言的共性,使得这种编程模式特别适合于非结构化和结构化的海量数据的搜索、挖掘、分析等应用。
Chubby是提供粗粒度锁服务的一个文件系统,它基于松耦合分布式文件系统,解决了分布式系统的一致性问题。这种锁只是一个建议性的锁而不是强制性的锁。通过使用Chubby的锁服务,用户可以确保数据操作过程中的一致性。GFS使用Chubby来选取一个GFS主服务器,BigTable使用Chubby指定一个主服务器并发现、控制与其相关的子表服务器。
大规模分布式数据库BigTable是基于GFS和Chubby开发的分布式存储系统。很多应用程序对于数据的组织是非常有规则的。一般来说,数据库对于处理格式化的数据还是非常方便的。但是由于关系数据库要求很强的一致性,很难将其扩展到很大的规模。为了处理Google内部大量的格式化以及半格式化数据,Google构建了弱一致性要求的大规模数据库系统BigTable。BigTablede在很多方面和数据库类似,但它并不是真正意义上的数据库。Google包括Web索引、卫星图像数据等在内的很多海量结构化和半结构化数据都是存储在BigTable中的。
开启了大数据时代的大门
Google的技术虽好但不开源。如果没有Doug Cutting和他的Hadoop开源软件,我们就看不到如今大数据技术和应用的飞速发展。
Doug Cutting主导的Apache Nutch项目是Hadoop软件的源头,该项目始于2002年,是Apache Lucene 的子项目之一。当时的系统架构尚无法扩展到存储并处理拥有数十亿网页的网络化数据。Google在2003年于SOSP上公开了描述其分布式文件系统的论文“The Google File System”,为Nutch提供了及时的帮助。2004年,Nutch的分布式文件系统(NDFS)开始开发。同年,Google在OSDI上发表了题为“MapReduce: Simplified Data Processing on Large Clusters”的论文,受到启发的Doug Cutting等人开始实现MapReduce计算框架并与NDFS(Nutch Distributed File System)结合起来,共同支持Nutch的主要算法。至2006年,它逐渐成为一套完整而独立的软件,已经到Yahoo!工作的Doug Cutting将这套大数据处理软件命名为Hadoop。2008年初,Hadoop成为Apache的顶级项目,除Yahoo!之外在众多互联网企业中得到应用。
早期的Hadoop,包括Hadoop v1以及更早之前的版本,主要由两个核心组件构成:HDFS和MapReduce,其中HDFS是Google GFS的开源版本,MapReduce计算框架实现了由Google工程师提出的MapReduce编程模型。还有一些围绕在Hadoop周围的开源项目,为完善大数据处理的全生命周期提供了必要的配套和补充。这些软件常用的有ZooKeeper、Hive、Pig、HBase、Storm、Kafka、Flume、Sqoop、Oozie、Mahout等。2012年5月,Hadoop v2的alpha版本发布,其中最重要的变化是在Hadoop核心组件中增加了YARN(Yet Another Resource Negotiator)。YARN的出现是为了把计算框架与资源管理彻底分离开,解决Hadoop v1由此带来的扩展性差、单点故障和不能同时支持多种计算框架的问题。YARN对标的恰好就是Google的Borg系统。至此,Hadoop方才能够与Google的大数据平台比肩。
一个好的、有生命力的开源生态系统要有一个核心,这个核心要是差异化和非平凡的,还要有广泛的应用和活跃的社区。Hadoop恰好具备这三个特征,以Hadoop为核心的大数据开源生态系统逐渐形成,Hadoop也成为自以来最成功的开源软件,没有之一。受人民大学信息学院院长杜小勇老师的委托,我在CNCC 2015上组织了一个名为“大数据开源生态系统”的论坛。论坛邀请了来自互联网企业、硬件厂商、系统集成商以及学术界的同行分享在大数据开源方面的工作和体会。在最后的Panel环节,讨论了为什么要做开源和怎么做开源这两个问题。回答是比较分散的,有开源是唯一选择的,有拉通产业链的,有认为开源是新业态新商业模式的,有认为开源促进技术进步的。总之,在产业链不同的环节上的机构做开源的动机和目标自然是不同的,但只有这样,产业链中不同角色都能够在生态系统中找到自己的位置,这样的生态系统才是健壮的有生命力的,不是吗?
发展历史和应用之路
大数据领域第一个吃螃蟹的是互联网行业。这是因为大数据概念和技术都来源于互联网企业的老大哥Google的原因。以Hadoop投入实际应用来看:
2006年到2008年是Hadoop的诞生阶段。只有国外少数几个互联网巨头在尝试,国内互联网行业在学习这项新技术。2006年,Yahoo!构建100节点规模的Hadoop机群用于Webmap业务。2007年,Yahoo!构建1000节点规模的Hadoop机群。2008年,Yahoo!的Hadoop机群扩展到2000节点规模,Facebook贡献Hive项目到开源社区。
2008年到2010年是Hadoop的少年阶段。在互联网行业已经开始投入实际应用,应用集中在网页存储检索,日志处理和用户行为分析等方面。2009年,Yahoo!使用4000节点的机群运行Hadoop,支持广告系统和Web搜索的研究;Facebook使用600节点的机群运行 Hadoop,存储内部日志数据,支持其上的数据分析和机器学习;百度用Hadoop处理每周200TB的数据,进行搜索日志分析和网页数据挖掘工作。2010年,Facebook的Hadoop机群扩展到1000节点;百度用Hadoop每天可处理1PB的数据;中国移动通信研究院基于Hadoop开发了“大云”(BigCloud)系统,不但用于相关数据分析,还对外提供服务;淘宝的Hadoop系统达到千台规模,用于存储并处理电子商务的交易相关数据。
2010年到2015年是Hadoop的青年阶段。在互联网行业无不将Hadoop作为大数据计算的标准配置,且应用形式趋于多样化;企业计算领域开始实践基于Hadoop的大数据应用;在追求大数据处理能力的同时,也开始思考系统适配性和效率问题。互联网行业出现了大量数据分析类应用,比如支付宝的交易数据离线分析系统等;用Hadoop与生态系统中的其他软件一起构成更为复杂的应用系统,比如腾讯的广点通精准广告投放系统,电信运营商的基于用户画像的精准营销系统等。除互联网行业外,出现了网络通讯大数据、金融大数据、交通旅游大数据、工业制造大数据、医疗健康大数据、社会治理大数据、教育大数据等,大数据理念和技术已经融入各行各业。Hadoop源于互联网行业,在应用于企业计算时,需要进行适配,原因在于互联网应用和企业计算应用在需求、服务、研发和运维体系方面有本质的不同。互联网应用业务逻辑简单、服务于海量用户、非固定使用人群、系统的用户体验至上、持续交付、能够快速响应的专业运维;而企业计算应用业务逻辑复杂、有限数量用户、固定使用人群、系统更强调稳定可靠、版本交付、层级式的技术支持。一时间市面上出现了很多面向企业用户的Hadoop发行版,以易部署、好配置,以及使用和管理方便为切入点,吸引着企业用户的眼球。
5、Hadoop in China
国内最早的Hadoop交流平台
技术推广是需要平台的,而好的交流平台对新技术的落地起到极其重要的作用。2008年,我所在的研究小组想在分布式数据存储方面做一些研究工作,前期调研阶段接触到Hadoop,其新颖的设计思想得到大家的一致认同,2008年11月Hadoop技术沙龙顺势成立,后来发展成Hadoop in China大会。
2012年,中国计算机学会(CCF)于10月正式成立了大数据专家委员会。2013年,大会正式更名为“中国大数据技术大会(BDTC)”。至此,Hadoop in China从60人规模的小型沙龙发展到国内大数据领域一年一度最重要的技术会议之一。大会曾邀请到包括Hadoop创始人Doug Cutting,Spark创始人Ion Stoica在内的众多国际著名专家到会做特邀报告。
大数据技术的发展趋势
系统架构的专业化。从当今IT技术的发展角度看,提出系统结构上的解决方案是“应用驱动的大数据架构与技术”。也就是说根据具体类型应用的需求,在系统架构和关键技术上进行创新。为了降低成本并获得更好的能效,大数据应用系统越来越趋向扁平化、专用化的系统架构和数据处理技术,逐渐摆脱了传统的通用技术体系。比如并行数据库更鲜明的分化为面向事务处理的OLTP类数据库和面向分析的OLAP类数据库等。传统的应用服务器、数据库服务器和存储服务器这样的典型三层架构受到极大的冲击。应用开发人员更深入的理解计算机系统结构,“程序” = “算法” + “数据结构”将逐渐演变成“程序” = “算法” + “数据结构” + “系统结构”。
大数据生态系统范围扩大。克隆了Google的GFS和MapReduce的Apache Hadoop自2008年以来逐渐为互联网企业接纳,并成为大数据处理领域的事实标准。但2013年出现的Spark作为一匹黑马可以说终结了这一神话,大数据技术不再一家独大。由于应用不同导致Hadoop一套软件系统不可能满足所有需求,在全面兼容Hadoop的基础上,Spark通过更多的利用内存处理大幅提高系统性能。此外,Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Spark SQL等的出现并不是取代Hadoop,而是扩大了大数据技术生态环境,促使生态环境向良性和完整发展。今后在非易失存储层次、网络通信层次、易失存储层次和计算框架层次还会出现更多、更好和更专用化的软件系统。
系统整体效能更为用户重视。在全球互联网企业的努力下,Hadoop已经可以处理百PB级的数据,在不考虑时间维度的前提下,价值密度低的数据可以处理了。在解决了传统关系型数据库技术无法处理如此量级的数据之后,业界正在向系统能效要价值。能效问题一方面体现在系统性能上。互联网服务强调用户体验,原本做不到实时的应用在向实时化靠拢,比如前端系统及业务日志从产生到收集入库的延迟从1到2天时间进化到10秒以内。传统企业无法忍受关系数据库动辄几十分钟的查询分析性能,纷纷求助于性价比更好的技术和产品。这些需求使大数据交互式查询分析、流式计算、内存计算成为业界研发和应用的新方向。能效问题的另一方面体现在系统功耗和成本上。中科院计算所陈云霁研究员领导研究的专用神经网络处理器技术,可大幅加速机器学习负载,与通用芯片和GPU相比,计算速度提高几十倍,功耗只有十分之一,整体能效提高450倍。百度云存储万台定制ARM服务器可节电约25%,存储密度提升70%,每瓦特计算能力提升34倍(用GPU取代CPU计算),每GB存储成本降低50%。
个性化服务的需求愈发强烈。个性化对应于互联网服务的长尾部分,这部分需求在传统的系统设计中因为复杂性原因是被舍弃的,但正是这部分体现出个性化服务的需求。个性化服务,即系统能够提供满足不同个体需求的差异化服务,比如个性化推荐,广告精准投放等。就拿个性化推荐技术来说,目前已经开始从简单的商品推荐走向复杂的内容推荐。根据用户的特性与偏好,推荐内容的特征,以及当时的上下文数据(客户端设备类型、用户所处时空数据等),向特定用户提供个性化的内容推荐服务,内容包括商品(包括电商和零售)、广告、新闻和资讯等。在移动设备和移动互联网飞速发展的时代,个性化推荐将成为用户获取信息最直接的渠道之一。
价值挖掘的理论和技术亟待发展。对数据进行浅层分析的理论和技术,主要体现在分布式系统和关系型数据库理论的结合与再创新,目前已经有较大幅度进展。但是,从数据中抽取隐含的信息或者知识,也就是价值挖掘,这方面的理论和技术还比较缺乏。一是缺乏成熟的数据挖掘建模方法和工具,经验对于挖掘出有价值信息的影响甚大,原始数据与隐含信息之间存在技术缺失,所以“啤酒+尿布”的案例并不是天天都能产生的。二是机器学习和深度学习技术面临应用问题。与大数据相结合,已经在诸如语音识别、图像识别、广告推荐和风险控制等场景中得以初步应用,但这方面的技术和软件工具成熟度不高,还有很大提升空间。此外,机器学习和深度学习的应用场景还不够广泛,这既是机遇也是挑战。
Hadoop老矣,尚能饭否?
Hadoop开源软件自2006年起至今已经走过十个年头,这对于任何软件来说生命周期不可谓不长。但是,Hadoop也在经历来自其他开源黑马的冲击。Spark在早期发展阶段通过全面兼容Hadoop而借力于后者成熟的生态系统。时至今日,Spark正在挑战Hadoop的权威,因为Spark已经将发展目标定位在取代Hadoop。Hadoop老矣,尚能饭否?Hadoop的近100位Committer在积极的为Hadoop谋划未来,让我们拭目以待吧!
查礼,2003年博士毕业以来一直从事分布式系统的研发工作,现为中国科学院计算技术研究所副研究员,CCF大数据专家委员会委员。自2008年起与Apache Hadoop、Hive以及HBase 等开源社区密切合作,相关大数据技术研究成果通过软件开源在业界得到广泛应用。是中国大数据技术大会(原Hadoop in China)发起人和组织者。
欢迎加入本站公开兴趣群
软件开发技术群
兴趣范围包括:Java,C/C++,,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流
Hadoop源代码研究群
兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop
转载请注明本文标题:本站链接:
分享请点击:
1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
CodeSecTeam微信公众号
一切随心意!且行且珍惜!
手机客户端

我要回帖

更多关于 港股上市公司年报 的文章

 

随机推荐