户内各个功能空间尺度由哪三个部分组成?

看到一个公众号的总结,分享一下:

案例抄绘是建筑学学习的有效方式,日常的案例积累形成自己的素材库,在遇到对应的问题时,可以探讨更多的可能性。

然而,在信息爆炸的时代,获取案例的方式有N种,五花八门种类各异,碎片化的信息滋养了碎片化的思考习惯,积累的快,遗忘的也快,难以形成深刻的认知。积累的案例为什么用不起来?是否真的掌握了一个案例?

归纳和整理是对日常抄绘深入学习的关键一步,通过横向对比相似案例,提取手法原型,平时的研究结论成为设计的思考起点。

02.片段式积累的个人经验,抄到什么深度;

03.如何对积累的案例进行分类;

04.个例如何提取原型,如何以简洁的图示语言快速记录;

05.在量的基础上,如何建立清晰高效的归纳架构,形成系统的认知,学以致用。

1.案例抄绘:类型学思路、案例碎片总结、梳理总结。

2.归纳整理:横向对比——原型、研究结论——思考起点。

3.表格形式:体块滑动、特定空间元素、环境要素应对、体性关系研究等等。

4.日常积累片段——及时记录。

5.推荐网站:谷德、有方、在库言库等。

6.推荐书目:《建筑语汇》(例如:交通流线与建筑造型:线状/点状/复合)《建筑构成学》(例如:由室群与体量形成的建筑构成,室群与广室;未语言化类型——语言化类型;表格化总结)

案例一:嘉德艺术中心/奥雷舍人

思考:为什么整型、为什么散型——都和周围的尺度有关。

网站提供图:轴测图、剖面图、效果图。

抄绘图:轴测图、平面(讨论交通、交通块、出入口)、立面图、剖面图、细节处理图(块的联络)、总结。

案例二:深圳青少年活动中心/钟乔

关键词:回应人流穿越对形体的切割

网站提供图:平面图(人流、讨论城市性和公共性、体现小尺度聚集)、轴测图(连接交接机会:影院的斜顶)

抄绘图:平面(围合关系:大、小、广场)、轴测图(形体关系)、剖面图(室内外连续的关系)、细节处理(虚体玻璃)

案例三:同济大学建筑设计院新楼-巴士汽车库改造/曾群

抄绘图:轴测图(交通操作,没必要完全复原小尺度的、表现形式即可)、细节处理(有咬合、不要楞粘在一起)、剖面图(提醒:可以做玻璃楼梯间)、总结(下层体量活泼,可以引导人流)。

注:要带着自己的目的去解读,不要害怕误读。

案例四:良渚文化艺术中心/安藤忠雄

提炼:三条建筑、扭转,疏散问题、结合大空间,活化灰空间、楼梯,强化板与块的关系、令人感到它的存在,板的作用:小平台拉开、连接线条+功能)

抄绘图:平面、剖面图、细节处理(用红笔标出重点)、总结。

注:标注楼梯分实心和空心,实心表示疏散交通用的楼梯,空心表示开放交通。

案例一:日本轻井泽千住博博物馆/西泽立卫

案例二:杭州西湖云杉阁艺术馆/壹零空间

案例三:某美术馆/同济设计院

案例四:华鑫中心/山水秀建筑师事务所

1.细节不会:抄完整的平面,日后再进阶到只记录逻辑。

2.形式:用A3纸或拉模型。

3.抄绘大师案例(可以反复研读)和每天逛网站看新案例同步进行。

4.研究关系:用PS把你要研究的东西(例如交通)涂上颜色,远看就会有关系出现。

在机器学习中,衡量,评估和选择一个模型好坏是通过一些常见指标实现的,称之为性能指标(Metrics)。

对于一个二分类问题,我们首先给出如下基本指标基于这些指标可以推导出其他指标:

  • :True Positive(真正, TP),即模型预测为正的正样本个数(将正类预测为正类数)
  • :False Positive(假正, FP),即模型预测为正的负样本个数(本来是负样本,预测成了正样本,将负类预测为正类数   误报
  • :True Negative(真负 , TN),即模型预测为负的负样本个数(将负类预测为负类数)
  • :False Negative(假负 , FN),即模型预测为负的正样本个数(本来是正样本,预测成了负样本,将正类预测为负类数  漏报

首先介绍几个常见的基本概念:

(1)一般来说,我们把学习器/分类器/模型的实际预测输出与样本真实输出之间的差异称之为误差(error)。

(3)训练学习结束后的模型在测试集上的误差称之为测试误差(testing error),其是对学习器的泛化误差的评估,是泛化误差的近似。

(4)在新样本上的误差称之为泛化误差(generalization error)。在新样本上的预测能力也称之为泛化性能过拟合,欠拟合)。

以下是常用的重要概念:

通常把分类错误的样本数占样本总数的比例称之为错误率(总体概念,不区分正负样本)

把把分类正确的样本数占样本总数的比例称之为准确率(也称之为精度,正确率,为了统一最好称之为准确度),准确率=1-错误率。计算如下:

注意Acc是一个总体概念,表示了一个分类器的分类能力。注意,这里的区分能力没有偏向于是正例还是负例,这也是Accuracy作为性能指标最大的问题所在。

精确率和召回率(查准率和查全率)

精确率(precision):,可理解为“真正属于类别C的/找到属于类别C的”。即实际是正类并且被预测为正类的样本占所有预测为正类的比例,精确率更为关注将负样本错分为正样本(FP)的情况,预测出的结果是否准确。

召回率(recall, sensitivity, true positive rate, TPR):,在医学上常常被称作敏感度(Sensitive)。可理解为“真正属于类别C的/所有属于类别C的”。即实际是正类并且被预测为正类的样本占所有实际为正类样本的比例,召回率更为关注覆盖率问题,是否将应该分类的正样本目标全部分类。

精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是对的。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。

召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。

可见,精确率和召回率是相互影响的,理想情况下两者都高,但是一般情况下准确率高,召回率就低;召回率高,准确率就低;如果两者都低,应该是哪里算的有问题。

在信息检索领域,精确率和召回率又被称为查准率查全率

查准率=检索出的相关信息量 / 检索出的信息总量

查全率=检索出的相关信息量 / 系统中的相关信息总量

注意:一定要区分精确度和上一节中的准确率。在网络安全领域更注重漏报率和误报率,也就是精确率和召回率。在正负样本不平衡的情况下,准确率这个评价指标有很大的缺陷和片面性。比如在互联网广告里面,点击的数量是很少的,一般只有千分之几,如果用acc,即使全部预测成负类(不点击)acc 也有 99% 以上,没有意义。

在精确率和召回率两者都要求高的情况下,综合衡量P和R就用F1值。F1是精确率和召回率的调和均值,精确率和准确率都高的情况下,值也会高。

有的时候,我们对recall 与 precision 赋予不同的权重,表示对分类模型的查准率/查全率的不同偏好:综合评价指标F-measure。

其中β>0度量了查全率对查准率的相对重要性。可以看到β为1时,该公式就是F1值(F1 score)。 反映了模型分类能力的偏好,β>1时查全率有更大影响;β<1时查准率有更大影响。 β越大的时候,precision的权重更大,我们希望precision 越小,而recall 应该越大,说明模型更偏好于提升recall,意味着模型更看重对正样本的识别能力; 而 β小的时候,recall 的权重更大,因此我们希望recall越小,而precision越大,模型更偏好于提升precision,意味着模型更看重对负样本的区分能力。

在一些应用中,对查准率和查重率的重视程度不同。例如在商品推荐系统中,为了尽可能少打扰用户,更希望推荐内容确是用户感兴趣的,此时查准率更重要;而在逃犯信息检索系统中,更希望尽可能少漏掉逃犯,此时查全率更重要。此时可以通过调节β参数来实现。

F1度量平衡了precision和negative,是调和平均,而Fβ则是加权调和平均。与算术平均和几何平均相比,调和平均更重视较小值。原因是调和平均会在P和R相差较大时偏向较小的值,是最后的结果偏差,比较符合人的主观感受。

一般多个模型假设进行比较时,F1 score越高,说明它越好。很多推荐系统的评测指标就是用F1值的。

我们希望模型预测结果Precision越高越好,同时Recall也越高越好,但事实上这两者在某些情况下有矛盾的。比如极端情况下,我们只预测出了一个正样本的结果,且是准确的,那么Precision就是100%,但是Recall就很低;而如果我们把所有结果都返回,那么比如Recall是100%,但是Precision就会很低。因此在不同的场合中需要自己判断希望Precision比较高或是Recall比较高。如果是做实验研究,可以绘制Precision-Recall曲线来帮助分析。

可以根据学习器的预测结果对样例进行排序,排在前面的是学习器认为最有可能是正例的样本,排在最后的则是学习器认为最不可能是正例的样本。按此顺序逐个把样本作为正例进行预测,则每次可以计算出当前的查全率和查准率。以查全准为纵轴,查全率为横轴作图,得到P-R曲线,显示该曲线的图称为P-R图。

现实任务中P-R曲线常是非单调,不平滑的,在很多局部有上下波动。

P-R图直观的显示出学习器在样本总体上的查全率和查准率,在进行比较时,若一个学习器的PR曲线被另一个学习器的PR曲线完全包住,则可以断言后者的性能优于前者(如图中A优于C)。如果两个学习器发生了交叉,则难以断言孰优孰劣,只能在具体的查准率或查全率条件下进行比较(如图中A和B)。如果一定要比较A和B孰优孰劣,一个合理的比较依据是比较PR曲线下面积的大小。在一定程度上表征了学习器在查准率和查全率上取得“双高”的比例,但这个值不太容易估算。所以设计了一些综合考虑查准率和查全率的性能度量。比如“平衡点”(Break-Even Point,REP),是“查准率=查全率”时的取值。例如学习器C的BEP是0.64,,基于BEP比较,可认为学习器A优于B。但是BEP较简单。上述的F1则更准确。

混淆矩阵实际上就是上述TP FP TN FN的组合:

在很多学习器中,比如逻辑回归,朴素贝叶斯等。模型为预测样本给出的是一个实值或概率预测值,然后将这个预测值与一个分阈值(threshold)进行比较。若大于阈值则分为正类,小于阈值分为负类。例如,神经网络在一般情况下对每一个预测样本预测出一个[0.0, 1.0]之间的实值,然后将这个值与0.5比较,大于0.5则判为正例,否则为负例。这个实值或概率预测结果的好坏,直接决定了学习器的泛化能力。实际上,根据这个实值或概率预测结果,我们可将测试样本进行排序,“最有可能”是正例的排到最前面,反之排到最后面。这样,分类过程就相当于在这个排序中以某个“截断点”(cut point)将样本分为两个部分,前一个部分判作正例,后一个部分则判作反例

在不同的应用任务中,我们可根据任务需求来采用不同的截断点,例如若我们更重视“查准率”,则可选择排序靠前的位置进行截断;若更重视“查全率”,则选择靠后的位置进行截断。因此,排序本身的质量好坏,体现了综合考虑学习器在不同的任务下的“期望泛化性能”的好坏。ROC曲线是从这个角度出发研究学习器泛化性能的有力武器。如果我们减小这个阀值,那么更多的样本会被识别为正类。这会提高正类的识别率,但同时也会使得更多的负类被错误识别为正类。为了形象化这一变化,在此引入 ROC ,ROC 曲线可以用于评价一个分类器泛化性能好坏

Characteristic)曲线。与上一节介绍的P-R曲线相似,我们根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横纵坐标作图,就得到了“ROC曲线”。与P-R曲线使用查准率、查全率为纵、横轴不同,ROC曲线的纵轴是“真正例率”(TPR)横轴是“假正例率”(FPR)。显示ROC曲线的图称为“ROC图”。对角线对应于随机猜测模型。TPR 代表能将正例分对的概率,FPR 代表将负例错分为正例的概率。在 ROC 空间中,每个点的横坐标是 FPR,纵坐标是 TPR,这也就描绘了分类器在 TP(真正率)和 FP(假正率)间的 trade-off(与P-R曲线不同,FPR和TPR是正比关系,相互促进)。左下角的点所对应的是将所有样例判为反例的情况,而右上角的点对应的则是将所有样例判断为正例的情况。为了画出ROC曲线,分类器必须提供每个样例被判为阳性或者阴性的可信程度值。(注意是概率值,可信程度y_pred_proba,而不是lable,y_pred)

  • 点(1,0):即FPR=1,TPR=0,最差分类器,避开了所有正确答案;
  • 点(1,1):分类器实际上预测所有的样本都为正样本。

在实际中我们都是利用有限个测试样例来绘制ROC图,此时仅能获得有限个(tpr, fpr)坐标对,无法产生平滑的ROC曲线。

AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。

翻译过来就是随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是 AUC 值。AUC给出的是分类器的平均性能值,完美分类器的AUC为1.0,随机猜测的AUC为0.5。AUC输出的是该模型对随机抽取的一个正样本和一个负样本,模型输出正样本的概率大于负样本的概率有多大,所以AUC反映更多的是模型的排序能力,将类别为1 的样本的概率排在类别为0的样本的前面的概率。与阈值无关,只和模型有关。

简单说:AUC值越大的分类器,正确率越高。

  • AUC = 1:完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。
  • 0.5<AUC<1:优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
  • AUC=0.5:跟随机猜测一样(例:丢硬币,50%猜测概率),模型没有预测价值。
  • AUC<0.5:比随机猜测还差;但只要总是反预测而行,就优于随机猜测,因此不存在AUC<0.5的情况。

第一种方法:AUC为ROC曲线下的面积,那我们直接计算面积可得。面积为一个个小的梯形面积之和。计算的精度与阈值的精度有关。

第二种方法:根据AUC的物理意义,我们计算正样本score大于负样本的score的概率。取NM(N为正样本数,M为负样本数)个二元组,比较score,最后得到AUC。时间复杂度为O(NM)。

  1)虚线所示直线随机分类时的ROC曲线,一般画到图中作为参照。

  2)对于一个完美的分类器,ROC曲线应该是从(0,0)到(0,1),然后横着连到(1,1)的折线。ROC曲线越接近左上角,分类效果越好。

  3)在进行学习器比较时,与PR图相似。若一个学习器ROC曲线被另一个学习器的ROC曲线包住,则可以断言后者的性能优于前者;若两个学习器的ROC曲线发生交叉,则难以一般性的断言两者孰优孰劣。此时只能依据AUC进行比较。

  5) P和N得分不作为特征间距离d的一个函数,随着阈值theta增加,TP和FP都增加。其实,我们并不一定要得到每个测试样本是正样本的概率值,只要得到这个分类器对该测试样本的“评分值”即可(评分值并不一定在(0,1)区间)。评分越高,表示分类器越肯定地认为这个测试样本是正样本,而且同时使用各个评分值作为threshold。将评分值转化为概率更易于理解一些。

  1)AUC表示曲线下面的面积,AUC的计算有两种方式,梯形法和ROC AUCH法,都是以逼近法求近似值

  2)对于一个完美的分类器,AUC的值应该为1,对于一个随机猜测分类器(即图中虚直线),AUC的面积为0.5。AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。AUC面积越大,分类效果越好。

  3)首先AUC值是一个概率值,当你随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。AUC考虑的是样本预测的排序质量。因此与排序误差有紧密关系。

既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。(与P-R曲线相比)。

  • Motivation1:在一个二分类模型中,对于所得到的连续结果,假设已确定一个阀值,比如说 0.6,大于这个值的实例划归为正类,小于这个值则划到负类中。如果减小阀值,减到0.5,固然能识别出更多的正类,也就是提高了识别出的正例占所有正例 的比类,即TPR,但同时也将更多的负实例当作了正实例,即提高了FPR。为了形象化这一变化,引入ROC,ROC曲线可以用于评价一个分类器。

  • Motivation2:在类不平衡的情况下,如正样本90个,负样本10个,直接把所有样本分类为正样本,得到识别率为90%。但这显然是没有意义的。单纯根据Precision和Recall来衡量算法的优劣已经不能表征这种病态问题

(a)和(b)展示的是分类其在原始测试集(正负样本分布平衡)的结果,(c)(d)是将测试集中负样本的数量增加到原来的10倍后,分类器的结果,可以明显的看出,ROC曲线基本保持原貌,而Precision-Recall曲线变化较大。

代价敏感错误率与代价曲线

不同的应用任务中我们的关注点通常不同,比如网络安全更关注误报,因为大量的IDS误报影响了网络安全管理员对安全事件的排查和检测;而医学更主要漏报。如果漏诊,产生的后果可想而知。某些服务应用则如果因为误报影响了正常用户的体验,则会大大影响服务的推广应用。不同类型的错误所造成的后果不同,为权衡不同类型错误所造成的的不同损失,可为错误赋予“非均等代价”(unequal cost)。如下图所示,正确判断的代价显然应该为0,错误判断的代价之间的比值会影响我们对学习器的改造。 

以二分类为例,我们可以根据任务的领域知识设定一个“代价矩阵”(cost matrix),体现的是错误预测的代价。一般情况下我们更关注代价比值,而不是绝对值。之前的学习器默认都是假设均等代价。有了非均等代价概念之后,我们希望最小化的是总体代价,从而有代价敏感错误率(cost-sensitive)

在非均值代价下,ROC曲线不能直接反映出学习器的期望总体代价,而“代价曲线”(cost curve)则可以达到目的。围成的面积就是期望总体代价。

代价曲线的绘制: ROC曲线上每一点对应了代价平面上的一条线段,设ROC曲线上点的坐标为(FPR,TPR),则可相应计算出FNR,然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段。

以上主要介绍的是分类,特别是二分类。对于多分类中我们可以用变形的某些上述指标去评估。

对于多分类问题,可以对每一类分别计算Precision、Recall和F1,综合作为模型评价指标。

  • 多分类任务,两两类别的组合产生多个二分类精确度和召回率
  • 多分类任务,每两两类别的组合产生多个二分类混淆矩阵
  • 基于n个二分类混淆矩阵上综合考虑查准率和查全率。如下。

一种做法是先在各个混淆矩阵上分别计算出查准率和查全率,再计算平均值。

还可以将各个混淆矩阵的对应元素进行平均,再基于这些平均值计算出查准率,查全率,F1等。

(3)比如Kappa系数等。

聚类性能度量也称之为聚类“有效性指标”(validity index)。与监督学习的性能度量作用相似,对聚类结果,我们需要通过某种性能度量来评估其好坏;另一方面,若明确了最终将要使用的性能度量,则可以直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。

聚类是将样本集划分为若干个互不相交的子集,即样本簇。我们希望同一个簇的样本尽可能彼此相似,不同簇的样本尽可能不同。也就是聚类结果的“簇内相似度”(intra-cluster similarity)高,且“簇间相似度”(inter-cluster similarity)低。具体来看,聚类性能度量大致分为两类。一类是将聚类结果与某个“参考模型”(reference model)(例如将某个领域专家给出的划分结果作为参考模型)进行比较,称之为“外部指标”(external index);另一个类是直接考察聚类结果而不利用任何参考模型,称为“内部指标”(internal

用到聚类的时候我们一般是没有标签的,所以也不比较精确率,准确率等指标。而是针对于聚类本身和样本结构进行评估。

基于集合导出了以下几个常用的聚类性能度量外部指标:

上述性能度量结果值均在[0, 1]区间,值越大越好。

再给出常用的聚类性能度量内部指标:

DBI值越小越好,而DI则相反,值越大越好。

以上摘抄自西瓜书,详细信息可参考此书。

对于回归问题性能评估可能与上述不太一样了。我们可以表示误差e表示真实曲线和拟合曲线的差值:

由误差值导出如下四个指标:

MSE (Mean Squared Error) 其中均方误差最常用,其表示参数估计值与参数真实值之差的平方的期望值。同时还有均方根误差:

以上指标在sklearn库里基本都有现成的模块可以直接使用。相关API可查阅doc。可参考

在用scikit-learn调用分类器进行分类的时候,模型返回的score值其实就是准确率。

(1). 性能指标常常因为不可微分,无法作为优化的loss函数,因此采用如cross-entropy, rmse等“距离”可微函数作为优化目标,以期待在loss函数降低的时候,能够提高性能指标。而最终目标的性能指标则作为模型训练过程中,作为验证集做决定(early stoping或model selection)的主要依据,与训练结束后评估本次训练出的模型好坏的重要标准。在机器学习的比赛中,有部分比赛也是用metrics作为排名的依据(当然也有使用loss排名)。

实际中还需要考虑时间开销,存储开销和可解释性等问题。比如DDoS防御中实际上最困难的不是检测到DDoS攻击,而是准确的,高性能的检测DDoS流量,并进行清洗。而在学校里模拟DDoS环境中,我们很难模拟这两个指标:(1)高性能(时间和空间复杂度和有效性)(2)准确率,能否准确的检测出DDoS(主要是和业务流量区分,如果没有业务流量即背景流量,检测DDoS有点搞笑)

(3).医学,信息检索,web搜索引擎,网络安全等领域都有自己的专用术语,但都与传统的机器学习的名词概念有所重合,只是叫法不同。

在我脑海中我能通过这些年听到的技术名词来感受到技术的更新及趋势,这种技术发展有时候我觉得连关注的脚步都赶不上。简单回顾看看,从我能听到的技术名词来感受,最开始耳闻比较多「云计算」这玩意,后来听到比较多的是「数据挖掘」,当时想着等考上研也要选数据挖掘这个方向(遗憾最后没考上…),然而本科毕业之后听到的最多便是「人工智能」,整个技术圈似乎完全被这个词所覆盖,怎么突然火起来这个?我觉得用 AlphaGo 这个可以去作个反应吧,找了下新闻资料:

2016年3月9日至15日,Google旗下的DeepMind智能系统——AlphaGo在韩国首尔对战世界围棋冠军、职业九段选手李世石(又译李世乭),这场人类与人工智能间的对决最终结果是AlphaGo以总比分4比1战胜李世石。2017年5月23日至27日,世界排名第一的中国选手柯洁和AlphaGo展开“人机大战/p/ )

像上图中提到的自然语言处理、计算机视觉、语言相关都是机器学习应用的方向,其中存在很多的研究小方向。本文主要基于计算机视觉资料做个整理及记录。

为了检验是否以及对相关内容有了认识,可以试着解释或回答如下一些问题。

Q1:机器学习、数据挖掘、模式识别、人工智能这些概念?

PR(模式识别)、DM(数据挖掘)属于 AI 的具体应用;人工智能是一种应用领域,机器学习是实现人工智能的一种手段,但是不限于此。

模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。

按学习的方式来划分,机器学习主要包括:

监督学习:输入数据带有标签。监督学习建立一个学习过程,将预测结果与 “训练数据”(即输入数据)的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率,比如分类和回归问题等。常用算法包括决策树、贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络等。

非监督学习:输入数据没有标签,而是通过算法来推断数据的内在联系,比如聚类和关联规则学习等。常用算法包括独立成分分析、K-Means 和 Apriori 算法等。

半监督学习:输入数据部分标签,是监督学习的延伸,常用于分类和回归。常用算法包括图论推理算法、拉普拉斯支持向量机等。

强化学习:输入数据作为对模型的反馈,强调如何基于环境而行动,以取得最大化的预期利益。与监督式学习之间的区别在于,它并不需要出现正确的输入 / 输出对,也不需要精确校正次优化的行为。强化学习更加专注于在线规划,需要在探索(在未知的领域)和遵从(现有知识)之间找到平衡。

台湾_林轩田《机器学习技法》:/video/av/

台大_李宏毅:(有台湾口腔)

大家可能看过《一天搞懂深度学习》的PPT,作者是台湾大学的李宏毅老师。其实,李宏毅老师还有门
深度学习的课程,视频也挂在网上。这门课主要针对初学者,而且,不需要有经典的机器学习基础(其
实,深度学习入门,比经典的机器学习更容易)。课程的内容深入浅出,训练和预测样本都是各种数码
宝贝和二次元卡通人物,绝对让你耳目一新。好像没有字幕,中文授课(台湾腔)。课程链接:/video/av/
李飞飞_斯坦福 cs231n 课程:(深度学习计算机视觉课程)

本文其实没啥有价值的干货,也就是对看过的博客和资料的整理,记录下来,相当给自己梳理一遍,供参考~

(PS:深感文字能力真的好差,还好该文只是资料整理而已(# ̄~ ̄#) 各位看官见谅… 写作真得需要经常锻炼才行QAQ…)

学习计算机视觉,首先要了解图像是什么吧?

图像是指能在人的视觉系统中产生视觉印象的客观对象,包括自然景物、拍摄到的图片、用数学方法描述的图像等。图像的要素有几何要素(刻画对象的轮廓、形状等)和非几何要素(刻画对象的颜色、材质等)。<来源《数字图像处理与机器视觉》 >

我们带着问题来更多的认识吧!

1、什么是位图、矢量图?

百度知道:什么是位图?什么是矢量图?二者有何区别?

①位图就是点阵图,比如大小是的图片,就是有个像素点,存储每个像素点的颜色值。

矢量图是用算法来描述图形,比如一个圆,存储半径和圆心,当然还有颜色,具体到图片的某个像素点的位置是什么颜色是根据算法算出来的。

②矢量图是可以任意缩放的,比如上面说的圆,在的时候是一个圆,图片放大20倍看还是圆,如果是位图,放大20倍,看到的就是一个一个的方块了。

一般而言,使用数字摄像机或数字照相机得到的图像都是位图图像。

详细理解RGB图像、全色图像、多光谱图像、高光谱图像
3、对图像处理的认识?

自然界中的图像都是模拟量,在计算机普遍应用之前,电视、电影、照相机等图像记录与传输设备都是使用模拟信号对图像进行处理。但是,计算机只能处理数字量,而不能直接处理模拟图像。

什么是数字图像?简单地来说,数字图像就是能够在计算机上显示和处理的图像,可根据其特性分为两大类——位图和矢量图。位图通常使用数字阵列来表示,常见格式有 BMP、JPG、GIF 等;矢量图由矢量数据库表示,接触最多的就是 PNG 图像。<来源《数字图像处理与机器视觉》 >

5、数字图像处理的主要研究内容有哪些?简要说明。

图像增强:用于改善图像视觉质量(主观的);

图像复原:是尽可能地恢复图像本来面目(客观的);

图像编码:是在保证图像质量的前提下压缩数据,使图像便于存储和传输;

图像分割:就是把图像按其灰度或集合特性分割成区域的过程;

图像分类:是在将图像经过某些预处理(压缩、增强和复原)后,再将图像中有用物体的特征进行分割,特征提取,进而进行分类;

图像重建:是指从数据到图像的处理,即输入的是某种数据,而经过处理后得到的结果是图像。

6、数字图像处理与机器视觉?<来源《数字图像处理与机器视觉》第二版 P5>

从数字图像处理到数字图像分析,再发展到最前沿的图像识别技术,其核心都是对数字图像中所含有的信息的提取及与其相关的各种辅助过程。

图像处理 --> 图像分析 --> 图像识别技术。核心都是:对数字图像所含有的信息提取及与其相关的各种辅助过程。

数字图像处理: 就是指使用电子计算机对量化的数字图像进行处理,具体地说就是对图像进行各种加工来改善图像的外观,是对图像的修改和增强…此时的图像处理作为一种预处理步骤,输出图像将进一步供其他图像进行分析、识别算法。

数字图像分析: 是指对图像中感兴趣的目标进行检测和测量,以获得可观的信息。数字图像分析通常是指一副图像转化为另一种非图像的抽象形式,例如图像中某物体与测量者的距离。这一概念的外延包括边缘检测和图像分割、特征提取以及几何测量与计数等。

数字图像识别: 主要是研究图像中各目标的性质和相互关系,识别出目标对象的类别,从而理解图像的含义。

延伸:图像处理和计算机视觉/机器视觉区别?

计算机视觉/机器视觉:输入的是 Image --> 输出的是 Feature(大致理解:对图像的理解)

按照处理图像的数量分类:单幅图像操作(如滤波)和对多幅图像操作(如求和、求差和逻辑运算等)
按照参与操作的像素范围的不同:点运算和邻运算
根据操作的数学性质:线性操作和非线性操作
点运算指的是对图像中的每一个像素逐个进行同样的灰度变换运算。点运算可以使用下式定义:s=T(r),其中,T 为采用点运算算子,表示了再原始图像和输出图像之间的某种灰度映射关系。点运算常常用于改变图像的灰度范围及分布。点运算引其作用的性质有时也被称为对比度增强、对比度拉伸或灰度变换。

而如果讲点运算扩展,对图像的每一个小范围(领域)内的像素进行灰度变换运算,即称为领域运算或领域滤波。g(x,y)=T(f(x,y))

线性和非线性操作:若对于任意两幅(或两组)图像 F1 和 F2 及任意两个标量 a 和 b 都有:H(aF1+bF1)=aH(F1)+bH(F2),则称 H 为线性算子。不符合上述定义的算子即为非线性算子,对应的的是非线性图像操作。

- 直方图规定化(匹配)
灰度直方图: 是个二维图,横坐标为图像中各个像素点的灰度级别,纵坐标表示具有各个灰度级别的像素在图像中出现的次数或概率。(而归一化直方图的纵坐标则对应着灰度级别在图像中出现的概率)

直方图均衡化: 又称位灰度均衡化,是指通过某种灰度映射使输入图像转换为在每一灰度级上都有近似相同的像素点数的输出图像(即输出的直方图是均匀的)。

要点:<参考《数字图像处理与机器视觉》>
图像几何变化又称为图像空间变化,它将一副图像中的坐标位置映射到另一副图像中的新坐标位置。学习几何变化的关键是要确定这种空间映射关系,以及映射过程中的变化参数。

几何变换不改变图像的像素值,只是在图像平面上进行像素的重新安排。

一个几何变换需要两部分运算:首先是空间变换所需的运算,还需要灰度插值算法。<参考《数字图像处理与机器视觉》P92>

实现几何运算时,有两种方法。第一种称为向前映射法,其原理是将输入图像的灰度一个像素一个像素地转移到输出图像中,即从原图像坐标计算出目标图像坐标。第二中是向后映射法,它是向前映射变换的逆,即输出像素一个一个地映射回输入图像中。(参考《数字图像处理与机器视觉》P106)

我们再来看看《数字图像处理与机器视觉》该书有关几个图像研究内容的解释:

图像配准:图像配准技术是站在几何失真归一化的角度,以一种逆变换的思路来阐述几何变换。 百度百科:图像归一化

所谓图像匹配准就是讲同一场景的两幅或多幅图像进行对准,如人脸自动分析系统中的人脸归一化,即要使各张照片中的人脸具有近似的大小,尽量处于相同的位置。

图像增强:增强的目的是消除噪声,显现那些被模糊了的细节或简单地突出一副图像中读者感兴趣的特征。

增强是图像处理中非常主观的领域,这与图像复原技术刚好相反,图像复原也是改进图像外貌的一个处理领域,但它是客观的。

图像分割是指将图像中具有特殊意义的不同区域划分开来,这些区域是互不相交的,每个区域满足灰度、纹理、彩色等特征的某种相似性准则。图像分割是图像的分析过程中最重要的步骤之一,分割出来的区域可以作为后续特征提取的目标对象。<***《数字图像处理与机器视觉》P395*** >

更多内容还是得翻阅《数字图像处理与机器视觉》以及冈萨雷斯的《数字图像处理》。

地图与卫星影像图的区别
遥感图像处理和普通图像处理有哪些异同呢,本质区别是什么?

卷积神经网络CNN(1)——图像卷积与反卷积(后卷积,转置卷积)
在计算机中,图像是如何被表达和存储的呢?

卷积的计算过程:(浅析图卷积神经网络)

下面这张图为李宏毅深度学习视频课程的截图:

左区域的三个大矩阵是原式图像的输入,RGB三个通道用三个矩阵表示,大小为773。

Filter W0表示1个filter助手,尺寸为3*3,深度为3(三个矩阵);Filter W1也表示1个filter助手。因为卷积中我们用了2个filter,因此该卷积层结果的输出深度为2(绿色矩阵有2个)。

OutPut是卷积后的输出,尺寸为3*3,深度为2。

①为什么每次滑动是2个格子?

滑动的步长叫stride记为S。S越小,提取的特征越多,但是S一般不取1,主要考虑时间效率的问题。S也不能太大,否则会漏掉图像上的信息。

②由于filter的边长大于S,会造成每次移动滑窗后有交集部分,交集部分意味着多次提取特征,尤其表现在图像的中间区域提取次数较多,边缘部分提取次数较少,怎么办?

一般方法是在图像外围加一圈0,细心的同学可能已经注意到了,在演示案例中已经加上这一圈0了,即+pad 1。 +pad n表示加n圈/exdb/mnist/ 获取,它包含了四个部分:

也是同样比例的手写数字数据。

更详细教程及介绍:MNIST 数据

一文全解:使用Tensorflow搭建卷积神经网络CNN识别手写数字图片
神经网络实现手写数字识别(MNIST)
数据科学家必用的25个深度学习的开放数据集!
周志华:关于机器学习的一点思考(周老师的观点很客观、清晰,建议看看)
崔庆才:分享我对爬虫和 AI 行业的一点看法,顺便打个广告

我要回帖

更多关于 室内功能分区 的文章

 

随机推荐