derekdzw大什么时候放出S版note3 4.4.33的

热搜关键字:&
购买过本书的顾客还买过
浏览过本书的顾客还看过
根据浏览记录向您推荐
&&计算机视觉:一种现代方法(第二版)(英文版)&&
著&&&&者:
作&译&者:
出版时间:2012-05
千&字&数:1268
版&&&&次:01-01
页&&&&数:792
开&&&&本:16(185*235)
装&&&&帧:
I&S&B&N :7
换&&&&版:
所属分类:&>>&&>>&
纸质书定价:¥95.0&&&会员价:¥76.00&&&折扣:80折&&&节省:¥19
送积分:95&&&&
&&&&库存:有
共有图书评论0 条&&&&&&
计算机视觉:一种现代方法(第二版)(英文版)
与此 件组合商品一同购买
总定价:¥
组合价:¥
计算机视觉是研究如何使人工系统从图像或多维数据中“感知”的科学。本书是计算机视觉领域的经典教材,内容涉及几何摄像模型、光照和着色、色彩、线性滤波、局部图像特征、纹理、立体相对、运动结构、聚类分割、组合与模型拟合、追踪、配准、平滑表面与骨架、距离数据、图像分类、对象检测与识别、基于图像的建模与渲染、人形研究、图像搜索与检索、优化技术等内容。与前一版相比,本书简化了部分主题,增加了应用示例,重写了关于现代特性的内容,详述了现代图像编辑技术与对象识别技术。
电子工业出版社地址:北京市万寿路南口金家村288号 华信大厦&&&&&&服务电话:010-54114
&&Copyright &电子工业出版社&&All rights reserved计算机视觉是借助于几何、物理和学习理论来建立模型,从而使用统计方法来处理数据的一种方法。本书是近年较为成功的一本计算机视觉教材,内容涉及几何摄像机模型、光照与着色、彩色、线性滤波器、局部图像特性、纹理、立体视觉、从运动求取结构、聚类分割、组合与模型拟合、跟踪、配准、平滑曲面及其轮廓、距离数据、分类、图像分类、图像目标检测、目标识别专题、基于图像的建模与渲染、图像中人的研究、图像搜索与检索、优化技术等。全书条理清楚,系统性强,且各章相对独立;此外,全书理论联系实际,并纳入了近年来该领域的最新研究成果。 《计算机视觉:一种现代方法(第二版)(英文版)》可作为高等院校计算几何、计算机图形学、图像处理、机器人学等专业学生的教材,也可供相关的专业人士阅读。
david forsyth:1984年于威特沃特斯兰德大学取得电气工程学士学位,1986年取得电气工程硕士学位,1989年于牛津贝列尔学院取得博士学位。之后在艾奥瓦大学任教3年,并在加州大学伯克利分校任教10年,之后在伊利诺斯大学任教。2000年和2001年任ieee计算机视觉和模式识别会议执行副主席,2006年任cvpr常任副主席,2008年任欧洲计算机视觉会议执行副主席,是所有关于计算机视觉主要国际会议的常任执委会成员。他为siggraph执委会工作了5期。2006年获ieee技术成就奖,2009年成为ieee会士。
jean ponce:分别于1983年和1988年在巴黎奥赛大学获得troisieme cycle和doctorat d’ &tat计算机科学学士学位。1990年至2005年,作为研究科学家分别供职于法国国家信息研究所、麻省理工学院人工智能实验室和斯坦福大学机器人实验室;1990年至2005年,供职于伊利诺斯大学计算机科学系。2005年开始,成为法国巴黎高等师范学校教授。ponce博士还是《计算机视觉与图像理解》、《计算机图形学与视觉发展与趋势》、ieee《机器人和自动化学报》、计算机视觉国际会议(2003年至2008年为首席编辑)、siam《成像学报》的编委会成员。1997年,任计算机视觉与模式识别ieee会议执行主席,2000年任会议的大会主席。2008年,任欧洲计算机视觉会议大会主席。2003年,因其对计算机视觉的突出贡献,成为ieee会士,并因机器人零件供给的研发工作获得美国专利。
《计算机视觉:一种现代方法(第二版)(英文版)》
i image formation 1
1 geometric camera models 3
1.1 image formation 4
1.1.1 pinhole perspective 4
1.1.2 weak perspective 6
1.1.3 cameras with lenses 8
1.1.4 the human eye 12
1.2 intrinsic and extrinsic parameters 14
1.2.1 rigid transformations and homogeneous coordinates 14
1.2.2 intrinsic parameters 16
1.2.3 extrinsic parameters 18
1.2.4 perspective projection matrices 19
1.2.5 weak-perspective projection matrices 20
1.3 geometric camera calibration 22
1.3.1 alinear approach to camera calibration 23
1.3.2 anonlinear approach to camera calibration 27
1.4 notes 29
2 light and shading 32
2.1 modelling pixel brightness 32
.2.1.1 reflection at surfaces 33
2.1.2 sources and their effects 34
2.1.3 the lambertian+specular model 36
2.1.4 area sources 36
2.2 inference from shading 37
2.2.1 radiometric calibration and high dynamic range images 38
2.2.2 the shape of specularities 40
2.2.3 inferring lightness and illumination 43
2.2.4 photometric stereo: shape from multiple shaded images 46
2.3 modelling interreflection 52
2.3.1 the illumination at a patch due to an area source 52
2.3.2 radiosity and exitance 54
2.3.3 an interreflection model 55
2.3.4 qualitative properties of interreflections 56
2.4 shape from one shaded image 59
2.5 notes 61
3 color 68
3.1 human color perception 68
3.1.1 color matching 68
3.1.2 color receptors 71
3.2 the physics of color 73
3.2.1 the color of light sources 73
3.2.2 the color of surfaces 76
3.3 representing color 77
3.3.1 linear color spaces 77
3.3.2 non-linear color spaces 83
3.4 amodel of image color 86
3.4.1 the diffuse term 88
3.4.2 the specular term 90
3.5 inference from color 90
3.5.1 finding specularities using color 90
3.5.2 shadow removal using color 92
3.5.3 color constancy: surface color from image color 95
3.6 notes 99
ii early vision: just one image 105
4 linear filters 107
4.1 linear filters and convolution 107
4.1.1 convolution 107
4.2 shift invariant linear systems 112
4.2.1 discrete convolution 113
4.2.2 continuous convolution 115
4.2.3 edge effects in discrete convolutions 118
4.3 spatial frequency and fourier transforms 118
4.3.1 fourier transforms 119
4.4 sampling and aliasing 121
4.4.1 sampling 122
4.4.2 aliasing 125
4.4.3 smoothing and resampling 126
4.5 filters as templates 131
4.5.1 convolution as a dot product 131
4.5.2 changing basis 132
4.6 technique: normalized correlation and finding patterns 132
4.6.1 controlling the television by finding hands by normalized
correlation 133
4.7 technique: scale and image pyramids 134
4.7.1 the gaussian pyramid 135
4.7.2 applications of scaled representations 136
4.8 notes 137
5 local image features 141
5.1 computing the image gradient 141
5.1.1 derivative of gaussian filters 142
5.2 representing the image gradient 144
5.2.1 gradient-based edge detectors 145
5.2.2 orientations 147
5.3 finding corners and building neighborhoods 148
5.3.1 finding corners 149
5.3.2 using scale and orientation to build a neighborhood 151
5.4 describing neighborhoods with sift and hog features 155
5.4.1 sift features 157
5.4.2 hog features 159
5.5 computing local features in practice 160
5.6 notes 160
6 texture 164
6.1 local texture representations using filters 166
6.1.1 spots and bars 167
6.1.2 from filter outputs to texture representation 168
6.1.3 local texture representations in practice 170
6.2 pooled texture representations by discovering textons 171
6.2.1 vector quantization and textons 172
6.2.2 k-means clustering for vector quantization 172
6.3 synthesizing textures and filling holes in images 176
6.3.1 synthesis by sampling local models 176
6.3.2 filling in holes in images 179
6.4 image denoising 182
6.4.1 non-local means 183
6.4.2 block matching 3d (bm3d) 183
6.4.3 learned sparse coding 184
6.4.4 results 186
6.5 shape from texture 187
6.5.1 shape from texture for planes 187
6.5.2 shape from texture for curved surfaces 190
6.6 notes 191
iii early vision: multiple images 195
7 stereopsis 197
7.1 binocular camera geometry and the epipolar constraint 198
7.1.1 epipolar geometry 198
7.1.2 the essential matrix 200
7.1.3 the fundamental matrix 201
7.2 binocular reconstruction 201
7.2.1 image rectification 202
7.3 human stereopsis 203
7.4 local methods for binocular fusion 205
7.4.1 correlation 205
7.4.2 multi-scale edge matching 207
7.5 global methods for binocular fusion 210
7.5.1 ordering constraints and dynamic programming 210
7.5.2 smoothness and graphs 211
7.6 using more cameras 214
7.7 application: robot navigation 215
7.8 notes 216
8 structure from motion 221
8.1 internally calibrated perspective cameras 221
8.1.1 natural ambiguity of the problem 223
8.1.2 euclidean structure and motion from two images 224
8.1.3 euclidean structure and motion from multiple images 228
8.2 uncalibrated weak-perspective cameras 230
8.2.1 natural ambiguity of the problem 231
8.2.2 affine structure and motion from two images 233
8.2.3 affine structure and motion from multiple images 237
8.2.4 from affine to euclidean shape 238
8.3 uncalibrated perspective cameras 240
8.3.1 natural ambiguity of the problem 241
8.3.2 projective structure and motion from two images 242
8.3.3 projective structure and motion from multiple images 244
8.3.4 from projective to euclidean shape 246
8.4 notes 248
iv mid-level vision 253
9 segmentation by clustering 255
9.1 human vision: grouping and gestalt 256
9.2 important applications 261
9.2.1 background subtraction 261
9.2.2 shot boundary detection 264
9.2.3 interactive segmentation 265
9.2.4 forming image regions 266
9.3 image segmentation by clustering pixels 268
9.3.1 basic clustering methods 269
9.3.2 the watershed algorithm 271
9.3.3 segmentation using k-means 272
9.3.4 mean shift: finding local modes in data 273
9.3.5 clustering and segmentation with mean shift 275
9.4 segmentation, clustering, and graphs 277
9.4.1 terminology and facts for graphs 277
9.4.2 agglomerative clustering with a graph 279
9.4.3 divisive clustering with a graph 281
9.4.4 normalized cuts 284
9.5 image segmentation in practice 285
9.5.1 evaluating segmenters 286
9.6 notes 287
10 grouping and model fitting 290
10.1 the hough transform 290
10.1.1 fitting lines with the hough transform 290
10.1.2 using the hough transform 292
10.2 fitting lines and planes 293
10.2.1 fitting a single line 294
10.2.2 fitting planes 295
10.2.3 fitting multiple lines 296
10.3 fitting curved structures 297
10.4 robustness 299
10.4.1 m-estimators 300
10.4.2 ransac: searching for good points 302
10.5 fitting using probabilistic models 306
10.5.1 missing data problems 307
10.5.2 mixture models and hidden variables 309
10.5.3 the em algorithm for mixture models 310
10.5.4 difficulties with the em algorithm 312
10.6 motion segmentation by parameter estimation 313
10.6.1 optical flow and motion 315
10.6.2 flow models 316
10.6.3 motion segmentation with layers 317
10.7 model selection: which model is the best fit? 319
10.7.1 model selection using cross-validation 322
10.8 notes 322
11 tracking 326
11.1 simple tracking strategies 327
11.1.1 tracking by detection 327
11.1.2 tracking translations by matching 330
11.1.3 using affine transformations to confirm a match 332
11.2 tracking using matching 334
11.2.1 matching summary representations 335
11.2.2 tracking using flow 337
11.3 tracking linear dynamical models with kalman filters 339
11.3.1 linear measurements and linear dynamics 340
11.3.2 the kalman filter 344
11.3.3 forward-backward smoothing 345
11.4 data association 349
11.4.1 linking kalman filters with detection methods 349
11.4.2 key methods of data association 350
11.5 particle filtering 350
11.5.1 sampled representations of probability distributions 351
11.5.2 the simplest particle filter 355
11.5.3 the tracking algorithm 356
11.5.4 a workable particle filter 358
11.5.5 practical issues in particle filters 360
11.6 notes 362
v high-level vision 365
12 registration 367
12.1 registering rigid objects 368
12.1.1 iterated closest points 368
12.1.2 searching for transformations via correspondences 369
12.1.3 application: building image mosaics 370
12.2 model-based vision: registering rigid objects with projection 375
12.2.1 verification: comparing transformed and rendered source
to target 377
12.3 registering deformable objects 378
12.3.1 deforming texture with active appearance models 378
12.3.2 active appearance models in practice 381
12.3.3 application: registration in medical imaging systems 383
12.4 notes 388
13 smooth surfaces and their outlines 391
13.1 elements of differential geometry 393
13.1.1 curves 393
13.1.2 surfaces 397
13.2 contour geometry 402
13.2.1 the occluding contour and the image contour 402
13.2.2 the cusps and inflections of the image contour 403
13.2.3 koenderink’s theorem 404
13.3 visual events: more differential geometry 407
13.3.1 the geometry of the gauss map 407
13.3.2 asymptotic curves 409
13.3.3 the asymptotic spherical map 410
13.3.4 local visual events 412
13.3.5 the bitangent ray manifold 413
13.3.6 multilocal visual events 414
13.3.7 the aspect graph 416
13.4 notes 417
14 range data 422
14.1 active range sensors 422
14.2 range data segmentation 424
14.2.1 elements of analytical differential geometry 424
14.2.2 finding step and roof edges in range images 426
14.2.3 segmenting range images into planar regions 431
14.3 range image registration and model acquisition 432
14.3.1 quaternions 433
14.3.2 registering range images 434
14.3.3 fusing multiple range images 436
14.4 object recognition 438
14.4.1 matching using interpretation trees 438
14.4.2 matching free-form surfaces using spin images 441
14.5 kinect 446
14.5.1 features 447
14.5.2 technique: decision trees and random forests 448
14.5.3 labeling pixels 450
14.5.4 computing joint positions 453
14.6 notes 453
15 learning to classify 457
15.1 classification, error, and loss 457
15.1.1 using loss to determine decisions 457
15.1.2 training error, test error, and overfitting 459
15.1.3 regularization 460
15.1.4 error rate and cross-validation 463
15.1.5 receiver operating curves 465
15.2 major classification strategies 467
15.2.1 example: mahalanobis distance 467
15.2.2 example: class-conditional histograms and naive bayes 468
15.2.3 example: classification using nearest neighbors 469
15.2.4 example: the linear support vector machine 470
15.2.5 example: kernel machines 473
15.2.6 example: boosting and adaboost 475
15.3 practical methods for building classifiers 475
15.3.1 manipulating training data to improve performance 477
15.3.2 building multi-class classifiers out of binary classifiers 479
15.3.3 solving for svms and kernel machines 480
15.4 notes 481
16 classifying images 482
16.1 building good image features 482
16.1.1 example applications 482
16.1.2 encoding layout with gist features 485
16.1.3 summarizing images with visual words 487
16.1.4 the spatial pyramid kernel 489
16.1.5 dimension reduction with principal components 493
16.1.6 dimension reduction with canonical variates 494
16.1.7 example application: identifying explicit images 498
16.1.8 example application: classifying materials 502
16.1.9 example application: classifying scenes 502
16.2 classifying images of single objects 504
16.2.1 image classification strategies 505
16.2.2 evaluating image classification systems 505
16.2.3 fixed sets of classes 508
16.2.4 large numbers of classes 509
16.2.5 flowers, leaves, and birds: some specialized problems 511
16.3 image classification in practice 512
16.3.1 codes for image features 513
16.3.2 image classification datasets 513
16.3.3 dataset bias 515
16.3.4 crowdsourcing dataset collection 515
16.4 notes 517
17 detecting objects in images 519
17.1 the sliding window method 519
17.1.1 face detection 520
17.1.2 detecting humans 525
17.1.3 detecting boundaries 527
17.2 detecting deformable objects 530
17.3 the state of the art of object detection 535
17.3.1 datasets and resources 538
17.4 notes 539
18 topics in object recognition 540
18.1 what should object recognition do? 540
18.1.1 what should an object recognition system do? 540
18.1.2 current strategies for object recognition 542
18.1.3 what is categorization? 542
18.1.4 selection: what should be described? 544
18.2 feature questions 544
18.2.1 improving current image features 544
18.2.2 other kinds of image feature 546
18.3 geometric questions 547
18.4 semantic questions 549
18.4.1 attributes and the unfamiliar 550
18.4.2 parts, poselets and consistency 551
18.4.3 chunks of meaning 554
vi applications and topics 557
19 image-based modeling and rendering 559
19.1 visual hulls 559
19.1.1 main elements of the visual hull model 561
19.1.2 tracing intersection curves 563
19.1.3 clipping intersection curves 566
19.1.4 triangulating cone strips 567
19.1.5 results 568
19.1.6 going further: carved visual hulls 572
19.2 patch-based multi-view stereopsis 573
19.2.1 main elements of the pmvs model 575
19.2.2 initial feature matching 578
19.2.3 expansion 579
19.2.4 filtering 580
19.2.5 results 581
19.3 the light field 584
19.4 notes 587
20 looking at people 590
20.1 hmm’s, dynamic programming, and tree-structured models 590
20.1.1 hidden markov models 590
20.1.2 inference for an hmm 592
20.1.3 fitting an hmm with em 597
20.1.4 tree-structured energy models 600
20.2 parsing people in images 602
20.2.1 parsing with pictorial structure models 602
20.2.2 estimating the appearance of clothing 604
20.3 tracking people 606
20.3.1 why human tracking is hard 606
20.3.2 kinematic tracking by appearance 608
20.3.3 kinematic human tracking using templates 609
20.4 3d from 2d: lifting 611
20.4.1 reconstruction in an orthographic view 611
20.4.2 exploiting appearance for unambiguous reconstructions 613
20.4.3 exploiting motion for unambiguous reconstructions 615
20.5 activity recognition 617
20.5.1 background: human motion data 617
20.5.2 body configuration and activity recognition 621
20.5.3 recognizing human activities with appearance features 622
20.5.4 recognizing human activities with compositional models 624
20.6 resources 624
20.7 notes 626
21 image search and retrieval 627
21.1 the application context 627
21.1.1 applications 628
21.1.2 user needs 629
21.1.3 types of image query 630
21.1.4 what users do with image collections 631
21.2 basic technologies from information retrieval 632
21.2.1 word counts 632
21.2.2 smoothing word counts 633
21.2.3 approximate nearest neighbors and hashing 634
21.2.4 ranking documents 638
21.3 images as documents 639
21.3.1 matching without quantization 640
21.3.2 ranking image search results 641
21.3.3 browsing and layout 643
21.3.4 laying out images for browsing 644
21.4 predicting annotations for pictures 645
21.4.1 annotations from nearby words 646
21.4.2 annotations from the whole image 646
21.4.3 predicting correlated words with classifiers 648
21.4.4 names and faces 649
21.4.5 generating tags with segments 651
21.5 the state of the art of word prediction 654
21.5.1 resources 655
21.5.2 comparing methods 655
21.5.3 open problems 656
21.6 notes 659
vii background material 661
22 optimization techniques 663
22.1 linear least-squares methods 663
22.1.1 normal equations and the pseudoinverse 664
22.1.2 homogeneous systems and eigenvalue problems 665
22.1.3 generalized eigenvalues problems 666
22.1.4 an example: fitting a line to points in a plane 666
22.1.5 singular value decomposition 667
22.2 nonlinear least-squares methods 669
22.2.1 newton’s method: square systems of nonlinear equations670
22.2.2 newton’s method for overconstrained systems 670
22.2.3 the gauss―newton and levenberg―marquardt algorithms 671
22.3 sparse coding and dictionary learning 672
22.3.1 sparse coding 672
22.3.2 dictionary learning 673
22.3.3 supervised dictionary learning 675
22.4 min-cut/max-flow problems and combinatorial optimization 675
22.4.1 min-cut problems 676
22.4.2 quadratic pseudo-boolean functions 677
22.4.3 generalization to integer variables 679
22.5 notes 682
bibliography 684
list of algorithms 760
计算机视觉是处于知识前沿的领域之一。与其他前沿领域一样,它既激动人心,又显得头绪繁多。在该领域经常出现缺乏权威性的现象,许多有用的做法并没有理论基础,而一些理论在实际应用中又毫无用处。虽然许多方面的研究已见成效,但是它们之间通常缺乏联系。尽管如此,我们还是力图在本书中较有条理地介绍这一领域。
与研究人类或动物的视觉不同,我们认为计算机视觉(或简称为“视觉”),是借助于几何、物理和学习理论来建立模型,从而使用统计方法来处理数据的一项事业。因此,从我们的角度来看,视觉是指,在透彻理解摄像机性能与物理成像过程的基础上(这是本书第一篇的内容),通过对每个像素值进行简单的推理(第二篇),将多幅图像中可能得到的信息综合成相互关联的整体(第三篇),确定像素集之间的联系以便将它们彼此分割开,或推断一些形状信息(第四篇),进而使用几何信息(第五篇)或概率统计技术(第六篇)来识别物体。计算机视觉的应用相当广泛,既有成熟的应用(如移动机器人导航、工业检测、军事侦察),也有新出现的应用(如人机交互、数字图书馆中的图像检索、医学图像分析,以及计算机图形学中合成场景的渲染)。我们将在第七篇中讨论其中的一些具体应用。
第二版的新内容
为增强本书的可用性,我们对第一版做了许多改进。其中最重要的改进源自第一版出版以来计算机视觉这一学科的巨大变化,Internet上现已广泛发布了相关的代码和数据。至少在直觉上,使用其他人发布的代码来建立系统并基于其他人的数据集来评估系统是很平常的。在本书的几章中,我们将给出一些可用的联机资源指南。Internet上的这些URL并非总是一直有效;我们试图提供足够的信息,以便读者使用作者名、数据集或代码的名称在Google中搜索时,可以得到正确的结果。
其他改进包括:
简化了内容。与第一版相比,本书的数学知识更简单、更清晰。特别简化了关于摄像机(第1章)、着色处理(第2章)、由两个视图重建(第7章)及由多个视图重建(第8章)的内容。
给出了更宽泛的应用。具体包括基于图像的建模与渲染(第19章)、图像搜索(第22章)、建立图像马赛克(12.1节)、医学图像配准(12.3节)、解释距离数据(第14章)和理解人类活动(第21章)。
新增了关于现代特性的内容,特别是HOG和SIFT(均在第5章中出现),使得应用范围从建立图像马赛克扩展到目标识别。
详细介绍了现代图像编辑技术,包括删除阴影(3.5节)、填充图像中的孔洞(6.3节)、去噪(6.4节)和交互式图像分割(9.2节)。
全面介绍了现代目标识别技术。讨论先从分类器(第15章)开始,然后介绍图像分类技术(第16章)和目标检测(第17章)的标准方法。最后,第18章回顾了目标识别领域的最新进展。
最后,本书提供了非常详细的索引及最新的参考文献。
视觉研究的目的
计算机视觉研究的主要目的在于从图像或图像序列中提取对世界的描述。毫无疑问,这是很有使用价值的。摄取图像通常不具有破坏性,因而是安全的。同时,这也是一件不费力的事情,并且现在的成本也很低廉。用户希望从图像中获取的描述对于不同的应用可能相差很大。例如,一种称为从运动求取结构的技术,可以从图像序列中获取所见物体的描述及摄像机的运动规律。娱乐产业中,人们利用这种技术来建立建筑物的三维模型,此时人们关注结构而忽略运动信息。这些模型可以应用到实际建筑物无法使用的场合,如火灾、爆炸等场合。只要利用数量很少的一组照片就可以构造出良好、简单准确、令人信服的模型。而用这种技术来控制移动机器人时,人们一般只会关注运动而将结构舍弃。这是因为,一般只知道机器人工作区域的某些信息,而不知道机器人在这一区域的确切位置,可以由固定于机器人之上的摄像机的运动信息来确定机器人的位置。
计算机视觉还有许多其他方面的重要应用。应用之一是医学图像处理与理解,人们可以设计软件系统来增强图像,或鉴别重要的现象或事件,或通过成像获得可视化信息。应用之二是,检验人们对物体拍摄的图像,以便确定它们是否符合规定。应用之三是卫星图像的理解,这既可用于军事目的(例如,编制程序来确定某一地区近来是否有与军事有关的现象发生,或估计轰炸所引起的损害),也可以服务于民用目的(例如,今年的玉米收成会怎样,有多少雨林被保存下来)。应用之四是是对收集的图片加以组织与结构化。我们知道如何去搜索与浏览文本库(尽管这仍然是难以解决的课题),但确实不知道如何处理图像或视频库。
计算机视觉自身正处于发展的关键时期。从20世纪60年代起,人们就想利用计算机视觉的原理构造出有用的计算机系统,但这只是在最近才成为可能。这种繁荣的局面是受多方面的因素驱动的:计算机与成像系统的价格已经很便宜。不久前,要得到较好的数字彩色图像,需要花费上万美元,而现在至多几百美元就已足够。同样,以前很难见到彩色打印机,往往都是在研究实验室中使用,而现在它们已出现在许多家庭中。这意味着进行研究工作变得更加容易,也意味着许多人产生了一些需要使用计算机视觉方法来解决的问题。例如,人们希望将收集的图片组织起来,为他们所在的周围世界构造三维模型,并且管理与编辑收集的视频。我们对视觉中的基本几何学和物理学的理解及如何运用它这一点已经得到了极大改善。我们开始有可能解决许多人关注的问题,但难题并未得到解决,并且许多较容易的问题也未得到解决(打算解决难题时要保持清醒的头脑)。现在正是研究这一主题的时候。
本书的内容
我们认为计算机视觉从业人员都应知道本书所包含的内容,但要强调的是,本书是面向更广泛的读者的。我们希望从事计算几何、计算机图形学、图像处理、普通成像、机器人等工作的人员会感到这是一本有益的参考书。我们试图使本书适合于对视觉这一课题感兴趣的本科高年级学生或研究生一年级的学生。每一章覆盖这一课题的不同部分,且各章之间是相对独立的,如表1所示。这就意味着读者不仅可以阅读整本书,也可着重于某一部分。一般来说,我们已努力做到使每一章从容易的内容开始,而把深奥难懂的内容放在最后。每一章末尾都有一个小结,包含历史性资料及相应的观点。我们努力使本书叙述有用的概念或今后有用的概念。我们把重点放在理解成像的基本几何和物理学知识上,但也力图把它们与实际应用联系起来。总之,本书反映了几何学和多种形式的应用统计学近年来对计算机视觉的多方面的影响。
阅读方式建议
虽然从头到尾阅读本书会很累,但会有许多收获,全书的内容对于一个学期的教学来说有点太多了。当然,未来(或现正)从事计算机视觉工作的专业人员应该逐字阅读本书,完成每一个练习,并报告所发现的问题以便作者在第三版中进行修订。尽管学习计算机视觉并不要求学生具有很深的数学知识,但它的确要求学生熟悉多种不同的数学概念。对于具有工科高年级数学水平的读者,我们已经努力使得该书能自成体系,以便读者无须参考其他教材。因为本书是关于计算机视觉而不是关于应用数学的,因此我们也试着将数学知识降低到最低要求的水平,同时保留了将数学内容穿插在主要章节正文中而不在附录中列出的做法。
总之,我们已经努力降低了各章之间的联系,以方便只对某些专题感兴趣的读者阅读本书。但是,做到各章完全自成体系是不可能的,表1中给出了各章之间的联系。
. 我们尽力制作了丰富的索引,以便读者遇到新术语时,可以按索引在本书中找到它们。计算机视觉现在有着丰富的知识资源。人们广泛共享了数据集和软件,因此本书的相关章节中提供了许多有用数据集和软件的链接;读者也可查阅“software”和“datasets”词条下或通用主题下的索引。
我们尽力提供了最新的参考文献,但不能提供任何主题的完整参考文献,因为提供的文献数量已经足够。
表1 各章之间的关联性:“必读章节”一列给出的章节必须很好地理解,而“有助章节”一列给出的章节对学习该章是有帮助的
篇章节必 读 章 节有 助 章 节
第一篇1.几何摄像机模型
2.光照与渲染
第二篇4.线性滤波器
5.局部图像特性4
6.纹理5, 42
第三篇7.立体视觉122
8.从运动求取结构1, 722
第四篇9.聚类分割2, 3, 4, 5, 6, 22
10.组合与模型拟合9
11.追踪2, 5, 22
第五篇12.配准114
13.平滑曲面及其轮廓1
14.距离数据12
15.学习分类22
16.对图像进行分类15, 5
17.检测图像中的目标16, 15, 5
18.目标识别的主题17, 16, 15, 5
第六篇19.基于图像的建模与渲染1, 2, 7, 8
20.研究图像中的人17, 16, 15, 11, 5
21.图像搜索与检索17, 16, 15, 11, 5
第七篇22.优化技术
本书未包含的内容
计算机视觉的参考文献数量是十分巨大的,因此要写出一本书能让普通读者感兴趣并不是一件容易的事情。为此,我们不得不删掉一些素材、去掉一些主题。
去掉某些主题主要依据个人判断,或是因为我们不得不缩短某些章节,还有其他种种理由。我们有意忽略了那些主要与历史有关的细节,而将历史评论放在每章的末尾。
在讲解概念时,我们力图做到最大的包容性与细致性,但由于计算机视觉本身是一个非常庞大的主题,因此这并不意味着我们具有渊博的知识,而意味着一些概念的历史意义可能比本书阐述的更深。
关于计算机视觉的最新教材如下:Szeliski(2010)讲解整个视觉;Parker(2010)主要关注算法;Davies(2005)和Steger et al.(2008)致力于特殊的应用,特别是配准;Bradski and Kaehler(2008)注重于对计算机视觉程序开源包OpenCV的介绍。
还有许多更为专业的参考文献。Hartley and Zisserman(2000a)详细介绍了多视图几何及多视图参数的估计。Ma et al.(2003b)介绍了三维重建方法。Cyganek and Siebert(2009)介绍了三维重建与匹配。Paragios et al.(2011)介绍了计算机视觉中的数学模型。Blake et al.(2011)总结了计算机视觉领域的最新马尔可夫随机场模型。Li and Jain(2005)详细介绍了面部识别。Moeslund et al.(2011)在本书写作时还未出版,该书将详细介绍用于观察人类的计算机视觉方法。Dickinson et al.(2009)收集整理了目标识别领域的最新进展文献。Badke(2012)这本即将出版的著作将介绍计算机视觉方法在特效方面的应用。
各种会议论文集中也有许多关于计算机视觉的文献。主要的三个会议如下:IEEE计算机视觉与模式识别会议(CVPR),IEEE计算机视觉国际会议(ICCV),欧洲计算机视觉会议。地区性会议上也出现了大量文献,特别是亚洲计算机视觉会议(ACCV)和英国机器视觉会议(BMVC)。网络上也出现了大量发表的论文,使用搜索引擎可以搜索到它们。许多大学提供了付费论文,还有很多论文也可以免费获取。
许多不知名的评阅者已经阅过本书第一版和第二版的几种草稿版本,并对本书做出了非常有用的贡献。感谢他们所花费的时间与精力。
第一版的编辑Alan Apt在Jake Warde的帮助下,组织了本书的评阅工作,在此对他们表示感谢。Integre Technical Publishing公司的Leslie Galen、Joe Albrecht和Dianne Parish帮助解决了第一版的校对和书中插图的许多问题。
第二版的编辑Tracy Dunkelberger在Carole Snyder的帮助下组织了本书的评阅工作,在此对他们表示感谢。还要感谢Marilyn Floyd帮助我们解决了各种制作问题。
一些同事评阅了本书的全部内容或若干章节,他们对这些章节的修订提出了宝贵且详细的建议。我们要感谢Narendra Ahuja、Francis Bach、Kobus Barnard、Margaret Fleck、Martial Hebert、Julia Hockenmaier、Derek Hoiem、David Kriegman、Jitendra Malik和Andrew Zisserman。
我们的许多学生也在提出建议、图示创意、校对评论及其他方面做出了贡献。我们要感谢Okan Arikan、Louise Benoit、Tamara Berg、Sébastien Blind、Y-Lan Boureau、Liang-Liang Cao、Martha Cepeda、Stephen Chenney、Frank Cho、Florent Couzinie-Devy、Olivier Duchenne、Pinar Duygulu、Ian Endres、Ali Farhadi、Yasutaka Furukawa、Yakup Genc、John Haddon、Varsha Hedau、Nazli Ikizler-Cinbis、Leslie Ikemoto、Sergey Ioffe、Armand Joulin、Keivin Karsch、Svetlana Lazebnik、Cathy Lec、Binbin Liao、Nicolas Loeff、Julien Mairal、Sung&il Pae、David Parks、Fred Rothganger、Amin Sadeghi、Alex Socokin、Attawith Sudsang、Du Tran、Duan Tran、Gang Wang、Yang Wang和Ryan White,以及在加州大学伯克利分校、UIUC和ENS上视觉课的一些学生们的贡献。
所幸的是,许多大学的同事们在视觉课中使用了本书的草稿版本。使用过这本书初稿版本的学校有卡内基梅隆大学、斯坦福大学、威斯康辛大学、加州大学圣巴巴拉分校及南加州大学,也可能有一些我们不知道的其他学校。我们对所有使用本书的读者所提出的建设性意见表示感谢,特别要感谢Chris Bregler、Chuck Dyer、Martial Hebert、David Kriegnum、B. S. Manjunath和Ram Nevatia,他们提供了许多详尽的、非常有帮助的评论与改正意见。
以下各位也为本书提供了宝贵意见:Karteek Alahari、Aydin Alayliouglu、Srinivas Akella、Francis Bach、Marie Banich、Serge Belongie、Tamara Berg、Ajit M. Chaudhari、Naveneet Dalal、Jennifer Evans、Yasutaka Furukawa、Richard Hartley、Glenn Healey、Mike Heath、Martial Hebert、Janne Heikkila、Hayley Iben、Stéphanie Jonqnières、Ivan Latev、Christine Laubenberer、Svetlana Lazebnik、Yann LeCun、Tony Lewis、Benson Limketkai、Julien Mairal、Simon Maskell、Brian Milch、Roger Mohr、Deva Ramanan、Guillermo Sapiro、Cordelia Schmid、Brigitte Serlin、Gerry Serlin、Ilan Shimshoni、Jamie Shotton、Josef Sivic、Eric de Sturler、Camillo J. Taylor、Jeff Thompson、Claire Vallat、Daniel S. Wilkerson、Jinghan Yu、Hao Zhang、Zhengyou Zhang和Andrew Zisserman。
在第一版中,我们曾提及:
如果读者发现了明显的印刷排版错误,请发电子邮件至daf@cs.berkeley.edu,使用标题“book typo”并告知我们细节,我们将在第二版中感谢每个错误的第一位发现者。
业已证明,这是无效的。DAF并不具有管理与保护电子邮件日志的能力。我们要感谢发现错误的所有人员;我们已力图修正这些错误并对所有帮助过我们的人员表示谢意。
还要感谢P. Besl、B. Boufama、J. Costeira、P. Debevec、O. Fangeras、Y. Genc、M. Hebert、D. Huber、K. Ikenchi、A. E. Johnson、T. Kanade、K. Kutulakos、M. Levoy、Y. LeCun、S. Mahamud、R. Mohr、H. Moravec、H. Murase、Y. Ohta、M. Okutami、M. Pollefeys、H. Saito、C. Schmid、J. Shotton、S. Sullivan、C. Tomasi和M. Turk,感谢他们为本书的某些插图提供了原件。
DAF要感谢美国国家科学基金的支持。对本书写作有直接贡献的基金项目包括IIS-0803603、IIS-1029035和IIS-0916014;其他项目在此处略去。DAF感谢来自美国海军研究所的研发支持,正在研究的项目有N-0890和N-0934,它们是NURI规划的一部分。这些材料中的任何意见、结论或建议只代表作者本人,与NSF或ONR无关。
DAF要感谢其他领域的贡献者。这些贡献者包括Gerald Alanthwaite、Mike Brady、Tom Fair、Margaret Fleck、Jitendra Malik、Joe Mundy、Mike Rodd、Charlie Rothwell和Andrew Zisserman。JP要对Olivier Faugeras、Mike Brady和Tom Binford表示感谢。他还要感谢Sharon Collins的帮助。没有她,本书不可能顺利完成。两位作者还要感谢Jan Koenderink对本书写作的指导。
图形:本书中所用的一些图形源自IMSI的主相片集,1895 Francisco Blvd. East, San Rafael, CA 。我们对来自已出版文献的图形进行了扩充使用;图题中对此进行了说明。感谢那些让我们使用这些图形的版权所有者。
参考文献:在准备参考文献的过程中,我们扩充了Keith Price关于计算机视觉的优秀文献,读者可在网址http://iris.usc.edu/Vision-Notes/bibliography/contents.html找到它们。
本书可从第一页开始讲起,对于两个学期的教学,内容还是比较紧凑的。可以将应用中的一章(如“基于图像的渲染”的相关章节)放在第一学期讲授,而将有关应用的另一章放在第二学期讲授。有的专业可能不需要如此详细的课程。我们在编排本书时,考虑到了教师可以按自己的偏好来选择讲授其中的内容。表2到表6列出了一些用于一学期15周课的教学大纲案例,它们是根据我们的设想来安排的。我们鼓励(并希望)教师们按自己的兴趣来重新安排。
表2列出的教学大纲,是为计算机科学、电气工程或其他工程与自然科学学科的本科高年级学生或一年级研究生设计的计算机视觉导论课,历时一个学期。学生们可以学到该领域的多个方面的知识,包括数字图书馆和基于图像的渲染等方面的应用。尽管最难的理论部分被略去了,但是成像的基本几何和物理学知识是较深入的。我们假设学生具有较广的背景知识,并建议具备概率论的背景知识。我们将应用章节放到本书的末尾,但许多人可能会选择提前讲授这些内容。
表2 对计算机科学、电子工程或其他工科和理科的一年级研究生或本科高年级学生开设一个学期计算机视觉导论课的内容
周次章号节号主 要 内 容
11, 21.1, 2.1, 2.2.x针孔摄像机,像素着色模型,着色示例的一个推论
233.1~3.5人类彩色感知,彩色物理学,彩色空间,图像彩色模型
34全部线性滤波器
45全部建立局部特性
566.1~6.2来自滤波器和矢量量化的纹理表示
677.1~7.2双目几何,立体视觉
788.1使用立体摄像机从运动求取结构
899.1~9.3分割概念、应用,通过聚类像素进行分割
.4霍夫变换,拟合线,鲁棒性,RANSAC
~11.3简单的跟踪策略,通过匹配跟踪,卡尔曼滤波器,数据相关
1112全部配准
1215全部分类
1316全部对图像进行分类
1417全部检测
15选修全部第14章、第19章、第20章、第21章(应用主题)之一
表3所列的教学大纲是为计算机图形学专业的学生设计的。他们想知道与自己的课题有关的视觉基础知识。我们在此强调了由图像信息不定期恢复物体模型的方法,了解这些内容需要了解摄像机和滤波器的运作机理。跟踪在图形学领域变得很有用,其对运动分析十分重要。我们认为学生已具有很广的背景知识,并对概率论有一定的了解。
表3适用于计算机图形学专业学生的教学大纲,他们想知道视觉与自己的课题有关的一些内容
周 次章 号节 号主 要 内 容
11, 21.1, 2.1, 2.2.4针孔摄像机,像素着色模型,光度学体视
233.1~3.5人类彩色感知,彩色物理学,彩色空间,图像彩色模型
34全部线性滤波器
45全部建立局部特性
566.3, 6.4纹理合成,图像去噪
677.1, 7.2双目几何,立体视觉
777.4, 7.5高级立体方法
888.1使用立体摄像机从运动求取结构
.4霍夫变换,拟合线,鲁棒性,RANSAC
.3分割概念、应用,通过聚类像素进行分割
~11.3简单的跟踪策略,通过匹配跟踪,卡尔曼滤波器,数据相关
1212全部配准
1314全部距离数据
1419全部基于图像的建模与渲染
1513全部表面和轮廓
表4中的教学大纲主要是为对计算机视觉应用感兴趣的学生制定的。该教学大纲覆盖了与应用直接有关的内容,我们假定这些学生已具有相当广泛的背景知识,也可以安排背景阅读。
表4 适用于对计算机应用感兴趣的学生的教学大纲
周次章号节号主 要 内 容
11, 21.1, 2.1, 2.2.4针孔摄像机,像素着色模型,光度学体视
233.1~3.5人类彩色感知,彩色物理学,彩色空间,图像彩色模型
34全部线性滤波器
45全部建立局部特性
566.3, 6.4纹理合成,图像去噪
677.1, 7.2双目几何,立体视觉
777.4, 7.5高级立体方法
88, 98.1, 9.1~9.2来自立体相机运动的结构,分割思想与应用
.4霍夫变换,拟合线,鲁棒性,RANSAC
1012全部配准
1114全部距离数据
1216全部对图像进行分类
1319全部基于图像的建模与渲染
1420全部研究图像中的
1521全部图像搜索与检索
表5的教学大纲是为认知科学或人工智能学科的学生设计的,他们需要对计算机视觉重要概念的基本梗概有所了解。这种学模式比较宽松,对学生在数学方面的要求也较少。
表5 适用于认知科学或人工智能学科的学生的教学大纲,他们希望对计算机视觉的重要概念有一个基本的了解
周次章号节号主 要 内 容
11, 21.1, 2.1, 2.2.x针孔摄像机,像素着色模型,着色示例的一个推论
233.1~3.5人类彩色感知,彩色物理学,彩色空间,图像彩色模型
34全部线性滤波器
45全部建立局部特性
566.1, 6.2来自滤波器和向量量化的纹理表示
677.1, 7.2双目几何,立体视觉
899.1~9.3分割思想、应用,通过聚类像素进行分割
.2简单的跟踪策略,使用匹配光学流程进行跟踪
1015全部分类
1116全部对图像进行分类
1220全部研究图像中的人
1321全部图像搜索与检索
1417全部检测
1518全部目标识别中的主题
对于计算机视觉的教学,我们的经验是,学习单独的概念不会出现任何困难,尽管其中的有些概念学习起来要难一些。难点在于这门学科有着太多的新概念。每个子问题看起来都要求学生进行思考,并需要使用新工具来处理它们。这就使得学习这门课程相当使人畏惧。表6给出的教学大纲是为那些对应用数学、电气工程或物理学有强烈兴趣的学生设计的。该教案使得一学期的内容很紧凑,进展很快,并且假设学生能够适应大量的教学内容。
表6 适用于对应用数学、电气工程或物理学有浓厚兴趣的学生的教学大纲
周次章号节号主 要 内 容
11, 2全部摄像机,着色
23全部彩色
34全部线性滤波器
45全部建立局部特性
56全部纹理
67全部立体视觉
78全部使用立体摄像机从运动求取结构
89全部通过聚类像素进行分割
910全部拟合模型
~11.3简单的跟踪策略,使用匹配光学流程进行跟踪,卡尔曼滤波器,数据相关
周次章号节号主 要 内 容
1112全部配准
1215全部分类
1316全部对图像进行分类
1417全部检测
15选修全部第14章、第19章、第20章、第21章之一
我们在全书中使用如下符号表示:点、线和面由斜体罗马或希腊字母表示(如P、 或Π)。向量通常由粗斜体罗马字母或希腊字母表示(如v、P或 ),但连接两个点P和Q的向量通常由 表示。小写字母通常用于表示图像平面中的几何图形(如p、p和 ),而大写字母用于表示场景对象(如P和Π)。矩阵由书写体的罗马字母表示(如 )。
我们熟悉的三维欧几里得空间由 3表示,由n个实元形成的向量空间由 表示,该空间满足加法与标量相乘定律,其中0用于表示零向量。同样,由 矩阵形成的具有实数项的向量空间由 表示。当 时,Id用于表示单位矩阵,即对角项为1而非对角项为0的矩阵。带有系数 的 矩阵 的转置矩阵,由带有系数 的 矩阵 T表示。 的元素通常由列向量或 矩阵来标识,例如, 是 矩阵(或行向量)的转置矩阵,即一个 矩阵(或列向量),或 中的一个等效元素。
中两个向量 和 的点积(或内积)定义为
它也可写为矩阵乘积的形式,即 。我们用 来表示向量 的欧几里得范数的平方,用d表示由 n中欧几里得范数引起的距离函数,即 。给定 中的一个矩阵 ,则通常使用
相关品牌分类
购物网址大全
计算机视觉:一种现代方法(第二版)(英文版)报价为76.00,以上所显示的计算机视觉:一种现代方法(第二版)(英文版)价格等详情是从互动出版网网站同步过来的或智购网购物搜索引擎自动搜索形成的索引快照信息(商品信息未经审核,快照亦可能未经更新),如欲购买请以互动出版网网站上的计算机视觉:一种现代方法(第二版)(英文版)报价为准。

我要回帖

更多关于 note3升级4.4.3 的文章

 

随机推荐