那么在计算机视觉领域,我们怎样去定义“观察”(see)这个概念,和我们人类的理解一致呢?
1、1982年 David Marr: To know what is where by looking(识别、检测、分割)
2、这个物体在这个真实世界当中的3D信息(SLAM)
3、这个场景正在发生什么,希望计算机能够根据图像或者视频,我们回答一些问题(事件、问答)
物体检测:用于定位图像中的多个不同类别的物体 定位+分类
算法性能的评价:
1、分类问题的:precision 精准率 recall召回率
2、AP:average precision,每一类别P值的平均值
mAP:mean average precision,对所有类别的AP取均值。
多标签图像分类任务中图片的标签不止一个,因此评价不能用普通单标签图像分类的标准
static int coco_ids[] = {1,2,3,4,5,6,7,8,9,10,11,13,14,15,16,17,18,19,20,21,22,23,24,25,27,28,31,32,33,34,35,36,37,38,39,40,41,42,43,44,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,67,70,72,73,74,75,76,77,78,79,80,81,82,84,85,86,87,88,89,90};
void train_detector(char *datacfg, char *cfgfile, char *weightfile, int *gpus, int ngpus, int clear)