Faster RCNN中的anchor的得出原理是什么?

Faster RCNN中给定一张图如何计算anchor的数量?

如何改变Faster RCNN中anchor的数量和尺寸?



Faster RCNN中的anchor的得出原理是什么?







  1. def generate_anchors(base_size=16, ratios=[0.5, 1, 2],
  2. scales=2 ** np.arange(3, 6)):
  3. """
  4. Generate anchor (reference) windows by enumerating aspect ratios X
  5. scales wrt a reference (0, 0, 15, 15) window.
  6. """
  7. base_anchor = np.array([1, 1, base_size, base_size]) - 1
  8. ratio_anchors = _ratio_enum(base_anchor, ratios)
  9. anchors = np.vstack([_scale_enum(ratio_anchors[i, :], scales)
  10. for i in xrange(ratio_anchors.shape[0])])
  11. return anchors

其中,base_anchor是默认的anchor初始值为[0, 0, 15, 15]。ratio_anchors得出的是上面介绍的1)的结果,就是进行按长宽比例进行变换的三个预测框的信息。再下面的经过_scale_enum函数来处理后的结果,对应着2)所介绍的,生成了不同缩放比例的9个预测框信息。



  1. ratio_anchors = _ratio_enum(base_anchor, ratios)
  2. def _ratio_enum(anchor, ratios):
  3. """
  4. Enumerate a set of anchors for each aspect ratio wrt an anchor.
  5. """
  6. w, h, x_ctr, y_ctr = _whctrs(anchor)
  7. size = w * h
  8. size_ratios = size / ratios
  9. ws = np.round(np.sqrt(size_ratios))
  10. hs = np.round(ws * ratios)
  11. anchors = _mkanchors(ws, hs, x_ctr, y_ctr)
  12. return anchors





  1. def _whctrs(anchor):
  2. """
  3. Return width, height, x center, and y center for an anchor (window).
  4. """
  5. w = anchor[2] - anchor[0] + 1
  6. h = anchor[3] - anchor[1] + 1
  7. x_ctr = anchor[0] + 0.5 * (w - 1)
  8. y_ctr = anchor[1] + 0.5 * (h - 1)
  9. return w, h, x_ctr, y_ctr


  1. def _mkanchors(ws, hs, x_ctr, y_ctr):
  2. """
  3. Given a vector of widths (ws) and heights (hs) around a center
  4. (x_ctr, y_ctr), output a set of anchors (windows).
  5. """
  6. ws = ws[:, np.newaxis]
  7. hs = hs[:, np.newaxis]
  8. anchors = np.hstack((x_ctr - 0.5 * (ws - 1),
  9. y_ctr - 0.5 * (hs - 1),
  10. x_ctr + 0.5 * (ws - 1),
  11. y_ctr + 0.5 * (hs - 1)))
  12. return anchors



  1. anchors = np.vstack([_scale_enum(ratio_anchors[i, :], scales)
  2. for i in xrange(ratio_anchors.shape[0])])
  3. def _scale_enum(anchor, scales):
  4. """
  5. Enumerate a set of anchors for each scale wrt an anchor.
  6. """
  7. w, h, x_ctr, y_ctr = _whctrs(anchor)
  8. ws = w * scales
  9. hs = h * scales
  10. anchors = _mkanchors(ws, hs, x_ctr, y_ctr)
  11. return anchors


需要再解释的地方就是,在总函数哪里,列表里加循环那步有点复杂,解释起来就是,ratio_anchors[i, :]将上步得到的3个框信息,逐一的导入,i就是表示第几个框(ratio_anchors.shape[0])),后面的scales系数,就是对应着三个缩放系数。





Faster RCNN中给定一张图如何计算anchor的数量?

以源码为例,源码初始坐标为[0, 0, 15, 15]意味着第一个anchors对应的预测框的左上角坐标为(0,0),右下角的坐标为(15,15)。那么这个框移动的时候,以边长为步长,覆盖过的区域就不再覆盖了,所以,可以断步长为16(应知计算机里面是从0就开始计数的,0到15,是一共16)那么,给定一个输入图片,可以产生多少个预测框呢?假设给定一个600*800的大小的图片,那么先计算可移动的覆盖次数即:(800/16)*(600/16)=1900,那么,每次覆盖产生9个anchors,则最终的结果是1900*9=17100,一共17100个anchor.对应效果如上图右边。


如何改变Faster RCNN中anchor的数量和尺寸?

还是要对应源码来解释的,Faster R-CNN源码产生anchors的部分,位置$Faster RCNN/lib/rpn/generate_anchors.py:

  1. def generate_anchors(base_size=16, ratios=[0.5, 1, 2],
  2. scales=2 ** np.arange(3, 6)):




首先设置anchor的目的是为了使得预测框与ground truth的IOU更好(这个就好比是中心思想,一切操作的源头,一定记着)

那么是怎么实现的呢?YOLO(准确的说是v2和v3的版本)的anchor机制是借鉴Faster RCNN的RPN来设定的,但又稍有不同,YOLO中的anchor的数量不像是RPN那样提前人工设置好的,而是,根据所检测的数据集的情况通过用K-means++算法通过聚类的方式得出来的。那么这里有个问题,就是明明中心思想是为了使预测框和GT的IOU更好,为啥和anchor的数量有关系呢?这就要解释anchor的机制,在RPN中,anchor的数量是由scales、ratios两个参数共同的乘积决定的(具体见上问),其中ratios就代表着长宽比,那么,引用到YOLO里面来,为了让预测框和TGT有更好的IOU,就需要对ratios这个参数进行设置,使得使用的anchor的预测框的尺寸跟最多的GT尺寸保持一种“天然”重合的趋势,即让开始的时候就把anchor的预测框形状设置成训练数据中最普遍的GT长宽比的大小,这样得出来的结果不就可以有更好的IOU了吗?那么,就对ratios进行设置,那么怎么设置呢?总不能像RPN那样提前规定好一个固定的长宽比进行设定吧,不同的训练集有不同分布的GT长宽分布,不能要针对不同对象选取不同的对策,故而,采用了用聚类的方式,找出所训练数据集中最普遍的长宽比,继而,用这个长宽比来作为anchor预测框的长宽比。那么在YOLO中,并没有关于scales缩放的操作,只是调整了长宽比,假设最后得出了n组长宽比,那么最后,决定的每个anchor对应的预测框数量就是n*1(scales认为是1)个了,那么大神们嘴里说的5个anchor指的就是再yolov2版本的时候,人家是用COCO数据集来作为训练集,那么对这个数据集通过聚类聚出了5个聚类中心,即有5个可以涵盖整个数据集框分布的最常见长宽比,那么对应的,就是所谓的“5”了。




  1. # 计算给定bounding boxes的n_anchors数量的centroids
  2. # label_path是训练集列表文件地址
  3. # n_anchors 是anchors的数量
  4. # loss_convergence是允许的loss的最小变化值
  5. # grid_size * grid_size 是栅格数量
  6. # iterations_num是最大迭代次数
  7. # plus = 1时启用k means ++ 初始化centroids
  8. def compute_centroids(label_path,n_anchors,loss_convergence,grid_size,iterations_num,plus):
  9. boxes = []
  10. label_files = []
  11. f = open(label_path)
  12. for line in f:
  13. label_path = line.rstrip().replace('images', 'labels')
  14. label_path = label_path.replace('JPEGImages', 'labels')
  15. label_path = label_path.replace('.jpg', '.txt')
  16. label_path = label_path.replace('.JPEG', '.txt')
  17. label_files.append(label_path)
  18. f.close()
  19. for label_file in label_files:
  20. f = open(label_file)
  21. for line in f:
  22. temp = line.strip().split(" ")
  23. if len(temp) > 1:
  24. boxes.append(Box(0, 0, float(temp[3]), float(temp[4])))
  25. if plus:
  26. centroids = init_centroids(boxes, n_anchors)
  27. else:
  28. centroid_indices = np.random.choice(len(boxes), n_anchors)
  29. centroids = []
  30. for centroid_index in centroid_indices:
  31. centroids.append(boxes[centroid_index])
  32. # iterate k-means
  33. centroids, groups, old_loss = do_kmeans(n_anchors, boxes, centroids)
  34. iterations = 1
  35. while (True):
  36. centroids, groups, loss = do_kmeans(n_anchors, boxes, centroids)
  37. iterations = iterations + 1
  38. print("loss = %f" % loss)
  39. if abs(old_loss - loss) < loss_convergence or iterations > iterations_num:
  40. break
  41. old_loss = loss
  42. for centroid in centroids:
  43. print(centroid.w * grid_size, centroid.h * grid_size)
  44. # print result
  45. for centroid in centroids:
  46. print("k-means result:\n")
  47. print(centroid.w * grid_size, centroid.h * grid_size)

下面这部分是计算初始化的聚类中心的,先是随机的选一个框来作为初始化的框,centroid_index=np.random.choice(boxes_num, 1);然后,计算所有框到这个框的距离,并累加起来,将累加起来的值,乘上一个(0,1)之间的随机数,变成一个阈值,distance_thresh = sum_distance*np.random.random(),然后,再把刚刚的所有框都遍历一遍,如果大于这个阈值就认为下一个聚类中心点的聚类中心就是它了(这个过程中,所求的聚类中心的数量是需要提前设定好的,),这也是本着K-Means++算法在聚类中心的初始化过程中的基本原则是使得初始的聚类中心之间的相互距离尽可能远来进行,最后那个随机数选阈值的思路,学名叫做:以概率选择距离最大的样本作为新的聚类中心。

  1. # 使用k-means ++ 初始化 centroids,减少随机初始化的centroids对最终结果的影响
  2. # boxes是所有bounding boxes的Box对象列表
  3. # n_anchors是k-means的k值
  4. # 返回值centroids 是初始化的n_anchors个centroid
  5. def init_centroids(boxes,n_anchors):
  6. centroids = []
  7. boxes_num = len(boxes)
  8. centroid_index = np.random.choice(boxes_num, 1)
  9. centroids.append(boxes[centroid_index])
  10. print(centroids[0].w,centroids[0].h)
  11. for centroid_index in range(0,n_anchors-1):
  12. sum_distance = 0
  13. distance_thresh = 0
  14. distance_list = []
  15. cur_sum = 0
  16. for box in boxes:
  17. min_distance = 1
  18. for centroid_i, centroid in enumerate(centroids):
  19. distance = (1 - box_iou(box, centroid))
  20. if distance < min_distance:
  21. min_distance = distance
  22. sum_distance += min_distance
  23. distance_list.append(min_distance)
  24. distance_thresh = sum_distance*np.random.random()
  25. for i in range(0,boxes_num):
  26. cur_sum += distance_list[i]
  27. if cur_sum > distance_thresh:
  28. centroids.append(boxes[i])
  29. print(boxes[i].w, boxes[i].h)
  30. break
  31. return centroids

最后,就是通过迭代来选取新的聚类中心的过程了,思路也是一样,计算最小距离,并记录下来,然后,把这些进行累加new_centroids[i].w /= len(groups[i]) new_centroids[i].h /= len(groups[i],再平均求和,就是新聚类中心的w和h了。

  1. # 进行 k-means 计算新的centroids
  2. # boxes是所有bounding boxes的Box对象列表
  3. # n_anchors是k-means的k值
  4. # centroids是所有簇的中心
  5. # 返回值new_centroids 是计算出的新簇中心
  6. # 返回值groups是n_anchors个簇包含的boxes的列表
  7. # 返回值loss是所有box距离所属的最近的centroid的距离的和
  8. def do_kmeans(n_anchors, boxes, centroids):
  9. loss = 0
  10. groups = []
  11. new_centroids = []
  12. for i in range(n_anchors):
  13. groups.append([])
  14. new_centroids.append(Box(0, 0, 0, 0))
  15. for box in boxes:
  16. min_distance = 1
  17. group_index = 0
  18. for centroid_index, centroid in enumerate(centroids):
  19. distance = (1 - box_iou(box, centroid))
  20. if distance < min_distance:
  21. min_distance = distance
  22. group_index = centroid_index
  23. groups[group_index].append(box)
  24. loss += min_distance
  25. new_centroids[group_index].w += box.w
  26. new_centroids[group_index].h += box.h
  27. for i in range(n_anchors):
  28. new_centroids[i].w /= len(groups[i])
  29. new_centroids[i].h /= len(groups[i])
  30. return new_centroids, groups, loss



2.YOLO的anchor 仅对长宽比进行了规定,并没有尺度的设置。


由于从标记文件的width,height计算出的anchor boxes的width和height都是相对于整张图片的比例,而YOLOv2通过anchor boxes直接预测bounding boxes的坐标时,坐标是相对于栅格边长的比例(0到1之间),因此要将anchor boxes的width和height也转换为相对于栅格边长的比例。转换公式如下:

w=anchor_width*input_width/downsamples ;h=anchor_height*input_height/downsamples

卷积神经网络的输入为416*416时,YOLOv2网络的降采样倍率为32,假如k-means计算得到一个anchor box的anchor_width=0.2,anchor_height=0.6,则:



