shithub: libvpx

--- a/test/lpf_8_test.cc

+++ b/test/lpf_8_test.cc

@@ -522,7 +522,8 @@

         make_tuple(&vpx_lpf_horizontal_8_sse2, &vpx_lpf_horizontal_8_c, 8, 1),

         make_tuple(&vpx_lpf_horizontal_16_sse2, &vpx_lpf_horizontal_16_c, 8, 1),

         make_tuple(&vpx_lpf_horizontal_16_sse2, &vpx_lpf_horizontal_16_c, 8, 2),

-        make_tuple(&vpx_lpf_vertical_8_sse2, &vpx_lpf_vertical_8_c, 8, 1),

+        make_tuple(&wrapper_nc<vpx_lpf_vertical_8_sse2>,

+                   &wrapper_nc<vpx_lpf_vertical_8_c>, 8, 1),

         make_tuple(&wrapper_nc<vpx_lpf_vertical_16_sse2>,

                    &wrapper_nc<vpx_lpf_vertical_16_c>, 8, 1),

         make_tuple(&wrapper_nc<vpx_lpf_vertical_16_dual_sse2>,

@@ -604,8 +605,8 @@

 #endif  // HAVE_NEON_ASM

         make_tuple(&vpx_lpf_horizontal_8_neon,

                    &vpx_lpf_horizontal_8_c, 8, 1),

-        make_tuple(&vpx_lpf_vertical_8_neon,

-                   &vpx_lpf_vertical_8_c, 8, 1),

+        make_tuple(&wrapper_nc<vpx_lpf_vertical_8_neon>,

+                   &wrapper_nc<vpx_lpf_vertical_8_c>, 8, 1),

         make_tuple(&vpx_lpf_horizontal_4_neon,

                    &vpx_lpf_horizontal_4_c, 8, 1),

         make_tuple(&vpx_lpf_vertical_4_neon,

@@ -637,7 +638,8 @@

         make_tuple(&vpx_lpf_horizontal_16_dspr2,

                    &vpx_lpf_horizontal_16_c, 8, 2),

         make_tuple(&vpx_lpf_vertical_4_dspr2, &vpx_lpf_vertical_4_c, 8, 1),

-        make_tuple(&vpx_lpf_vertical_8_dspr2, &vpx_lpf_vertical_8_c, 8, 1),

+        make_tuple(&wrapper_nc<vpx_lpf_vertical_8_dspr2>,

+                   &wrapper_nc<vpx_lpf_vertical_8_c>, 8, 1),

         make_tuple(&wrapper_nc<vpx_lpf_vertical_16_dspr2>,

                    &wrapper_nc<vpx_lpf_vertical_16_c>, 8, 1),

         make_tuple(&wrapper_nc<vpx_lpf_vertical_16_dual_dspr2>,

@@ -665,7 +667,8 @@

         make_tuple(&vpx_lpf_horizontal_16_msa, &vpx_lpf_horizontal_16_c, 8, 1),

         make_tuple(&vpx_lpf_horizontal_16_msa, &vpx_lpf_horizontal_16_c, 8, 2),

         make_tuple(&vpx_lpf_vertical_4_msa, &vpx_lpf_vertical_4_c, 8, 1),

-        make_tuple(&vpx_lpf_vertical_8_msa, &vpx_lpf_vertical_8_c, 8, 1),

+        make_tuple(&wrapper_nc<vpx_lpf_vertical_8_msa>,

+                   &wrapper_nc<vpx_lpf_vertical_8_c>, 8, 1),

         make_tuple(&wrapper_nc<vpx_lpf_vertical_16_msa>,

                    &wrapper_nc<vpx_lpf_vertical_16_c>, 8, 1)));

--- a/vp10/common/loopfilter.c

+++ b/vp10/common/loopfilter.c

@@ -345,11 +345,10 @@

                                   lfi0->hev_thr, lfi1->mblim, lfi1->lim,

                                   lfi1->hev_thr);

         } else if (mask_8x8_0 & 1) {

-          vpx_lpf_vertical_8(s, pitch, lfi0->mblim, lfi0->lim, lfi0->hev_thr,

-                             1);

+          vpx_lpf_vertical_8(s, pitch, lfi0->mblim, lfi0->lim, lfi0->hev_thr);

         } else {

           vpx_lpf_vertical_8(s + 8 * pitch, pitch, lfi1->mblim, lfi1->lim,

-                             lfi1->hev_thr, 1);

+                             lfi1->hev_thr);

@@ -1127,7 +1126,7 @@

       if (mask_16x16 & 1) {

         vpx_lpf_vertical_16(s, pitch, lfi->mblim, lfi->lim, lfi->hev_thr);

       } else if (mask_8x8 & 1) {

-        vpx_lpf_vertical_8(s, pitch, lfi->mblim, lfi->lim, lfi->hev_thr, 1);

+        vpx_lpf_vertical_8(s, pitch, lfi->mblim, lfi->lim, lfi->hev_thr);

       } else if (mask_4x4 & 1) {

         vpx_lpf_vertical_4(s, pitch, lfi->mblim, lfi->lim, lfi->hev_thr, 1);

--- a/vp9/common/vp9_loopfilter.c

+++ b/vp9/common/vp9_loopfilter.c

@@ -345,11 +345,10 @@

                                   lfi0->hev_thr, lfi1->mblim, lfi1->lim,

                                   lfi1->hev_thr);

         } else if (mask_8x8_0 & 1) {

-          vpx_lpf_vertical_8(s, pitch, lfi0->mblim, lfi0->lim, lfi0->hev_thr,

-                             1);

+          vpx_lpf_vertical_8(s, pitch, lfi0->mblim, lfi0->lim, lfi0->hev_thr);

         } else {

           vpx_lpf_vertical_8(s + 8 * pitch, pitch, lfi1->mblim, lfi1->lim,

-                             lfi1->hev_thr, 1);

+                             lfi1->hev_thr);

@@ -1102,7 +1101,7 @@

       if (mask_16x16 & 1) {

         vpx_lpf_vertical_16(s, pitch, lfi->mblim, lfi->lim, lfi->hev_thr);

       } else if (mask_8x8 & 1) {

-        vpx_lpf_vertical_8(s, pitch, lfi->mblim, lfi->lim, lfi->hev_thr, 1);

+        vpx_lpf_vertical_8(s, pitch, lfi->mblim, lfi->lim, lfi->hev_thr);

       } else if (mask_4x4 & 1) {

         vpx_lpf_vertical_4(s, pitch, lfi->mblim, lfi->lim, lfi->hev_thr, 1);

--- a/vpx_dsp/arm/loopfilter_8_neon.asm

+++ b/vpx_dsp/arm/loopfilter_8_neon.asm

@@ -82,8 +82,7 @@

 ;                              int pitch,

 ;                              const uint8_t *blimit,

 ;                              const uint8_t *limit,

-;                              const uint8_t *thresh,

-;                              int count)

+;                              const uint8_t *thresh)

 ; r0    uint8_t *s,

 ; r1    int pitch,

@@ -90,22 +89,17 @@

 ; r2    const uint8_t *blimit,

 ; r3    const uint8_t *limit,

 ; sp    const uint8_t *thresh,

-; sp+4  int count

 |vpx_lpf_vertical_8_neon| PROC

     push        {r4-r5, lr}

     vld1.8      {d0[]}, [r2]              ; duplicate *blimit

-    ldr         r12, [sp, #16]            ; load count

     vld1.8      {d1[]}, [r3]              ; duplicate *limit

     ldr         r3, [sp, #12]             ; load thresh

     sub         r2, r0, #4                ; move s pointer down by 4 columns

-    cmp         r12, #0

-    beq         end_vpx_mblf_v_edge

     vld1.8      {d2[]}, [r3]              ; duplicate *thresh

-count_mblf_v_loop

     vld1.u8     {d3}, [r2], r1             ; load s data

     vld1.u8     {d4}, [r2], r1

     vld1.u8     {d5}, [r2], r1

@@ -156,12 +150,6 @@

     vst2.8      {d4[6], d5[6]}, [r3], r1

     vst2.8      {d4[7], d5[7]}, [r3]

-    add         r0, r0, r1, lsl #3         ; s += pitch * 8

-    subs        r12, r12, #1

-    subne       r2, r0, #4                 ; move s pointer down by 4 columns

-    bne         count_mblf_v_loop

-end_vpx_mblf_v_edge

     pop         {r4-r5, pc}

     ENDP        ; |vpx_lpf_vertical_8_neon|

--- a/vpx_dsp/arm/loopfilter_8_neon.c

+++ b/vpx_dsp/arm/loopfilter_8_neon.c

@@ -328,8 +328,7 @@

         int pitch,

         const uint8_t *blimit,

         const uint8_t *limit,

-        const uint8_t *thresh,

-        int count) {

+        const uint8_t *thresh) {

     int i;

     uint8_t *s;

     uint8x8_t dblimit, dlimit, dthresh;

@@ -341,14 +340,11 @@

     uint8x8x4_t d4Result;

     uint8x8x2_t d2Result;

-    if (count == 0)

-        return;

     dblimit = vld1_u8(blimit);

     dlimit = vld1_u8(limit);

     dthresh = vld1_u8(thresh);

-    for (i = 0; i < count; i++) {

+    for (i = 0; i < 1; i++) {

         s = src + (i * (pitch << 3)) - 4;

         d3u8 = vld1_u8(s);

--- a/vpx_dsp/arm/loopfilter_neon.c

+++ b/vpx_dsp/arm/loopfilter_neon.c

@@ -44,8 +44,8 @@

                                   const uint8_t *blimit1,

                                   const uint8_t *limit1,

                                   const uint8_t *thresh1) {

-  vpx_lpf_vertical_8_neon(s, p, blimit0, limit0, thresh0, 1);

-  vpx_lpf_vertical_8_neon(s + 8 * p, p, blimit1, limit1, thresh1, 1);

+  vpx_lpf_vertical_8_neon(s, p, blimit0, limit0, thresh0);

+  vpx_lpf_vertical_8_neon(s + 8 * p, p, blimit1, limit1, thresh1);

 void vpx_lpf_vertical_16_dual_neon(uint8_t *s, int p,

--- a/vpx_dsp/loopfilter.c

+++ b/vpx_dsp/loopfilter.c

@@ -218,11 +218,10 @@

 void vpx_lpf_vertical_8_c(uint8_t *s, int pitch, const uint8_t *blimit,

-                          const uint8_t *limit, const uint8_t *thresh,

-                          int count) {

+                          const uint8_t *limit, const uint8_t *thresh) {

   int i;

-  for (i = 0; i < 8 * count; ++i) {

+  for (i = 0; i < 8; ++i) {

     const uint8_t p3 = s[-4], p2 = s[-3], p1 = s[-2], p0 = s[-1];

     const uint8_t q0 = s[0], q1 = s[1], q2 = s[2], q3 = s[3];

     const int8_t mask = filter_mask(*limit, *blimit,

@@ -238,9 +237,8 @@

                                const uint8_t *limit0, const uint8_t *thresh0,

                                const uint8_t *blimit1, const uint8_t *limit1,

                                const uint8_t *thresh1) {

-  vpx_lpf_vertical_8_c(s, pitch, blimit0, limit0, thresh0, 1);

-  vpx_lpf_vertical_8_c(s + 8 * pitch, pitch, blimit1, limit1,

-                                    thresh1, 1);

+  vpx_lpf_vertical_8_c(s, pitch, blimit0, limit0, thresh0);

+  vpx_lpf_vertical_8_c(s + 8 * pitch, pitch, blimit1, limit1, thresh1);

 static INLINE void filter16(int8_t mask, uint8_t thresh,

--- a/vpx_dsp/mips/loopfilter_8_msa.c

+++ b/vpx_dsp/mips/loopfilter_8_msa.c

@@ -161,8 +161,7 @@

 void vpx_lpf_vertical_8_msa(uint8_t *src, int32_t pitch,

                             const uint8_t *b_limit_ptr,

                             const uint8_t *limit_ptr,

-                            const uint8_t *thresh_ptr,

-                            int32_t count) {

+                            const uint8_t *thresh_ptr) {

   v16u8 p3, p2, p1, p0, q3, q2, q1, q0;

   v16u8 p1_out, p0_out, q0_out, q1_out;

   v16u8 flat, mask, hev, thresh, b_limit, limit;

@@ -170,8 +169,6 @@

   v8i16 p2_filt8_r, p1_filt8_r, p0_filt8_r, q0_filt8_r, q1_filt8_r, q2_filt8_r;

   v16u8 zero = { 0 };

   v8i16 vec0, vec1, vec2, vec3, vec4;

-  (void)count;

   /* load vector elements */

   LD_UB8(src - 4, pitch, p3, p2, p1, p0, q0, q1, q2, q3);

--- a/vpx_dsp/mips/loopfilter_filters_dspr2.c

+++ b/vpx_dsp/mips/loopfilter_filters_dspr2.c

@@ -346,9 +346,8 @@

                                    const uint8_t *blimit1,

                                    const uint8_t *limit1,

                                    const uint8_t *thresh1) {

-  vpx_lpf_vertical_8_dspr2(s, p, blimit0, limit0, thresh0, 1);

-  vpx_lpf_vertical_8_dspr2(s + 8 * p, p, blimit1, limit1, thresh1,

-                                       1);

+  vpx_lpf_vertical_8_dspr2(s, p, blimit0, limit0, thresh0);

+  vpx_lpf_vertical_8_dspr2(s + 8 * p, p, blimit1, limit1, thresh1);

 void vpx_lpf_vertical_16_dual_dspr2(uint8_t *s, int p,

--- a/vpx_dsp/mips/loopfilter_mb_dspr2.c

+++ b/vpx_dsp/mips/loopfilter_mb_dspr2.c

@@ -322,8 +322,7 @@

                               int pitch,

                               const uint8_t *blimit,

                               const uint8_t *limit,

-                              const uint8_t *thresh,

-                              int count) {

+                              const uint8_t *thresh) {

   uint8_t   i;

   uint32_t  mask, hev, flat;

   uint8_t   *s1, *s2, *s3, *s4;

--- a/vpx_dsp/vpx_dsp_rtcd_defs.pl

+++ b/vpx_dsp/vpx_dsp_rtcd_defs.pl

@@ -535,7 +535,7 @@

 specialize qw/vpx_lpf_vertical_16_dual sse2 neon_asm dspr2 msa/;

 $vpx_lpf_vertical_16_dual_neon_asm=vpx_lpf_vertical_16_dual_neon;

-add_proto qw/void vpx_lpf_vertical_8/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh, int count";

+add_proto qw/void vpx_lpf_vertical_8/, "uint8_t *s, int pitch, const uint8_t *blimit, const uint8_t *limit, const uint8_t *thresh";

 specialize qw/vpx_lpf_vertical_8 sse2 neon dspr2 msa/;

 add_proto qw/void vpx_lpf_vertical_8_dual/, "uint8_t *s, int pitch, const uint8_t *blimit0, const uint8_t *limit0, const uint8_t *thresh0, const uint8_t *blimit1, const uint8_t *limit1, const uint8_t *thresh1";

--- a/vpx_dsp/x86/loopfilter_sse2.c

+++ b/vpx_dsp/x86/loopfilter_sse2.c

@@ -1492,11 +1492,10 @@

 void vpx_lpf_vertical_8_sse2(unsigned char *s, int p,

                              const unsigned char *blimit,

                              const unsigned char *limit,

-                             const unsigned char *thresh, int count) {

+                             const unsigned char *thresh) {

   DECLARE_ALIGNED(8, unsigned char, t_dst[8 * 8]);

   unsigned char *src[1];

   unsigned char *dst[1];

-  (void)count;

   // Transpose 8x8

   src[0] = s - 4;