hopefully faster mmx2&3dnow MC git-svn-id: file:///var/local/repositories/ffmpeg/trunk@506 9553f0bf-9b14-0410-a0b8-cfaf0461ba5b

6b86daa0 · michaelni · 9be7ca5c · 6b86daa0 · 6b86daa0
Commit 6b86daa0 authored May 17, 2002 by michaelni
Expand all Show whitespace changes
Inline Side-by-side

Showing with 362 additions and 323 deletions

libavcodec/i386/dsputil_mmx.c libavcodec/i386/dsputil_mmx.c +98 -89

libavcodec/i386/dsputil_mmx_avg.h libavcodec/i386/dsputil_mmx_avg.h +264 -234

No files found.
--- a/libavcodec/i386/dsputil_mmx.c
+++ b/libavcodec/i386/dsputil_mmx.c
@@ -21,6 +21,7 @@
 #include "../dsputil.h"
 #include "../simple_idct.h"
+#include "../mangle.h"
 int mm_flags; /* multimedia extension flags */
@@ -49,6 +50,7 @@ void ff_mmx_idct(DCTELEM *block);
 void ff_mmxext_idct(DCTELEM *block);
 /* pixel operations */
+static const unsigned long long int mm_bone __attribute__ ((aligned(8))) = 0x0101010101010101LL;
 static const unsigned long long int mm_wone __attribute__ ((aligned(8))) = 0x0001000100010001LL;
 static const unsigned long long int mm_wtwo __attribute__ ((aligned(8))) = 0x0002000200020002LL;
 //static const unsigned short mm_wone[4] __attribute__ ((aligned(8))) = { 0x1, 0x1, 0x1, 0x1 };
@@ -90,7 +92,7 @@ static const unsigned long long int mm_wtwo __attribute__ ((aligned(8))) = 0x000
 /***********************************/
 /* MMX2 specific */
-#define DEF(x) x ## _sse
+#define DEF(x) x ## _mmx2
 /* Introduced only in MMX2 set */
 #define PAVGB "pavgb"
@@ -105,41 +107,38 @@ static const unsigned long long int mm_wtwo __attribute__ ((aligned(8))) = 0x000
 static void get_pixels_mmx(DCTELEM *block, const UINT8 *pixels, int line_size)
 {
-    DCTELEM *p;
+    asm volatile(
-    const UINT8 *pix;
+        "movl $-128, %%eax	\n\t"
-    int i;
+        "pxor %%mm7, %%mm7	\n\t"
+        ".balign 16		\n\t"
-    /* read the pixels */
+        "1:			\n\t"
-    p = block;
+        "movq (%0), %%mm0	\n\t"
-    pix = pixels;
+        "movq (%0, %2), %%mm2	\n\t"
-    MOVQ_ZERO(mm7);
+        "movq %%mm0, %%mm1	\n\t"
-    for(i=0;i<4;i++) {
+        "movq %%mm2, %%mm3	\n\t"
-	__asm __volatile(
+        "punpcklbw %%mm7, %%mm0	\n\t"
-		"movq	%1, %%mm0\n\t"
+        "punpckhbw %%mm7, %%mm1	\n\t"
-		"movq	%2, %%mm1\n\t"
+        "punpcklbw %%mm7, %%mm2	\n\t"
-		"movq	%%mm0, %%mm2\n\t"
+        "punpckhbw %%mm7, %%mm3	\n\t"
-		"movq	%%mm1, %%mm3\n\t"
+        "movq %%mm0, (%1, %%eax)\n\t"
-		"punpcklbw %%mm7, %%mm0\n\t"
+        "movq %%mm1, 8(%1, %%eax)\n\t"
-		"punpckhbw %%mm7, %%mm2\n\t"
+        "movq %%mm2, 16(%1, %%eax)\n\t"
-		"punpcklbw %%mm7, %%mm1\n\t"
+        "movq %%mm3, 24(%1, %%eax)\n\t"
-		"punpckhbw %%mm7, %%mm3\n\t"
+        "addl %3, %0		\n\t"
-		"movq	%%mm0, %0\n\t"
+        "addl $32, %%eax	\n\t"
-		"movq	%%mm2, 8%0\n\t"
+        "js 1b			\n\t"
-		"movq	%%mm1, 16%0\n\t"
+        : "+r" (pixels)
-		"movq	%%mm3, 24%0\n\t"
+        : "r" (block+64), "r" (line_size), "r" (line_size*2)
-		:"=m"(*p)
+        : "%eax"
-		:"m"(*pix), "m"(*(pix+line_size))
+    );
-		:"memory");
-        pix += line_size*2;
-        p += 16;
-    }
 }
 static void diff_pixels_mmx(DCTELEM *block, const UINT8 *s1, const UINT8 *s2, int stride)
 {
    asm volatile(
-        ".balign 16		\n\t"
+        "pxor %%mm7, %%mm7	\n\t"
        "movl $-128, %%eax	\n\t"
+        ".balign 16		\n\t"
        "1:			\n\t"
        "movq (%0), %%mm0	\n\t"
        "movq (%1), %%mm2	\n\t"
@@ -261,56 +260,62 @@ static void add_pixels_clamped_mmx(const DCTELEM *block, UINT8 *pixels, int line
 static void put_pixels_mmx(UINT8 *block, const UINT8 *pixels, int line_size, int h)
 {
-    int hh;
+#if 0 //FIXME h==4 case
-    UINT8 *p;
+    asm volatile(
-    const UINT8 *pix;
+        "xorl %%eax, %%eax		\n\t"
+        "movl %3, %%esi			\n\t"
-    p   = block;
+        "1:				\n\t"
-    pix = pixels; // 2s
+        "movq (%1, %%eax), %%mm0	\n\t"
-#if 0
+        "movq %%mm0, (%0, %%eax)	\n\t"
-    do {
+        "addl %2, %%eax			\n\t"
-      __asm __volatile(
+        "movq (%1, %%eax), %%mm0	\n\t"
-	"movq	%1, %%mm0\n\t"
+        "movq %%mm0, (%0, %%eax)	\n\t"
-	"movq	%%mm0, %0\n\t"
+        "addl %2, %%eax			\n\t"
-	:"=m"(*p)
+        "movq (%1, %%eax), %%mm0	\n\t"
-	:"m"(*pix)
+        "movq %%mm0, (%0, %%eax)	\n\t"
-	:"memory");
+        "addl %2, %%eax			\n\t"
-	pix += line_size;
+        "movq (%1, %%eax), %%mm0	\n\t"
-	p += line_size;
+        "movq %%mm0, (%0, %%eax)	\n\t"
-    } while (--h);
+        "addl %2, %%eax			\n\t"
+        "movq (%1, %%eax), %%mm0	\n\t"
+        "movq %%mm0, (%0, %%eax)	\n\t"
+        "addl %2, %%eax			\n\t"
+        "movq (%1, %%eax), %%mm0	\n\t"
+        "movq %%mm0, (%0, %%eax)	\n\t"
+        "addl %2, %%eax			\n\t"
+        "movq (%1, %%eax), %%mm0	\n\t"
+        "movq %%mm0, (%0, %%eax)	\n\t"
+        "addl %2, %%eax			\n\t"
+        "movq (%1, %%eax), %%mm0	\n\t"
+        "movq %%mm0, (%0, %%eax)	\n\t"
+        "addl %2, %%eax			\n\t"
+        "subl $8, %%esi			\n\t"
+        " jnz 1b			\n\t"
+    :: "r" (block), "r" (pixels), "r"(line_size), "m"(h)
+    : "%eax", "%esi", "memory"
+    );
 #else
-    // this optimized code is not very usefull
+    asm volatile(
-    // the above loop is definitely faster
+        "xorl %%eax, %%eax		\n\t"
-    // at least on Celeron 500MHz
+        "movl %3, %%esi			\n\t"
-    hh = h & 3;
+        "1:				\n\t"
-    while (hh) {
+        "movq (%1, %%eax), %%mm0	\n\t"
-      __asm __volatile(
+        "movq %%mm0, (%0, %%eax)	\n\t"
-	  "movq	%1, %%mm0\n\t"
+        "addl %2, %%eax			\n\t"
-	  "movq	%%mm0, %0\n\t"
+        "movq (%1, %%eax), %%mm0	\n\t"
-	  :"=m"(*p)
+        "movq %%mm0, (%0, %%eax)	\n\t"
-	  :"m"(*pix)
+        "addl %2, %%eax			\n\t"
-	  :"memory");
+        "movq (%1, %%eax), %%mm0	\n\t"
-	pix += line_size;
+        "movq %%mm0, (%0, %%eax)	\n\t"
-	p += line_size;
+        "addl %2, %%eax			\n\t"
-	hh--;
+        "movq (%1, %%eax), %%mm0	\n\t"
-    }
+        "movq %%mm0, (%0, %%eax)	\n\t"
-    hh=h>>2;
+        "addl %2, %%eax			\n\t"
-    while (hh) {
+        "subl $4, %%esi			\n\t"
-    __asm __volatile(
+        " jnz 1b			\n\t"
-	"movq	(%1), %%mm0		\n\t"
+    :: "r" (block), "r" (pixels), "r"(line_size), "m"(h)
-	"movq	(%1, %2), %%mm1		\n\t"
+    : "%eax", "%esi", "memory"
-	"movq	(%1, %2, 2), %%mm2	\n\t"
+    );
-	"movq	(%1, %3), %%mm3		\n\t"
-	"movq	%%mm0, (%0)		\n\t"
-	"movq	%%mm1, (%0, %2)		\n\t"
-	"movq	%%mm2, (%0, %2, 2)	\n\t"
-	"movq	%%mm3, (%0, %3)		\n\t"
-	::"r"(p), "r"(pix), "r"(line_size), "r"(line_size*3)
-	:"memory");
-        pix += line_size*4;
-	p += line_size*4;
-        hh--;
-    }
 #endif
 }
@@ -1141,19 +1146,23 @@ void dsputil_init_mmx(void)
            pix_abs8x8_y2 = pix_abs8x8_y2_mmx2;
            pix_abs8x8_xy2= pix_abs8x8_xy2_mmx2;
-            put_pixels_tab[1] = put_pixels_x2_sse;
+            put_pixels_tab[1] = put_pixels_x2_mmx2;
-            put_pixels_tab[2] = put_pixels_y2_sse;
+            put_pixels_tab[2] = put_pixels_y2_mmx2;
+            put_no_rnd_pixels_tab[1] = put_no_rnd_pixels_x2_mmx2;
+            put_no_rnd_pixels_tab[2] = put_no_rnd_pixels_y2_mmx2;
-            avg_pixels_tab[0] = avg_pixels_sse;
+            avg_pixels_tab[0] = avg_pixels_mmx2;
-            avg_pixels_tab[1] = avg_pixels_x2_sse;
+            avg_pixels_tab[1] = avg_pixels_x2_mmx2;
-            avg_pixels_tab[2] = avg_pixels_y2_sse;
+            avg_pixels_tab[2] = avg_pixels_y2_mmx2;
-            avg_pixels_tab[3] = avg_pixels_xy2_sse;
+            avg_pixels_tab[3] = avg_pixels_xy2_mmx2;
-            sub_pixels_tab[1] = sub_pixels_x2_sse;
+            sub_pixels_tab[1] = sub_pixels_x2_mmx2;
-            sub_pixels_tab[2] = sub_pixels_y2_sse;
+            sub_pixels_tab[2] = sub_pixels_y2_mmx2;
        } else if (mm_flags & MM_3DNOW) {
            put_pixels_tab[1] = put_pixels_x2_3dnow;
            put_pixels_tab[2] = put_pixels_y2_3dnow;
+            put_no_rnd_pixels_tab[1] = put_no_rnd_pixels_x2_3dnow;
+            put_no_rnd_pixels_tab[2] = put_no_rnd_pixels_y2_3dnow;
            avg_pixels_tab[0] = avg_pixels_3dnow;
            avg_pixels_tab[1] = avg_pixels_x2_3dnow;

--- a/libavcodec/i386/dsputil_mmx_avg.h
+++ b/libavcodec/i386/dsputil_mmx_avg.h