shithub: openh264

Download patch

ref: c011890764bebeb237674e78c44155711284bb76
parent: 811c647c0ec3553ff8fa16cf933146e59aa4277e
author: Martin Storsjö <[email protected]>
date: Sun Mar 9 08:53:38 EDT 2014

Push clobbered neon registers on the stack

According to the calling convention, the registers q4-q7 should be
preserved by functions. The caller (generated by the compiler) could
be using those registers anywhere for any intermediate data.

Functions that use more than 12 of the qX registers must push
the clobbered registers on the stack in order to be able to restore them
afterwards.

In functions that don't use all 16 registers, but clobber some of
the callee saved registers q4-q7, one or more of them are remapped
to reduce the number of registers that have to be saved/restored.

This incurs a very small (around 0.5%) slowdown in the decoder and
encoder.

--- a/codec/common/deblocking_neon.S
+++ b/codec/common/deblocking_neon.S
@@ -277,6 +277,7 @@
 #endif
 
 WELS_ASM_FUNC_BEGIN DeblockLumaLt4V_neon
+    vpush	{q4-q7}
     vdup.u8	q11, r2
     vdup.u8	q9, r3
 
@@ -290,7 +291,7 @@
     vld1.u8	{q5}, [r0]
     sub			r2, r2, r1
 
-    ldr			r3, [sp, #0]
+    ldr			r3, [sp, #64]
     vld1.s8	{d31}, [r3]
     vdup.s8	d28, d31[0]
     vdup.s8	d30, d31[1]
@@ -332,10 +333,12 @@
     vst1.u8	{q3}, [r2]	, r1
     vst1.u8	{q7}, [r2]
 
+    vpop	{q4-q7}
 WELS_ASM_FUNC_END
 
 
 WELS_ASM_FUNC_BEGIN DeblockLumaEq4V_neon
+    vpush	{q4-q7}
 
     vdup.u8	q5, r2
     vdup.u8	q4, r3
@@ -393,10 +396,12 @@
     DIFF_LUMA_EQ4_MASK	q3,  q14, q0, q4
     vst1.u8	{q4}, [r3], r1
 
+    vpop	{q4-q7}
 WELS_ASM_FUNC_END
 
 
     WELS_ASM_FUNC_BEGIN DeblockLumaLt4H_neon
+    vpush	{q4-q7}
 
     vdup.u8	q11, r2
     vdup.u8	q9, r3
@@ -429,7 +434,7 @@
 
     sub			r0, r0, r1, lsl #4
 
-    ldr			r3, [sp, #0]
+    ldr			r3, [sp, #64]
     vld1.s8	{d31}, [r3]
     vdup.s8	d28, d31[0]
     vdup.s8	d30, d31[1]
@@ -488,10 +493,12 @@
     STORE_LUMA_DATA_4		d6, d7, d8, d9, 4, 5
     STORE_LUMA_DATA_4		d6, d7, d8, d9, 6, 7
 
+    vpop	{q4-q7}
 WELS_ASM_FUNC_END
 
 
 WELS_ASM_FUNC_BEGIN DeblockLumaEq4H_neon
+    vpush	{q4-q7}
     vdup.u8	q5, r2
     vdup.u8	q4, r3
 
@@ -591,6 +598,7 @@
     STORE_LUMA_DATA_3		d7,d8,d9,d13,d14,d15,6
     STORE_LUMA_DATA_3		d7,d8,d9,d13,d14,d15,7
 
+    vpop	{q4-q7}
 WELS_ASM_FUNC_END
 
 
@@ -647,9 +655,10 @@
 
 
     WELS_ASM_FUNC_BEGIN DeblockChromaEq4V_neon
+    vpush	{q4-q5}
 
     vdup.u8	q11, r3
-    ldr			r3, [sp, #0]
+    ldr			r3, [sp, #32]
 
     sub			r0, r0, r2	, lsl #1
     sub			r1, r1, r2, lsl #1
@@ -670,10 +679,10 @@
 
     vmov			q11, q10
 
-    DIFF_CHROMA_EQ4_P0Q0		d0, d2, d4, d6, q4, q5, q6, d14, d0		// Cb::p0' q0'
-    DIFF_CHROMA_EQ4_P0Q0		d1, d3, d5, d7, q12, q13, q14, d15, d1	// Cr::p0' q0'
+    DIFF_CHROMA_EQ4_P0Q0		d0, d2, d4, d6, q4, q5, q8, d30, d0		// Cb::p0' q0'
+    DIFF_CHROMA_EQ4_P0Q0		d1, d3, d5, d7, q12, q13, q14, d31, d1	// Cr::p0' q0'
 
-    vbsl.u8	q10, q7, q1
+    vbsl.u8	q10, q15, q1
     vst1.u8	{d20}, [r0], r2
     vst1.u8	{d21}, [r1], r2
 
@@ -681,6 +690,7 @@
     vst1.u8	{d22}, [r0]
     vst1.u8	{d23}, [r1]
 
+    vpop	{q4-q5}
 WELS_ASM_FUNC_END
 
 WELS_ASM_FUNC_BEGIN DeblockChromaLt4H_neon
@@ -747,8 +757,9 @@
 WELS_ASM_FUNC_END
 
 WELS_ASM_FUNC_BEGIN DeblockChromaEq4H_neon
+    vpush	{q4-q5}
     vdup.u8	q11, r3
-    ldr			r3, [sp, #0]
+    ldr			r3, [sp, #32]
 
     sub			r0, r0, #2
     sub			r1, r1, #2
@@ -792,6 +803,7 @@
     STORE_CHROMA_DATA_4	d0, d1, d2, d3, d4, d5, d6, d7, 6
     STORE_CHROMA_DATA_4	d0, d1, d2, d3, d4, d5, d6, d7, 7
 
+    vpop	{q4-q5}
 WELS_ASM_FUNC_END
 
 
--- a/codec/common/mc_neon.S
+++ b/codec/common/mc_neon.S
@@ -1140,7 +1140,8 @@
 
 WELS_ASM_FUNC_BEGIN McHorVer22WidthEq16_neon
 	push		{r4}
-	ldr			r4, [sp, #4]
+	vpush		{q4-q7}
+	ldr			r4, [sp, #68]
 
 	sub			r0, #2					//src[-2]
 	sub			r0, r0, r1, lsl #1		//src[-2*src_stride-2]
@@ -1246,6 +1247,7 @@
 	sub		r4, #4
 	cmp		r4, #0
 	bne		w16_hv_mc_luma_loop
+	vpop		{q4-q7}
 	pop		{r4}
 WELS_ASM_FUNC_END
 
@@ -1252,7 +1254,8 @@
 
 WELS_ASM_FUNC_BEGIN McHorVer22WidthEq8_neon
 	push		{r4}
-	ldr			r4, [sp, #4]
+	vpush		{q4}
+	ldr			r4, [sp, #20]
 
 	sub			r0, #2				//src[-2]
 	sub			r0, r0, r1, lsl #1	//src[-2*src_stride-2]
@@ -1275,59 +1278,60 @@
 
 w8_hv_mc_luma_loop:
 
-	vld1.u8	{q5}, [r0], r1	//use 13(8+5), =src[3]
+	vld1.u8	{q8}, [r0], r1	//use 13(8+5), =src[3]
 	//the 1st row
 	pld			[r0]
-	// vertical filtered into q6/q7
-	FILTER_6TAG_8BITS_TO_16BITS 	d0, d2, d4, d6, d8, d10, q6, q14, q15	// 8 avail
-	FILTER_6TAG_8BITS_TO_16BITS 	d1, d3, d5, d7, d9, d11, q7, q14, q15	// 5 avail
+	// vertical filtered into q9/q10
+	FILTER_6TAG_8BITS_TO_16BITS 	d0, d2, d4, d6, d8, d16, q9, q14, q15	// 8 avail
+	FILTER_6TAG_8BITS_TO_16BITS 	d1, d3, d5, d7, d9, d17, q10, q14, q15	// 5 avail
 	// horizon filtered
-	UNPACK_2_16BITS_TO_ABC	q6, q7, q11, q12, q13
-	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d12	//output to q6[0]
-	vst1.u8	d12, [r2], r3			//write 8Byte
+	UNPACK_2_16BITS_TO_ABC	q9, q10, q11, q12, q13
+	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18	//output to q9[0]
+	vst1.u8	d18, [r2], r3			//write 8Byte
 
 	vld1.u8	{q0}, [r0], r1		//read 2nd row
 	//the 2nd row
 	pld			[r0]
-	// vertical filtered into q6/q7
-	FILTER_6TAG_8BITS_TO_16BITS 	d2, d4, d6, d8, d10, d0, q6, q14, q15	// 8 avail
-	FILTER_6TAG_8BITS_TO_16BITS 	d3, d5, d7, d9, d11, d1, q7, q14, q15	// 5 avail
+	// vertical filtered into q9/q10
+	FILTER_6TAG_8BITS_TO_16BITS 	d2, d4, d6, d8, d16, d0, q9, q14, q15	// 8 avail
+	FILTER_6TAG_8BITS_TO_16BITS 	d3, d5, d7, d9, d17, d1, q10, q14, q15	// 5 avail
 	// horizon filtered
-	UNPACK_2_16BITS_TO_ABC	q6, q7, q11, q12, q13
-	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d12	//output to q6[0]
-	vst1.u8	d12, [r2], r3		//write 8Byte
+	UNPACK_2_16BITS_TO_ABC	q9, q10, q11, q12, q13
+	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18	//output to q9[0]
+	vst1.u8	d18, [r2], r3		//write 8Byte
 
 	vld1.u8	{q1}, [r0], r1		//read 3rd row
 	//the 3rd row
 	pld			[r0]
-	// vertical filtered into q6/q7
-	FILTER_6TAG_8BITS_TO_16BITS 	d4, d6, d8, d10, d0, d2, q6, q14, q15	// 8 avail
-	FILTER_6TAG_8BITS_TO_16BITS 	d5, d7, d9, d11, d1, d3, q7, q14, q15	// 5 avail
+	// vertical filtered into q9/q10
+	FILTER_6TAG_8BITS_TO_16BITS 	d4, d6, d8, d16, d0, d2, q9, q14, q15	// 8 avail
+	FILTER_6TAG_8BITS_TO_16BITS 	d5, d7, d9, d17, d1, d3, q10, q14, q15	// 5 avail
 	// horizon filtered
-	UNPACK_2_16BITS_TO_ABC	q6, q7, q11, q12, q13
-	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d12	//output to q6[0]
-	vst1.u8	d12, [r2], r3			//write 8Byte
+	UNPACK_2_16BITS_TO_ABC	q9, q10, q11, q12, q13
+	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18	//output to q9[0]
+	vst1.u8	d18, [r2], r3			//write 8Byte
 
 	vld1.u8	{q2}, [r0], r1		//read 4th row
 	//the 4th row
 	pld			[r0]
-	// vertical filtered into q6/q7
-	FILTER_6TAG_8BITS_TO_16BITS 	d6, d8, d10, d0, d2, d4, q6, q14, q15	// 8 avail
-	FILTER_6TAG_8BITS_TO_16BITS 	d7, d9, d11, d1, d3, d5, q7, q14, q15	// 5 avail
+	// vertical filtered into q9/q10
+	FILTER_6TAG_8BITS_TO_16BITS 	d6, d8, d16, d0, d2, d4, q9, q14, q15	// 8 avail
+	FILTER_6TAG_8BITS_TO_16BITS 	d7, d9, d17, d1, d3, d5, q10, q14, q15	// 5 avail
 	// horizon filtered
-	UNPACK_2_16BITS_TO_ABC	q6, q7, q11, q12, q13
-	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d12	//output to q6[0]
-	vst1.u8	d12, [r2], r3			//write 8Byte
+	UNPACK_2_16BITS_TO_ABC	q9, q10, q11, q12, q13
+	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18	//output to q9[0]
+	vst1.u8	d18, [r2], r3			//write 8Byte
 
 	//q4~q5, q0~q2, --> q0~q4
 	vswp	q0, q4
 	vswp	q2, q4
 	vmov	q3, q1
-	vmov	q1, q5
+	vmov	q1, q8
 
 	sub		r4, #4
 	cmp		r4, #0
 	bne		w8_hv_mc_luma_loop
+	vpop		{q4}
 	pop		{r4}
 WELS_ASM_FUNC_END
 
@@ -1334,7 +1338,8 @@
 
 WELS_ASM_FUNC_BEGIN McHorVer22WidthEq4_neon
 	push		{r4 ,r5, r6}
-	ldr			r6, [sp, #12]
+	vpush		{q4-q7}
+	ldr			r6, [sp, #76]
 
 	sub			r0, #2				//src[-2]
 	sub			r0, r0, r1, lsl #1	//src[-2*src_stride-2]
@@ -1417,6 +1422,7 @@
 	cmp		r6, #0
 	bne		w4_hv_mc_luma_loop
 
+	vpop		{q4-q7}
 	pop		{r4, r5, r6}
 WELS_ASM_FUNC_END
 
@@ -1889,7 +1895,8 @@
 
 WELS_ASM_FUNC_BEGIN McHorVer22Width17_neon
 	push		{r4}
-	ldr			r4, [sp, #4]
+	vpush		{q4-q7}
+	ldr			r4, [sp, #68]
 
 	sub			r0, #2					//src[-2]
 	sub			r0, r0, r1, lsl #1		//src[-2*src_stride-2]
@@ -2016,6 +2023,7 @@
 	UNPACK_1_IN_8x16BITS_TO_8BITS	d2, d22, d23, q11 //output to d2[0]
 	vst1.u8	{d2[0]}, [r2], r3		//write 16th Byte
 
+	vpop		{q4-q7}
 	pop		{r4}
 WELS_ASM_FUNC_END
 
@@ -2022,7 +2030,8 @@
 
 WELS_ASM_FUNC_BEGIN McHorVer22Width9_neon
 	push		{r4}
-	ldr			r4, [sp, #4]
+	vpush		{q4}
+	ldr			r4, [sp, #20]
 
 	sub			r0, #2				//src[-2]
 	sub			r0, r0, r1, lsl #1	//src[-2*src_stride-2]
@@ -2046,78 +2055,79 @@
 
 w9_hv_mc_luma_loop:
 
-	vld1.u8	{q5}, [r0], r1	//use 14(9+5), =src[3]
+	vld1.u8	{q8}, [r0], r1	//use 14(9+5), =src[3]
 	//the 1st row
 	pld			[r0]
-	// vertical filtered into q6/q7
-	FILTER_6TAG_8BITS_TO_16BITS 	d0, d2, d4, d6, d8, d10, q6, q14, q15	// 8 avail
-	FILTER_6TAG_8BITS_TO_16BITS 	d1, d3, d5, d7, d9, d11, q7, q14, q15	// 6 avail
+	// vertical filtered into q9/q10
+	FILTER_6TAG_8BITS_TO_16BITS 	d0, d2, d4, d6, d8, d16, q9, q14, q15	// 8 avail
+	FILTER_6TAG_8BITS_TO_16BITS 	d1, d3, d5, d7, d9, d17, q10, q14, q15	// 6 avail
 	// horizon filtered
-	UNPACK_2_16BITS_TO_ABC	q6, q7, q11, q12, q13
-	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d12	//output to q6[0]
-	vst1.u8	d12, [r2]!				//write 8Byte
-	UNPACK_1_IN_8x16BITS_TO_8BITS	d13, d14, d15, q7 //output to d13[0]
-	vst1.u8	{d13[0]}, [r2], r3	//write 8th Byte
+	UNPACK_2_16BITS_TO_ABC	q9, q10, q11, q12, q13
+	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18	//output to q9[0]
+	vst1.u8	d18, [r2]!				//write 8Byte
+	UNPACK_1_IN_8x16BITS_TO_8BITS	d19, d20, d21, q10 //output to d19[0]
+	vst1.u8	{d19[0]}, [r2], r3	//write 8th Byte
 
 	vld1.u8	{q0}, [r0], r1		//read 2nd row
 	//the 2nd row
 	pld			[r0]
-	// vertical filtered into q6/q7
-	FILTER_6TAG_8BITS_TO_16BITS 	d2, d4, d6, d8, d10, d0, q6, q14, q15	// 8 avail
-	FILTER_6TAG_8BITS_TO_16BITS 	d3, d5, d7, d9, d11, d1, q7, q14, q15	// 6 avail
+	// vertical filtered into q9/q10
+	FILTER_6TAG_8BITS_TO_16BITS 	d2, d4, d6, d8, d16, d0, q9, q14, q15	// 8 avail
+	FILTER_6TAG_8BITS_TO_16BITS 	d3, d5, d7, d9, d17, d1, q10, q14, q15	// 6 avail
 	// horizon filtered
-	UNPACK_2_16BITS_TO_ABC	q6, q7, q11, q12, q13
-	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d12	//output to q6[0]
-	vst1.u8	d12, [r2]!				//write 8Byte
-	UNPACK_1_IN_8x16BITS_TO_8BITS	d13, d14, d15, q7 //output to d13[0]
-	vst1.u8	{d13[0]}, [r2], r3	//write 8th Byte
+	UNPACK_2_16BITS_TO_ABC	q9, q10, q11, q12, q13
+	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18	//output to q9[0]
+	vst1.u8	d18, [r2]!				//write 8Byte
+	UNPACK_1_IN_8x16BITS_TO_8BITS	d19, d20, d21, q10 //output to d19[0]
+	vst1.u8	{d19[0]}, [r2], r3	//write 8th Byte
 
 	vld1.u8	{q1}, [r0], r1		//read 3rd row
 	//the 3rd row
 	pld			[r0]
-	// vertical filtered into q6/q7
-	FILTER_6TAG_8BITS_TO_16BITS 	d4, d6, d8, d10, d0, d2, q6, q14, q15	// 8 avail
-	FILTER_6TAG_8BITS_TO_16BITS 	d5, d7, d9, d11, d1, d3, q7, q14, q15	// 6 avail
+	// vertical filtered into q9/q10
+	FILTER_6TAG_8BITS_TO_16BITS 	d4, d6, d8, d16, d0, d2, q9, q14, q15	// 8 avail
+	FILTER_6TAG_8BITS_TO_16BITS 	d5, d7, d9, d17, d1, d3, q10, q14, q15	// 6 avail
 	// horizon filtered
-	UNPACK_2_16BITS_TO_ABC	q6, q7, q11, q12, q13
-	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d12	//output to q6[0]
-	vst1.u8	d12, [r2]!				//write 8Byte
-	UNPACK_1_IN_8x16BITS_TO_8BITS	d13, d14, d15, q7 //output to d13[0]
-	vst1.u8	{d13[0]}, [r2], r3	//write 8th Byte
+	UNPACK_2_16BITS_TO_ABC	q9, q10, q11, q12, q13
+	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18	//output to q9[0]
+	vst1.u8	d18, [r2]!				//write 8Byte
+	UNPACK_1_IN_8x16BITS_TO_8BITS	d19, d20, d21, q10 //output to d19[0]
+	vst1.u8	{d19[0]}, [r2], r3	//write 8th Byte
 
 	vld1.u8	{q2}, [r0], r1		//read 4th row
 	//the 4th row
 	pld			[r0]
-	// vertical filtered into q6/q7
-	FILTER_6TAG_8BITS_TO_16BITS 	d6, d8, d10, d0, d2, d4, q6, q14, q15	// 8 avail
-	FILTER_6TAG_8BITS_TO_16BITS 	d7, d9, d11, d1, d3, d5, q7, q14, q15	// 6 avail
+	// vertical filtered into q9/q10
+	FILTER_6TAG_8BITS_TO_16BITS 	d6, d8, d16, d0, d2, d4, q9, q14, q15	// 8 avail
+	FILTER_6TAG_8BITS_TO_16BITS 	d7, d9, d17, d1, d3, d5, q10, q14, q15	// 6 avail
 	// horizon filtered
-	UNPACK_2_16BITS_TO_ABC	q6, q7, q11, q12, q13
-	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d12	//output to q6[0]
-	vst1.u8	d12, [r2]!			//write 8Byte
-	UNPACK_1_IN_8x16BITS_TO_8BITS	d13, d14, d15, q7 //output to d13[0]
-	vst1.u8	{d13[0]}, [r2], r3	//write 8th Byte
+	UNPACK_2_16BITS_TO_ABC	q9, q10, q11, q12, q13
+	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18	//output to q9[0]
+	vst1.u8	d18, [r2]!			//write 8Byte
+	UNPACK_1_IN_8x16BITS_TO_8BITS	d19, d20, d21, q10 //output to d19[0]
+	vst1.u8	{d19[0]}, [r2], r3	//write 8th Byte
 
-	//q4~q5, q0~q2, --> q0~q4
+	//q4~q8, q0~q2, --> q0~q4
 	vswp	q0, q4
 	vswp	q2, q4
 	vmov	q3, q1
-	vmov	q1, q5
+	vmov	q1, q8
 
 	sub		r4, #4
 	cmp		r4, #1
 	bne		w9_hv_mc_luma_loop
 	//the last row
-	vld1.u8	{q5}, [r0], r1	//use 14(9+5), =src[3]
-	// vertical filtered into q6/q7
-	FILTER_6TAG_8BITS_TO_16BITS 	d0, d2, d4, d6, d8, d10, q6, q14, q15	// 8 avail
-	FILTER_6TAG_8BITS_TO_16BITS 	d1, d3, d5, d7, d9, d11, q7, q14, q15	// 6 avail
+	vld1.u8	{q8}, [r0], r1	//use 14(9+5), =src[3]
+	// vertical filtered into q9/q10
+	FILTER_6TAG_8BITS_TO_16BITS 	d0, d2, d4, d6, d8, d16, q9, q14, q15	// 8 avail
+	FILTER_6TAG_8BITS_TO_16BITS 	d1, d3, d5, d7, d9, d17, q10, q14, q15	// 6 avail
 	// horizon filtered
-	UNPACK_2_16BITS_TO_ABC	q6, q7, q11, q12, q13
-	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d12	//output to q6[0]
-	vst1.u8	d12, [r2]!				//write 8Byte
-	UNPACK_1_IN_8x16BITS_TO_8BITS	d13, d14, d15, q7 //output to d13[0]
-	vst1.u8	{d13[0]}, [r2], r3	//write 8th Byte
+	UNPACK_2_16BITS_TO_ABC	q9, q10, q11, q12, q13
+	FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18	//output to q9[0]
+	vst1.u8	d18, [r2]!				//write 8Byte
+	UNPACK_1_IN_8x16BITS_TO_8BITS	d19, d20, d21, q10 //output to d19[0]
+	vst1.u8	{d19[0]}, [r2], r3	//write 8th Byte
+	vpop		{q4}
 	pop		{r4}
 WELS_ASM_FUNC_END
 
--- a/codec/encoder/core/arm/intra_pred_sad_3_opt_neon.S
+++ b/codec/encoder/core/arm/intra_pred_sad_3_opt_neon.S
@@ -535,10 +535,11 @@
 
 WELS_ASM_FUNC_BEGIN WelsIntra8x8Combined3Satd_neon
     stmdb sp!, {r4-r7, lr}
+    vpush {q4-q7}
 
 	//Get the data from stack
-	ldr r4, [sp, #32] //p_dec_cr
-	ldr r5, [sp, #36] //p_enc_cr
+	ldr r4, [sp, #96] //p_dec_cr
+	ldr r5, [sp, #100] //p_enc_cr
 
 	//Get the top line data to 'd29(cb), d31(cr)'(16 bytes)
 	sub  r6, r0, r1
@@ -637,8 +638,8 @@
     HDM_TRANSFORM_4X4_L0 d7, d9, d25, d21, d13, d11, d10, d28, d30
 
 	//Get the data from stack
-	ldr r5, [sp, #20] //the addr of Best_mode
-	ldr r6, [sp, #24] //the value of i_lambda
+	ldr r5, [sp, #84] //the addr of Best_mode
+	ldr r6, [sp, #88] //the value of i_lambda
 
 	vrshr.u16  d11, #1
 	vpaddl.u16 d11, d11
@@ -668,6 +669,7 @@
     str r6, [r5]
     mov r0, lr
 
+	vpop {q4-q7}
 	ldmia sp!, {r4-r7, lr}
 WELS_ASM_FUNC_END
 
--- a/codec/encoder/core/arm/pixel_neon.S
+++ b/codec/encoder/core/arm/pixel_neon.S
@@ -38,86 +38,86 @@
     vld1.64     {q0}, [r0,:128], r1
     vld1.64     {q1}, [r2], r3
 
-    vsubl.u8    q4,  d0,  d2
+    vsubl.u8    q8,  d0,  d2
     vld1.64     {q2}, [r0,:128], r1
 
-    vsubl.u8    q6, d1,  d3
+    vsubl.u8    q10, d1,  d3
     vld1.64     {q3}, [r2], r3
 
-    vsubl.u8    q5,  d4,  d6
+    vsubl.u8    q9,  d4,  d6
     vld1.64     {q0}, [r0,:128], r1
 
-    vsubl.u8    q7, d5,  d7
+    vsubl.u8    q11, d5,  d7
     vld1.64     {q1}, [r2], r3
 
-    vsubl.u8    q8, d0,  d2
+    vsubl.u8    q12, d0,  d2
     vld1.64     {q2}, [r0,:128], r1
 
-    vsubl.u8    q10, d1,  d3
-    vadd.s16    q0,  q4,  q5
+    vsubl.u8    q14, d1,  d3
+    vadd.s16    q0,  q8,  q9
 
     vld1.64     {q3}, [r2], r3
-    vsub.s16    q1,  q4,  q5
+    vsub.s16    q1,  q8,  q9
 
-    vsubl.u8    q9, d4,  d6
-    vsubl.u8    q11, d5,  d7
+    vsubl.u8    q13, d4,  d6
+    vsubl.u8    q15, d5,  d7
 
-    vadd.s16    q2, q8, q9
-    vsub.s16    q3, q8, q9
+    vadd.s16    q2, q12, q13
+    vsub.s16    q3, q12, q13
 
-    vadd.s16    q4, q6, q7
-    vsub.s16	q5, q6, q7
+    vadd.s16    q8, q10, q11
+    vsub.s16	q9, q10, q11
 
-    vadd.s16    q6, q10, q11
-    vsub.s16	q7, q10, q11
+    vadd.s16    q10, q14, q15
+    vsub.s16	q11, q14, q15
 
-    vadd.s16    q8, q0, q2
-    vsub.s16    q10, q0, q2
+    vadd.s16    q12, q0, q2
+    vsub.s16    q14, q0, q2
 
-    vadd.s16    q9, q4, q6
-    vsub.s16    q11, q4, q6
+    vadd.s16    q13, q8, q10
+    vsub.s16    q15, q8, q10
 
     vsub.s16    q0, q1, q3
     vadd.s16    q2, q1, q3
 
-    vsub.s16    q1, q5, q7
-    vadd.s16    q3, q5, q7
+    vsub.s16    q1, q9, q11
+    vadd.s16    q3, q9, q11
 
-    vtrn.16 q8, q10
-    vtrn.16 q9, q11
+    vtrn.16 q12, q14
+    vtrn.16 q13, q15
 
-    vadd.s16 q4, q8, q10
-    vabd.s16 q6, q8, q10
+    vadd.s16 q8, q12, q14
+    vabd.s16 q10, q12, q14
 
-    vadd.s16 q5, q9, q11
-    vabd.s16 q7, q9, q11
+    vadd.s16 q9, q13, q15
+    vabd.s16 q11, q13, q15
 
-    vabs.s16 q4, q4
-    vabs.s16 q5, q5
+    vabs.s16 q8, q8
+    vabs.s16 q9, q9
 
     vtrn.16 q0, q2
     vtrn.16 q1, q3
 
-    vadd.s16 q8, q0, q2
-    vabd.s16 q10, q0, q2
+    vadd.s16 q12, q0, q2
+    vabd.s16 q14, q0, q2
 
-    vadd.s16 q9, q1, q3
-    vabd.s16 q11, q1, q3
+    vadd.s16 q13, q1, q3
+    vabd.s16 q15, q1, q3
 
-    vabs.s16 q8, q8
-    vabs.s16 q9, q9
+    vabs.s16 q12, q12
+    vabs.s16 q13, q13
 
-    vtrn.32 q4, q6
-    vtrn.32 q5, q7
-
     vtrn.32 q8, q10
     vtrn.32 q9, q11
 
-    vmax.s16    q0, q4,  q6
-    vmax.s16    q1, q5,  q7
-    vmax.s16    q2, q8,  q10
-    vmax.s16    q3, q9,  q11
+    vtrn.32 q12, q14
+    vtrn.32 q13, q15
 
+    vmax.s16    q0, q8,  q10
+    vmax.s16    q1, q9,  q11
+    vmax.s16    q2, q12,  q14
+    vmax.s16    q3, q13,  q15
+
     vadd.u16 q0, q0, q1
     vadd.u16 q2, q2, q3
 .endm
@@ -128,49 +128,49 @@
     vld1.64     {d1}, [r2], r3
 
     vld1.64     {d2}, [r0,:64], r1
-    vsubl.u8    q4, d0, d1
+    vsubl.u8    q8, d0, d1
 
     vld1.64     {d3}, [r2], r3
-    vsubl.u8    q5, d2, d3
+    vsubl.u8    q9, d2, d3
 
     vld1.64     {d4}, [r0,:64], r1
     vld1.64     {d5}, [r2], r3
 
-    vadd.s16    q8, q4, q5
-    vsubl.u8    q6, d4, d5
+    vadd.s16    q12, q8, q9
+    vsubl.u8    q10, d4, d5
 
     vld1.64     {d6}, [r0,:64], r1
     vld1.64     {d7}, [r2], r3
 
-    vsubl.u8    q7, d6,  d7
-    vsub.s16    q9, q4, q5
+    vsubl.u8    q11, d6,  d7
+    vsub.s16    q13, q8, q9
 
-    vadd.s16    q10, q6, q7
-    vsub.s16    q11, q6, q7
+    vadd.s16    q14, q10, q11
+    vsub.s16    q15, q10, q11
 
-    vadd.s16    q0, q8, q10
-    vsub.s16    q1, q8, q10
+    vadd.s16    q0, q12, q14
+    vsub.s16    q1, q12, q14
 
-    vsub.s16    q2, q9, q11
-    vadd.s16    q3, q9, q11
+    vsub.s16    q2, q13, q15
+    vadd.s16    q3, q13, q15
 
     vtrn.16     q0, q1
     vtrn.16     q2, q3
 
-    vadd.s16    q4, q0, q1
-    vabd.s16    q5, q0, q1
+    vadd.s16    q8, q0, q1
+    vabd.s16    q9, q0, q1
 
-    vabs.s16    q4, q4
-    vadd.s16    q6, q2, q3
+    vabs.s16    q8, q8
+    vadd.s16    q10, q2, q3
 
-    vabd.s16    q7, q2, q3
-    vabs.s16    q6, q6
+    vabd.s16    q11, q2, q3
+    vabs.s16    q10, q10
 
-    vtrn.32     q4, q5
-    vtrn.32     q6, q7
+    vtrn.32     q8, q9
+    vtrn.32     q10, q11
 
-    vmax.s16    q0, q4, q5
-    vmax.s16    q1, q6, q7
+    vmax.s16    q0, q8, q9
+    vmax.s16    q1, q10, q11
 .endm
 
 .macro SAD_16x4
@@ -221,6 +221,7 @@
 
 
 WELS_ASM_FUNC_BEGIN WelsSampleSad16x16_neon
+    vpush {q4-q7}
 
     vld1.64 {q0}, [r0, :128], r1
     vld1.64 {q1}, [r2], r3
@@ -257,10 +258,13 @@
     vpaddl.u16 d0, d0
     vpaddl.u32 d0, d0
     vmov.u32   r0, d0[0]
+
+    vpop {q4-q7}
 WELS_ASM_FUNC_END
 
 
 WELS_ASM_FUNC_BEGIN WelsSampleSad16x8_neon
+    vpush {q4-q7}
 
     vld1.64 {q0}, [r0, :128], r1
     vld1.64 {q1}, [r2], r3
@@ -295,6 +299,7 @@
     vpaddl.u16 d0, d0
     vpaddl.u32 d0, d0
     vmov.u32   r0, d0[0]
+    vpop {q4-q7}
 WELS_ASM_FUNC_END
 
 
@@ -735,86 +740,94 @@
 
 
 WELS_ASM_FUNC_BEGIN WelsSampleSatd16x16_neon
+    vpush       {q7}
 
     SATD_16x4
-    vadd.u16    q15,  q0, q2
+    vadd.u16    q7,  q0, q2
 
     SATD_16x4
-    vadd.u16    q15,  q15, q0
-    vadd.u16    q15,  q15, q2
+    vadd.u16    q7,  q7, q0
+    vadd.u16    q7,  q7, q2
 
     SATD_16x4
-    vadd.u16    q15,  q15, q0
-    vadd.u16    q15,  q15, q2
+    vadd.u16    q7,  q7, q0
+    vadd.u16    q7,  q7, q2
 
     SATD_16x4
-    vadd.u16    q15,  q15, q0
-    vadd.u16    q15,  q15, q2
+    vadd.u16    q7,  q7, q0
+    vadd.u16    q7,  q7, q2
 
-    vadd.u16  d0, d30, d31
+    vadd.u16  d0, d14, d15
     vpaddl.u16  d0, d0
     vpaddl.u32  d0, d0
 
     vmov.32     r0,  d0[0]
+    vpop        {q7}
 WELS_ASM_FUNC_END
 
 
 WELS_ASM_FUNC_BEGIN WelsSampleSatd16x8_neon
+    vpush       {q7}
 
     SATD_16x4
-    vadd.u16    q15,  q0, q2
+    vadd.u16    q7,  q0, q2
 
     SATD_16x4
-    vadd.u16    q15,  q15, q0
-    vadd.u16    q15,  q15, q2
+    vadd.u16    q7,  q7, q0
+    vadd.u16    q7,  q7, q2
 
-    vadd.u16  d0, d30, d31
+    vadd.u16  d0, d14, d15
     vpaddl.u16  d0, d0
     vpaddl.u32  d0, d0
 
     vmov.32     r0,  d0[0]
+    vpop        {q7}
 WELS_ASM_FUNC_END
 
 
 WELS_ASM_FUNC_BEGIN WelsSampleSatd8x16_neon
+    vpush       {q7}
 
     SATD_8x4
-    vadd.u16    q15,  q0, q1
+    vadd.u16    q7,  q0, q1
 
     SATD_8x4
-    vadd.u16    q15,  q15, q0
-    vadd.u16    q15,  q15, q1
+    vadd.u16    q7,  q7, q0
+    vadd.u16    q7,  q7, q1
 
     SATD_8x4
-    vadd.u16    q15,  q15, q0
-    vadd.u16    q15,  q15, q1
+    vadd.u16    q7,  q7, q0
+    vadd.u16    q7,  q7, q1
 
     SATD_8x4
-    vadd.u16    q15,  q15, q0
-    vadd.u16    q15,  q15, q1
+    vadd.u16    q7,  q7, q0
+    vadd.u16    q7,  q7, q1
 
-    vadd.u16  d0, d30, d31
+    vadd.u16  d0, d14, d15
     vpaddl.u16  d0, d0
     vpaddl.u32  d0, d0
 
     vmov.32     r0,  d0[0]
+    vpop        {q7}
 WELS_ASM_FUNC_END
 
 
 WELS_ASM_FUNC_BEGIN WelsSampleSatd8x8_neon
+    vpush       {q7}
 
     SATD_8x4
-    vadd.u16    q15,  q0, q1
+    vadd.u16    q7,  q0, q1
 
     SATD_8x4
-    vadd.u16    q15,  q15, q0
-    vadd.u16    q15,  q15, q1
+    vadd.u16    q7,  q7, q0
+    vadd.u16    q7,  q7, q1
 
-    vadd.u16  d0, d30, d31
+    vadd.u16  d0, d14, d15
     vpaddl.u16  d0, d0
     vpaddl.u32  d0, d0
 
     vmov.32     r0,  d0[0]
+    vpop        {q7}
 WELS_ASM_FUNC_END
 
 
--- a/codec/processing/src/arm/vaa_calc_neon.S
+++ b/codec/processing/src/arm/vaa_calc_neon.S
@@ -635,8 +635,9 @@
 
 WELS_ASM_FUNC_BEGIN VAACalcSadSsdBgd_neon
 	stmdb sp!, {r0-r12, r14}
+	vpush {q4-q7}
 
-	ldr r4, [sp, #56] //r4 keeps the pic_stride
+	ldr r4, [sp, #120] //r4 keeps the pic_stride
 
 	sub r5, r4, #1
 	lsl r5, r5, #4 //r5 keeps the little step
@@ -645,12 +646,12 @@
 	sub r6, r2, r6	//r6 keeps the big step
 
 
-	ldr r8, [sp, #64]//psad8x8
-	ldr r9, [sp, #68]//psum16x16
-	ldr r10, [sp, #72]//psqsum16x16
-	ldr r11, [sp, #76]//psqdiff16x16
-	ldr r12, [sp, #80]//p_sd8x8
-	ldr r14, [sp, #84]//p_mad8x8
+	ldr r8, [sp, #128]//psad8x8
+	ldr r9, [sp, #132]//psum16x16
+	ldr r10, [sp, #136]//psqsum16x16
+	ldr r11, [sp, #140]//psqdiff16x16
+	ldr r12, [sp, #144]//p_sd8x8
+	ldr r14, [sp, #148]//p_mad8x8
 
 	vmov.i8 q12, #0
 
@@ -700,11 +701,12 @@
 bne vaa_calc_sad_ssd_bgd_height_loop
 
 	//psadframe
-	ldr r7, [sp, #60]//psadframe
+	ldr r7, [sp, #124]//psadframe
 
 	vadd.i32 d24, d24, d25
 	vst1.32 {d24[0]}, [r7]
 
+	vpop {q4-q7}
 	ldmia sp!, {r0-r12, r14}
 
 WELS_ASM_FUNC_END
@@ -912,8 +914,10 @@
 
 WELS_ASM_FUNC_BEGIN VAACalcSadVar_neon
 	stmdb sp!, {r4-r11}
+	vpush {q4}
+	vpush {q6-q7}
 
-	ldr r4, [sp, #32] //r4 keeps the pic_stride
+	ldr r4, [sp, #80] //r4 keeps the pic_stride
 
 	sub r5, r4, #1
 	lsl r5, r5, #4 //r5 keeps the little step
@@ -921,10 +925,10 @@
 	lsl r6, r4, #4
 	sub r6, r2, r6	//r6 keeps the big step
 
-	ldr r7,		[sp, #36]	//psadframe
-	ldr r8,		[sp, #40]	//psad8x8
-	ldr r9,		[sp, #44]	//psum16x16
-	ldr r10,	[sp, #48]	//psqsum16x16
+	ldr r7,		[sp, #84]	//psadframe
+	ldr r8,		[sp, #88]	//psad8x8
+	ldr r9,		[sp, #92]	//psum16x16
+	ldr r10,	[sp, #96]	//psqsum16x16
 
 	vmov.i8 q12, #0
 vaa_calc_sad_var_height_loop:
@@ -961,6 +965,8 @@
 	vadd.i32 d24, d24, d25
 	vst1.32 {d24[0]}, [r7]
 
+	vpop {q6-q7}
+	vpop {q4}
 	ldmia sp!, {r4-r11}
 WELS_ASM_FUNC_END
 
@@ -1080,8 +1086,10 @@
 
 WELS_ASM_FUNC_BEGIN VAACalcSadSsd_neon
 	stmdb sp!, {r4-r12}
+	vpush {q4}
+	vpush {q6-q7}
 
-	ldr r4, [sp, #36] //r4 keeps the pic_stride
+	ldr r4, [sp, #84] //r4 keeps the pic_stride
 
 	sub r5, r4, #1
 	lsl r5, r5, #4 //r5 keeps the little step
@@ -1089,11 +1097,11 @@
 	lsl r6, r4, #4
 	sub r6, r2, r6	//r6 keeps the big step
 
-	ldr r7,		[sp, #40]	//psadframe
-	ldr r8,		[sp, #44]	//psad8x8
-	ldr r9,		[sp, #48]	//psum16x16
-	ldr r10,	[sp, #52]	//psqsum16x16
-	ldr r11,	[sp, #56]	//psqdiff16x16
+	ldr r7,		[sp, #88]	//psadframe
+	ldr r8,		[sp, #92]	//psad8x8
+	ldr r9,		[sp, #96]	//psum16x16
+	ldr r10,	[sp, #100]	//psqsum16x16
+	ldr r11,	[sp, #104]	//psqdiff16x16
 
 	vmov.i8 q12, #0
 vaa_calc_sad_ssd_height_loop:
@@ -1137,6 +1145,8 @@
 	vadd.i32 d24, d24, d25
 	vst1.32 {d24[0]}, [r7]
 
+	vpop {q6-q7}
+	vpop {q4}
 	ldmia sp!, {r4-r12}
 WELS_ASM_FUNC_END