Lines Matching refs:p0

103     mov           r7, r0                @keeping backup of pointer to p0
104 vld1.8 {q3}, [r0], r1 @p0 values are loaded into q3
107 vabd.u8 q13, q4, q3 @Q13 = ABS(p1 - p0)
109 vabd.u8 q11, q3, q0 @Q11 = ABS(p0 - q0)
118 vabd.u8 q14, q5, q3 @Q14 = Ap = ABS(p2 - p0)
122 vcge.u8 q9, q11, q10 @Q9 = ( ABS(p0 - q0) >= Alpha )
124 vcge.u8 q13, q13, q8 @Q13=( ABS(p1 - p0) >= Beta )
128 vorr q9, q9, q12 @Q9 = ( ABS(p0 - q0) >= Alpha ) | ( ABS(q1 - q0) >= Beta )
130 vsubl.u8 q12, d0, d6 @Q15,Q12 = (q0 - p0)
131 vorr q9, q9, q13 @Q9 = ( ABS(p0 - q0) >= Alpha ) | ( ABS(q1 - q0) >= Beta ) | ( ABS(p1 - p0) >= Beta )
133 vshl.i16 q13, q15, #2 @Q13 = (q0 - p0)<<2
134 vshl.i16 q12, q12, #2 @Q12 = (q0 - p0)<<2
138 vadd.i16 q13, q13, q15 @Q13,Q12 = [ (q0 - p0)<<2 ] + (p1 - q1)
140 vrhadd.u8 q8, q3, q0 @Q8 = ((p0+q0+1) >> 1)
142 vqrshrn.s16 d25, q13, #3 @Q12 = i_macro = (((q0 - p0)<<2) + (p1 - q1) + 4)>>3
148 vaddl.u8 q5, d16, d10 @Q14,Q5 = p2 + (p0+q0+1)>>1
152 vaddl.u8 q2, d16, d4 @Q15,Q2 = q2 + (p0+q0+1)>>1
155 vsub.i16 q14, q14, q13 @Q14,Q5 = [p2 + (p0+q0+1)>>1] - (p1<<1)
162 vsub.i16 q15, q15, q13 @Q15,Q2 = [q2 + (p0+q0+1)>>1] - (q1<<1)
169 vqadd.u8 q8, q3, q9 @Q8 = p0 + delta
170 vqsub.u8 q3, q3, q9 @Q3 = p0 - delta
176 vbif q8, q3, q12 @Q8 = (i_macro >= 0 ) ? (p0+delta) : (p0-delta)
180 vst1.8 {q8}, [r7], r1 @writting back filtered value of p0
231 sub r12, r0, r1 @pointer to p0 = q0 - src_strd
239 vld1.8 {d6, d7}, [r12] @load p0 to Q3
244 vabd.u8 q6, q2, q3 @ABS(p0 - q0)
246 vabd.u8 q8, q5, q3 @ABS(p1 - p0)
247 vcge.u8 q9, q6, q0 @ABS(p0 - q0) >= Alpha
249 vcge.u8 q8, q8, q1 @ABS(p1 - p0) >= Beta
251 vorr q9, q9, q7 @ABS(p0 - q0) >= Alpha || ABS(q1 - q0) >= Beta
253 vorr q9, q9, q8 @ABS(p0 - q0) >= Alpha || ABS(q1 - q0) >= Beta || ABS(p1 - p0) >= Beta
256 vaddl.u8 q12, d4, d6 @p0+q0 L
257 vaddl.u8 q13, d5, d7 @p0+q0 H
259 vclt.u8 q10, q6, q10 @(ABS(p0 - q0) <((Alpha >>2) + 2))
262 vaddw.u8 q14, q12, d8 @p0+q0+q1 L
263 vaddw.u8 q15, q13, d9 @p0+q0+q1 H
264 vand q11, q11, q10 @(Aq < Beta && ABS(p0 - q0) <((Alpha >>2) + 2))
265 @ q0' if (Aq < Beta && ABS(p0 - q0) <((Alpha >>2) + 2)) TRUE
266 vadd.i16 q8, q14, q14 @2*(p0+q0+q1)L
267 vadd.i16 q0, q15, q15 @2*(p0+q0+q1)H
268 vaddw.u8 q8, q8, d14 @2*(p0+q0+q1)+q2 L
269 vaddw.u8 q0, q0, d15 @2*(p0+q0+q1)+q2 H
270 vaddw.u8 q8, q8, d10 @2*(p0+q0+q1)+q2 +p1 L
271 vaddw.u8 q0, q0, d11 @2*(p0+q0+q1)+q2 +p1 H
272 vrshrn.u16 d12, q8, #3 @(2*(p0+q0+q1)+q2 +p1 +4)>> 3 L [q0']
273 vrshrn.u16 d13, q0, #3 @(2*(p0+q0+q1)+q2 +p1 +4)>> 3 H [q0']
274 @ q0" if (Aq < Beta && ABS(p0 - q0) <((Alpha >>2) + 2)) FALSE
284 vaddw.u8 q14, q14, d14 @p0+q0+q1+q2 L
285 vaddw.u8 q15, q15, d15 @p0+q0+q1+q2 H
289 vbic q11, q11, q9 @((ABS(p0 - q0) >= Alpha || ABS(q1 - q0) >= Beta || ABS(p1 - p0) >= Beta))
290 @ && (Aq < Beta && ABS(p0 - q0) <((Alpha >>2) + 2))
291 vrshrn.u16 d12, q14, #2 @(p0+q0+q1+q2+2)>>2 L [q1']
292 vrshrn.u16 d13, q15, #2 @(p0+q0+q1+q2+2)>>2 H [q1']
297 vadd.i16 q14, q14, q8 @p0+q0+q1+2*q2+q3 L
299 vadd.i16 q15, q15, q0 @p0+q0+q1+2*q2+q3 H
300 vadd.i16 q14, q14, q8 @p0+q0+q1+3*q2+2*q3 L
301 vadd.i16 q15, q15, q0 @p0+q0+q1+3*q2+2*q3 H
302 vrshrn.u16 d0, q14, #3 @(p0+q0+q1+3*q2+2*q3+4)>>3 L [q2']
303 vrshrn.u16 d1, q15, #3 @(p0+q0+q1+3*q2+2*q3+4)>>3 H [q2']
307 vabd.u8 q8, q15, q3 @Ap,ABS(p2 - p0)
308 vaddw.u8 q12, q12, d10 @p0+q0+p1 L
310 vaddw.u8 q13, q13, d11 @p0+q0+p1 H
313 vadd.i16 q14, q12, q12 @2*(p0+q0+p1) L
314 vadd.i16 q2, q13, q13 @2*(p0+q0+p1) H
316 vand q10, q10, q8 @((Ap < Beta) && (ABS(p0 - q0) <((Alpha >>2) + 2)))
317 vaddw.u8 q14, q14, d30 @2*(p0+q0+p1)+p2 l
318 vaddw.u8 q2, q2, d31 @2*(p0+q0+p1)+p2 H
319 vaddw.u8 q14, q14, d8 @2*(p0+q0+p1)+p2+q1 L
320 vaddw.u8 q2, q2, d9 @2*(p0+q0+p1)+p2+q1 H
321 vrshrn.u16 d28, q14, #3 @(2*(p0+q0+p1)+p2+q1+4)>>3 L,p0'
322 vrshrn.u16 d29, q2, #3 @(2*(p0+q0+p1)+p2+q1+4)>>3 H,p0'
325 vaddl.u8 q1, d6, d8 @p0+q1 L
326 vmlal.u8 q1, d10, d0 @2*p1+p0+q1 L
327 vaddl.u8 q8, d7, d9 @p0+q1 H
328 vmlal.u8 q8, d11, d0 @2*p1+p0+q1 H
329 vaddw.u8 q6, q12, d30 @(p0+q0+p1) +p2 L
331 vaddw.u8 q2, q13, d31 @(p0+q0+p1) +p2 H
333 vrshrn.u16 d26, q6, #2 @((p0+q0+p1)+p2 +2)>>2,p1' L
334 vrshrn.u16 d2, q1, #2 @(2*p1+p0+q1+2)>>2,p0"L
335 vrshrn.u16 d27, q2, #2 @((p0+q0+p1)+p2 +2)>>2,p1' H
336 vrshrn.u16 d3, q8, #2 @(2*p1+p0+q1+2)>>2,p0" H
338 vmla.u16 q6, q4, d1[0] @(p0+q0+p1)+3*p2+2*p3 L
339 vmla.u16 q2, q8, d1[0] @(p0+q0+p1)+3*p2+2*p3 H
340 vbic q8, q10, q9 @((ABS(p0 - q0) >= Alpha || ABS(q1 - q0) >= Beta || ABS(p1 - p0) >= Beta))
341 @&& (Ap < Beta && ABS(p0 - q0) <((Alpha >>2) + 2))
342 vbit q1, q14, q10 @choosing between po' and p0"
343 vrshrn.u16 d12, q6, #3 @((p0+q0+p1)+3*p2+2*p3+4)>>3 L p2'
344 vrshrn.u16 d13, q2, #3 @((p0+q0+p1)+3*p2+2*p3+4)>>3 H p2'
345 vbif q3, q1, q9 @choosing between p0 and filtered value of p0
348 vst1.8 {d6, d7}, [r12] @store p0
404 @loading p3:p2:p1:p0:q0:q1:q2:q3 for every row
448 @now Q3 ->p0 and Q7->q3
457 @starting processing as p0 and q0 are now ready
459 vrhadd.u8 q10, q3, q4 @((p0 + q0 + 1) >> 1)
464 vabd.u8 q11, q3, q4 @ABS(p0 - q0)
466 vaddl.u8 q12, d20, d2 @(p2 + ((p0 + q0 + 1) >> 1) L
468 vaddl.u8 q13, d21, d3 @(p2 + ((p0 + q0 + 1) >> 1) H
469 vmlsl.u8 q12, d4, d19 @(p2 + ((p0 + q0 + 1) >> 1) - (p1 << 1)) L
470 vmlsl.u8 q13, d5, d19 @(p2 + ((p0 + q0 + 1) >> 1) - (p1 << 1)) H
472 vcle.u8 q11, q14, q11 @ABS(p0 - q0) >= Alpha(Alpha <=ABS(p0 - q0))
475 vqshrn.s16 d24, q12, #1 @((p2 + ((p0 + q0 + 1) >> 1) - (p1 << 1)) >> 1) L
476 vqshrn.s16 d25 , q13, #1 @((p2 + ((p0 + q0 + 1) >> 1) - (p1 << 1)) >> 1) H
478 vabd.u8 q13, q2, q3 @ABS(p1 - p0)
480 vorr q11, q11, q15 @ABS(q1 - q0) >= Beta ||ABS(p0 - q0) >= Alpha
482 vcge.u8 q13, q13, q14 @ABS(p1 - p0) >= Beta
484 vorr q11, q11, q13 @ABS(p0 - q0) >= Alpha || ABS(q1 - q0) >= Beta || ABS(p1 - p0) >= Beta)
486 vaddl.u8 q9, d20, d12 @q2 + ((p0 + q0 + 1) >> 1) L
488 vsubw.u8 q9, q9, d10 @(q2 + ((p0 + q0 + 1) >> 1) - q1) L
489 vaddl.u8 q10, d21, d13 @q2 + ((p0 + q0 + 1) >> 1) H
490 vsubw.u8 q9, q9, d10 @(q2 + ((p0 + q0 + 1) >> 1) - 2*q1)L
491 vsubw.u8 q10, q10, d11 @(q2 + ((p0 + q0 + 1) >> 1) - q1) H
492 vorr q13, q13, q11 @(ABS(p0 - q0) >= Alpha || ABS(q1 - q0) >= Beta || ABS(p1 - p0) >= Beta)) &&(ui_bs)
493 vsubw.u8 q10, q10, d11 @(q2 + ((p0 + q0 + 1) >> 1) - 2*q1) H
494 vqshrn.s16 d18, q9, #1 @((q2 + ((p0 + q0 + 1) >> 1) - (q1 << 1)) >> 1) L
495 vabd.u8 q11, q1, q3 @Ap = ABS(p2 - p0)
496 vqshrn.s16 d19, q10, #1 @((q2 + ((p0 + q0 + 1) >> 1) - (q1 << 1)) >> 1) H
501 vsubl.u8 q14, d8, d6 @(q0 - p0) L
503 vsubl.u8 q15, d9, d7 @(q0 - p0) H
504 vshl.s16 q14, q14, #2 @(q0 - p0)<<2 L
506 vshl.s16 q15, q15, #2 @(q0 - p0) << 2) H
507 vaddw.u8 q14, q14, d4 @((q0 - p0) << 2) + (p1 L
508 vaddw.u8 q15, q15, d5 @((q0 - p0) << 2) + (p1 H
509 vsubw.u8 q14, q14, d10 @((q0 - p0) << 2) + (p1 - q1) L
510 vsubw.u8 q15, q15, d11 @((q0 - p0) << 2) + (p1 - q1) H
512 vrshrn.s16 d28, q14, #3 @delta = ((((q0 - p0) << 2) + (p1 - q1) + 4) >> 3); L
513 vrshrn.s16 d29, q15, #3 @delta = ((((q0 - p0) << 2) + (p1 - q1) + 4) >> 3) H
524 vqsub.u8 q11, q3, q15 @clip(p0-delta)
526 vqadd.u8 q3, q3, q15 @clip(p0+delta)
532 vbif q3, q11, q14 @p0
544 @now Q3 ->p0 and Q7->q3
616 @loading p3:p2:p1:p0:q0:q1:q2:q3 for every row
650 @now Q3 ->p0 and Q7->q3
658 @starting processing as p0 and q0 are now ready
664 vaddl.u8 q8, d6, d8 @p0+q0 L
666 vaddl.u8 q9, d7, d9 @p0+q0 H
668 vaddw.u8 q10, q8, d4 @p0+q0+p1 L
669 vaddw.u8 q11, q9, d5 @p0+q0+p1 H
672 vmla.u16 q12, q10, q14 @p2 + X2(p1) + X2(p0) + X2(q0) + q1 L
673 vmla.u16 q13, q11, q14 @p2 + X2(p1) + X2(p0) + X2(q0) + q1 H
675 vaddw.u8 q8, q10, d2 @p0+q0+p1+p2 L
676 vaddw.u8 q9, q11, d3 @p0+q0+p1+p2 H
678 vrshrn.u16 d20, q8, #2 @(p2 + p1 + p0 + q0 + 2) >> 2)L p1'
679 vrshrn.u16 d21, q9, #2 @(p2 + p1 + p0 + q0 + 2) >> 2)H p1'
680 vabd.u8 q11, q3, q4 @ABD(p0-q0)
682 vabd.u8 q15, q1, q3 @Ap = ABD(p2-p0)
683 vrshrn.u16 d24, q12, #3 @((p2 + X2(p1) + X2(p0) + X2(q0) + q1 + 4) >> 3) L p0'
684 vrshrn.u16 d25, q13, #3 @((p2 + X2(p1) + X2(p0) + X2(q0) + q1 + 4) >> 3) H p0'
686 vcgt.u8 q14, q14, q11 @ABS(p0 - q0) <((Alpha >>2) + 2)
687 vaddl.u8 q11, d6, d10 @p0+q1 L
689 vaddl.u8 q15, d7, d11 @p0+q1 H
690 vaddw.u8 q11, q11, d4 @p0+q1+p1 L
691 vaddw.u8 q15, q15, d5 @p0+q1+p1 H
692 vaddw.u8 q11, q11, d4 @p0+q1+2*p1 L
693 vaddw.u8 q15, q15, d5 @p0+q1+2*p1 H
694 vand q7, q7, q14 @(Ap < Beta && ABS(p0 - q0) <((Alpha >>2) + 2)
695 vrshrn.u16 d22, q11, #2 @((X2(p1) + p0 + q1 + 2) >> 2) L p0"
696 vrshrn.u16 d23, q15, #2 @((X2(p1) + p0 + q1 + 2) >> 2) H p0"
698 vbif q12, q11, q7 @p0' or p0 "
702 vadd.u16 q8, q8, q15 @(X2(p3) + X3(p2) + p1 + p0 + q0) L
703 vadd.u16 q9, q9, q11 @(X2(p3) + X3(p2) + p1 + p0 + q0) H
706 vrshrn.u16 d16, q8, #3 @((X2(p3) + X3(p2) + p1 + p0 + q0 + 4) >> 3); L p2'
707 vrshrn.u16 d17, q9, #3 @((X2(p3) + X3(p2) + p1 + p0 + q0 + 4) >> 3); H p2'
708 vabd.u8 q9, q2, q3 @ABS(p1-p0)
711 vcge.u8 q9, q9, q13 @ABS(p1 - p0) >= beta
713 vand q15, q15, q14 @(Aq < Beta && ABS(p0 - q0) <((Alpha >>2) + 2))
714 vabd.u8 q14, q3, q4 @abs(p0-q0)
715 vorr q11, q11, q9 @ABS(p1 - p0) >= Beta || ABS(q1 - q0) >= Beta
716 vaddl.u8 q9, d6, d8 @p0+q0 L
717 vcge.u8 q14, q14, q13 @ABS(p0 - q0) >= Alpha
718 vaddl.u8 q13, d7, d9 @p0+q0 H
719 vaddw.u8 q9, q9, d10 @p0+q0+q1 L
720 vorr q11, q11, q14 @ABS(p1 - p0) >= Beta || ABS(q1 - q0) >= Beta||ABS(p0 - q0) >= Alpha
721 vaddw.u8 q13, q13, d11 @p0+q0+q1 H
724 vbif q3, q12, q11 @final p0
733 vmla.u16 q7, q9, q14 @p1 + X2(p0) + X2(q0) + X2(q1) + q2L
735 vmla.u16 q2, q13, q14 @p1 + X2(p0) + X2(q0) + X2(q1) + q2H
738 vaddw.u8 q9, q9, d12 @p0 + q0 + q1 + q2 L
739 vaddw.u8 q13, q13, d13 @p0 + q0 + q1 + q2 H
740 vrshrn.u16 d16, q7, #3 @(p1 + X2(p0) + X2(q0) + X2(q1) + q2 + 4) >> 3 L qo"
742 vrshrn.u16 d17, q2, #3 @(p1 + X2(p0) + X2(q0) + X2(q1) + q2 + 4) >> 3 H qo"
743 vrshrn.u16 d4, q9, #2 @p0 + q0 + q1 + q2 + 2)>>2 L q1'
744 vrshrn.u16 d5, q13, #2 @p0 + q0 + q1 + q2 + 2)>>2 H q1'
754 vmla.u16 q9, q8, q14 @X2(q3) + X3(q2) + q1 + q0 + p0 L
756 vmla.u16 q13, q2, q14 @X2(q3) + X3(q2) + q1 + q0 + p0 H
760 vrshrn.u16 d18, q9, #3 @(X2(q3) + X3(q2) + q1 + q0 + p0 + 4) >> 3; L
762 vrshrn.u16 d19, q13, #3 @(X2(q3) + X3(q2) + q1 + q0 + p0 + 4) >> 3; H
770 @now Q3 ->p0 and Q7->q3
843 @loading [p3:p2],[p1:p0]:[q0:q1]:[q2:q3] for every row
854 vuzp.8 d2, d3 @D2->p1, D3->p0
859 vaddl.u8 q4, d3, d4 @p0+q0
860 vaddw.u8 q5, q4, d2 @p0+q0+p1
862 vmla.u16 q6, q5, q14 @p2 + X2(p1) + X2(p0) + X2(q0) + q1
865 vaddw.u8 q4, q5, d1 @p0+q0+p1+p2
867 vrshrn.u16 d10, q4, #2 @(p2 + p1 + p0 + q0 + 2) >> 2) p1'
868 vabd.u8 d11, d3, d4 @ABD(p0-q0)
870 vabd.u8 d15, d1, d3 @Ap = ABD(p2-p0)
871 vrshrn.u16 d12, q6, #3 @((p2 + X2(p1) + X2(p0) + X2(q0) + q1 + 4) >> 3) p0'
873 vcgt.u8 d14, d14, d11 @ABS(p0 - q0) <((Alpha >>2) + 2)
874 vaddl.u8 q8, d3, d5 @p0+q1
876 vaddw.u8 q8, q8, d2 @p0+q1+p1
877 vaddw.u8 q8, q8, d2 @p0+q1+2*p1
878 vand d26, d26, d14 @(Ap < Beta && ABS(p0 - q0) <((Alpha >>2) + 2)
879 vrshrn.u16 d11, q8, #2 @((X2(p1) + p0 + q1 + 2) >> 2) p0"
880 vbif d12, d11, d26 @p0' or p0 "
883 vadd.u16 q4, q4, q9 @(X2(p3) + X3(p2) + p1 + p0 + q0)
886 vrshrn.u16 d8, q4, #3 @((X2(p3) + X3(p2) + p1 + p0 + q0 + 4) >> 3); p2'
887 vabd.u8 d9, d2, d3 @ABS(p1-p0)
890 vcge.u8 d9, d9, d13 @ABS(p1 - p0) >= beta
892 vand d15, d15, d14 @(Aq < Beta && ABS(p0 - q0) <((Alpha >>2) + 2))
893 vabd.u8 d14, d3, d4 @abs(p0-q0)
894 vorr d11, d11, d9 @ABS(p1 - p0) >= Beta || ABS(q1 - q0) >= Beta
895 vcge.u8 d14, d14, d13 @ABS(p0 - q0) >= Alpha
896 vaddl.u8 q10, d3, d4 @p0+q0
897 vorr d11, d11, d14 @ABS(p1 - p0) >= Beta || ABS(q1 - q0) >= Beta||ABS(p0 - q0) >= Alpha
898 vaddw.u8 q10, q10, d5 @p0+q0+q1
901 vbif d3, d12, d11 @final p0
908 vmla.u16 q11, q10, q14 @p1 + X2(p0) + X2(q0) + X2(q1) + q2
910 vaddw.u8 q10, q10, d6 @p0 + q0 + q1 + q2
911 vrshrn.u16 d8, q11, #3 @(p1 + X2(p0) + X2(q0) + X2(q1) + q2 + 4) >> 3 qo"
913 vrshrn.u16 d2, q10, #2 @p0 + q0 + q1 + q2 + 2)>>2 q1'
918 vmla.u16 q10, q12, q14 @X2(q3) + X3(q2) + q1 + q0 + p0
920 vrshrn.u16 d9, q10, #3 @(X2(q3) + X3(q2) + q1 + q0 + p0 + 4) >> 3;
922 vand d2, d10, d10 @D0->p3, D1->p2, D2->p1, D3->p0, D4->q0, D5->q1, D6->q2, D7->q3
925 vzip.8 d2, d3 @D2,D3 -> [p1:p0]
931 @storing [p3:p2],[p1:p0]:[q0:q1]:[q2:q3] in every row
993 @loading [p3:p2],[p1:p0]:[q0:q1]:[q2:q3] for every row
1004 vuzp.8 d2, d3 @D2->p1, D3->p0
1015 vrhadd.u8 d10, d3, d4 @((p0 + q0 + 1) >> 1)
1017 vabd.u8 d11, d3, d4 @ABS(p0 - q0)
1018 vaddl.u8 q6, d10, d1 @(p2 + ((p0 + q0 + 1) >> 1)
1019 vmlsl.u8 q6, d2, d31 @(p2 + ((p0 + q0 + 1) >> 1) - (p1 << 1))
1021 vcle.u8 d11, d14, d11 @ABS(p0 - q0) >= Alpha(Alpha <=ABS(p0 - q0))
1024 vqshrn.s16 d12, q6, #1 @((p2 + ((p0 + q0 + 1) >> 1) - (p1 << 1)) >> 1)
1026 vabd.u8 d13, d2, d3 @ABS(p1 - p0)
1028 vorr d11, d11, d15 @ABS(q1 - q0) >= Beta ||ABS(p0 - q0) >= Alpha
1030 vcge.u8 d13, d13, d14 @ABS(p1 - p0) >= Beta
1032 vorr d11, d11, d13 @ABS(p0 - q0) >= Alpha || ABS(q1 - q0) >= Beta || ABS(p1 - p0) >= Beta)
1034 vaddl.u8 q14, d10, d6 @q2 + ((p0 + q0 + 1) >> 1)
1035 vsubw.u8 q14, q14, d5 @q2 + ((p0 + q0 + 1) >> 1) - q1
1036 vsubw.u8 q14, q14, d5 @q2 + ((p0 + q0 + 1) >> 1) - 2*q1
1037 vorr d13, d13, d11 @(ABS(p0 - q0) >= Alpha || ABS(q1 - q0) >= Beta || ABS(p1 - p0) >= Beta))
1039 vqshrn.s16 d9, q14, #1 @(q2 + ((p0 + q0 + 1) >> 1) - (q1 << 1)) >> 1
1040 vabd.u8 d11, d1, d3 @Ap = ABS(p2 - p0)
1046 vsubl.u8 q7, d4, d3 @q0 - p0
1047 vshl.s16 q7, q7, #2 @(q0 - p0) << 2
1049 vaddw.u8 q7, q7, d2 @((q0 - p0) << 2) + p1
1050 vsubw.u8 q7, q7, d5 @((q0 - p0) << 2) + (p1 - q1)
1052 vrshr.s16 q15, q7, #3 @delta = (((q0 - p0) << 2) + (p1 - q1) + 4) >> 3
1065 vqsub.u8 d11, d3, d15 @clip(p0-delta)
1066 vqadd.u8 d3, d3, d15 @clip(p0+delta)
1069 vbif d3, d11, d14 @p0
1073 @D0->p3, D1->p2, D2->p1, D3->p0, D4->q0, D5->q1, D6->q2, D7->q3
1075 vzip.8 d2, d3 @D2,D3 -> [p1:p0]
1079 @storing [p3:p2],[p1:p0]:[q0:q1]:[q2:q3] in every row