common/arm/ih264_inter_pred_luma_horz_hpel_vert_qpel_a9q.s

@/******************************************************************************
@ *
@ * Copyright (C) 2015 The Android Open Source Project
@ *
@ * Licensed under the Apache License, Version 2.0 (the "License");
@ * you may not use this file except in compliance with the License.
@ * You may obtain a copy of the License at:
@ *
@ * http://www.apache.org/licenses/LICENSE-2.0
@ *
@ * Unless required by applicable law or agreed to in writing, software
@ * distributed under the License is distributed on an "AS IS" BASIS,
@ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
@ * See the License for the specific language governing permissions and
@ * limitations under the License.
@ *
@ *****************************************************************************
@ * Originally developed and contributed by Ittiam Systems Pvt. Ltd, Bangalore
@*/
@**
@******************************************************************************
@* @file
@*  ih264_inter_pred_luma_horz_hpel_vert_qpel_a9q.s
@*
@* @brief
@*  Contains function definitions for inter prediction  interpolation.
@*
@* @author
@*  Mohit
@*
@* @par List of Functions:
@*
@*  - ih264_inter_pred_luma_horz_hpel_vert_qpel_a9q()
@*
@* @remarks
@*  None
@*
@*******************************************************************************
@*

@* All the functions here are replicated from ih264_inter_pred_filters.c
@

@**
@**
@**
@*******************************************************************************
@*
@* @brief
@*   This function implements a two stage cascaded six tap filter. It
@*    applies the six tap filter in the horizontal direction on the
@*    predictor values, followed by applying the same filter in the
@*    vertical direction on the output of the first stage. It then averages
@*    the output of the 1st stage and the output of the 2nd stage to obtain
@*    the quarter pel values. The six tap filtering operation is described
@*    in sec 8.4.2.2.1 titled "Luma sample interpolation process".
@*
@* @par Description:
@*     This function is called to obtain pixels lying at the following
@*    location (1/2,1/4) or (1/2,3/4). The function interpolates
@*    the predictors first in the horizontal direction and then in the
@*    vertical direction to output the (1/2,1/2). It then averages
@*    the output of the 2nd stage and (1/2,1/2) value to obtain (1/2,1/4)
@*    or (1/2,3/4) depending on the offset.
@*
@* @param[in] pu1_src
@*  UWORD8 pointer to the source
@*
@* @param[out] pu1_dst
@*  UWORD8 pointer to the destination
@*
@* @param[in] src_strd
@*  integer source stride
@*
@* @param[in] dst_strd
@*  integer destination stride
@*
@* @param[in] ht
@*  integer height of the array
@*
@* @param[in] wd
@*  integer width of the array
@*
@* @param[in] pu1_tmp: temporary buffer
@*
@* @param[in] dydx: x and y reference offset for qpel calculations
@*
@* @returns
@*
@* @remarks
@*  None
@*
@*******************************************************************************
@*;

@void ih264_inter_pred_luma_horz_hpel_vert_qpel(UWORD8 *pu1_src,
@                                UWORD8 *pu1_dst,
@                                WORD32 src_strd,,
@                                WORD32 dst_strd,
@                                WORD32 ht,
@                                WORD32 wd,
@                                UWORD8* pu1_tmp,
@                                UWORD32 dydx)

@**************Variables Vs Registers*****************************************
@   r0 => *pu1_src
@   r1 => *pu1_dst
@   r2 =>  src_strd
@   r3 =>  dst_strd
@   r4 =>  ht
@   r5 =>  wd
@   r7 =>  dydx
@   r9 => *pu1_tmp

.text
.p2align 2

    .global ih264_inter_pred_luma_horz_hpel_vert_qpel_a9q

ih264_inter_pred_luma_horz_hpel_vert_qpel_a9q:

    stmfd         sp!, {r4-r12, r14}    @ store register values to stack
    vstmdb        sp!, {d8-d15}         @push neon registers to stack
    ldr           r4, [sp, #104]        @ loads ht
    sub           r0, r0, r2, lsl #1    @ pu1_src-2*src_strd
    sub           r0, r0, #2            @ pu1_src-2
    ldr           r5, [sp, #108]        @ loads wd
    ldr           r7, [sp, #116]        @ loads dydx
    lsr           r7, r7, #3            @ dydx >> 2 followed by dydx & 0x3 and dydx>>1 to obtain the deciding bit
    ldr           r9, [sp, #112]        @ pu1_tmp
    add           r7, r7, #2
    mov           r6, #48
    mla           r7, r7, r6, r9

    subs          r12, r5, #4           @if wd=4 branch to loop_4
    beq           loop_4_start

    subs          r12, r5, #8           @if wd=8 branch to loop_8
    beq           loop_8_start

    @when  wd=16
    vmov.u16      q11, #20              @ Filter coeff 0x14 into Q11
    vmov.u16      q12, #5               @ Filter coeff 0x5  into Q12
    add           r8, r0, #8
    add           r14, r1, #8
    add           r10, r9, #8
    mov           r12, r4
    add           r11, r7, #8

loop_16_lowhalf_start:
    vld1.32       {q0}, [r0], r2        @ row -2 load for horizontal filter
    vext.8        d5, d0, d1, #5
    vaddl.u8      q3, d0, d5

    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q4, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      q3, q4, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q4, d1, d4
    vld1.32       {q0}, [r0], r2        @ row -1 load for horizontal filter
    vmls.u16      q3, q4, q12
    vext.8        d5, d0, d1, #5
    vaddl.u8      q4, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q5, d2, d3

    vst1.32       {q3}, [r9], r6        @ store temp buffer 0

    vext.8        d4, d0, d1, #4
    vmla.u16      q4, q5, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q5, d1, d4
    vld1.32       {q0}, [r0], r2        @ row 0 load for horizontal filter
    vmls.u16      q4, q5, q12
    vext.8        d5, d0, d1, #5
    vaddl.u8      q5, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q6, d2, d3

    vst1.32       {q4}, [r9], r6        @ store temp buffer 1

    vext.8        d4, d0, d1, #4
    vmla.u16      q5, q6, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q6, d1, d4
    vld1.32       {q0}, [r0], r2        @ row 1 load for horizontal filter
    vmls.u16      q5, q6, q12
    vext.8        d5, d0, d1, #5
    vaddl.u8      q6, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q7, d2, d3

    vst1.32       {q5}, [r9], r6        @ store temp buffer 2

    vext.8        d4, d0, d1, #4
    vmla.u16      q6, q7, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q7, d1, d4
    vld1.32       {q0}, [r0], r2        @ row 2 load for horizontal filter
    vmls.u16      q6, q7, q12
    vext.8        d5, d0, d1, #5
    vaddl.u8      q7, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q8, d2, d3

    vst1.32       {q6}, [r9], r6        @ store temp buffer 3

    vext.8        d4, d0, d1, #4
    vmla.u16      q7, q8, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q8, d1, d4

    vmls.u16      q7, q8, q12
loop_16_lowhalf:

    vld1.32       {q0}, [r0], r2        @ row 3 load for horizontal filter
    vext.8        d5, d0, d1, #5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q8, d0, d5

    vst1.32       {q7}, [r9], r6        @ store temp buffer 4
    vaddl.u8      q9, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      q8, q9, q11
    vext.8        d1, d0, d1, #1
    vadd.s16      q14, q4, q7
    vaddl.u8      q9, d1, d4
    vadd.s16      q15, q5, q6
    vmls.u16      q8, q9, q12
    vld1.32       {q0}, [r0], r2        @ row 4 load for hoorizontal filter
    vext.8        d5, d0, d1, #5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q10, d0, d5

    vst1.32       {q8}, [r9], r6        @ store temp buffer r5

    vaddl.s16     q9, d6, d16

    vld1.32       {q13}, [r7], r6       @ load from temp buffer 0

    vaddl.s16     q3, d7, d17

    vqrshrun.s16  d26, q13, #5

    vmlal.s16     q9, d30, d22
    vmlsl.s16     q9, d28, d24
    vmlal.s16     q3, d31, d22
    vmlsl.s16     q3, d29, d24
    vaddl.u8      q1, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      q10, q1, q11
    vqrshrun.s32  d18, q9, #10
    vext.8        d1, d0, d1, #1
    vqrshrun.s32  d19, q3, #10
    vadd.s16      q14, q5, q8
    vaddl.u8      q1, d1, d4
    vadd.s16      q15, q6, q7
    vmls.u16      q10, q1, q12
    vqmovn.u16    d18, q9
    vld1.32       {q0}, [r0], r2        @ row 5 load for horizontal filter

    vrhadd.u8     d26, d18, d26

    vext.8        d5, d0, d1, #5
    vext.8        d2, d0, d1, #2

    vst1.32       {q10}, [r9], r6       @ store temp buffer r6

    vaddl.s16     q9, d8, d20

    vaddl.s16     q3, d9, d21

    vld1.32       {q4}, [r7], r6        @load from temp buffer 1


    vst1.32       d26, [r1], r3         @ store row 0

    vmlal.s16     q9, d30, d22
    vmlsl.s16     q9, d28, d24

    vqrshrun.s16  d28, q4, #5

    vmlal.s16     q3, d31, d22
    vmlsl.s16     q3, d29, d24
    vext.8        d3, d0, d1, #3
    vaddl.u8      q4, d0, d5
    vaddl.u8      q1, d2, d3
    vqrshrun.s32  d18, q9, #10
    vext.8        d4, d0, d1, #4
    vqrshrun.s32  d19, q3, #10
    vmla.u16      q4, q1, q11
    vext.8        d1, d0, d1, #1
    vadd.s16      q13, q6, q10
    vaddl.u8      q1, d1, d4
    vqmovn.u16    d18, q9
    vadd.s16      q15, q7, q8
    vmls.u16      q4, q1, q12
    vld1.32       {q0}, [r0], r2        @ row 6 load for horizontal filter

    vrhadd.u8     d28, d28, d18

    vext.8        d5, d0, d1, #5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3

    vst1.32       d28, [r1], r3         @ store row 1

    vaddl.u8      q14, d0, d5

    vst1.32       {q4}, [r9], r6        @ store temp buffer r7

    vaddl.s16     q9, d10, d8
    vaddl.s16     q3, d11, d9

    vld1.32       {q5}, [r7], r6        @ load from temp buffer 2

    vmlal.s16     q9, d30, d22
    vmlsl.s16     q9, d26, d24
    vmlal.s16     q3, d31, d22

    vqrshrun.s16  d26, q5, #5

    vmlsl.s16     q3, d27, d24
    vaddl.u8      q1, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      q14, q1, q11
    vqrshrun.s32  d18, q9, #10
    vext.8        d1, d0, d1, #1
    vqrshrun.s32  d19, q3, #10
    vadd.s16      q5, q7, q4
    vaddl.u8      q1, d1, d4
    vadd.s16      q15, q8, q10
    vmls.u16      q14, q1, q12
    vqmovn.u16    d27, q9

    vaddl.s16     q9, d12, d28
    vaddl.s16     q3, d13, d29

    vrhadd.u8     d26, d26, d27

    vmlal.s16     q9, d30, d22
    vmlsl.s16     q9, d10, d24
    vmlal.s16     q3, d31, d22
    vmlsl.s16     q3, d11, d24

    vst1.32       d26, [r1], r3         @ store row 2

    vst1.32       {q14}, [r9]


    vqrshrun.s32  d18, q9, #10
    vmov          q5, q10
    vld1.32       {q15}, [r7], r6       @ load from temp buffer 3

    vqrshrun.s32  d19, q3, #10
    subs          r4, r4, #4

    vqrshrun.s16  d30, q15, #5

    vqmovn.u16    d18, q9
    vmov          q6, q4
    vmov          q3, q7
    vrhadd.u8     d30, d18, d30
    vmov          q4, q8
    vmov          q7, q14
    vst1.32       d30, [r1], r3         @ store row 3

    bgt           loop_16_lowhalf       @ looping if height =16


loop_16_highhalf_start:
    vld1.32       {q0}, [r8], r2
    vext.8        d5, d0, d1, #5
    vaddl.u8      q3, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q4, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      q3, q4, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q4, d1, d4
    vld1.32       {q0}, [r8], r2
    vmls.u16      q3, q4, q12
    vext.8        d5, d0, d1, #5
    vaddl.u8      q4, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q5, d2, d3

    vst1.32       {q3}, [r10], r6

    vext.8        d4, d0, d1, #4
    vmla.u16      q4, q5, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q5, d1, d4
    vld1.32       {q0}, [r8], r2
    vmls.u16      q4, q5, q12
    vext.8        d5, d0, d1, #5
    vaddl.u8      q5, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q6, d2, d3

    vst1.32       {q4}, [r10], r6

    vext.8        d4, d0, d1, #4
    vmla.u16      q5, q6, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q6, d1, d4
    vld1.32       {q0}, [r8], r2
    vmls.u16      q5, q6, q12
    vext.8        d5, d0, d1, #5
    vaddl.u8      q6, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q7, d2, d3

    vst1.32       {q5}, [r10], r6

    vext.8        d4, d0, d1, #4
    vmla.u16      q6, q7, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q7, d1, d4
    vld1.32       {q0}, [r8], r2
    vmls.u16      q6, q7, q12
    vext.8        d5, d0, d1, #5
    vaddl.u8      q7, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q8, d2, d3

    vst1.32       {q6}, [r10], r6

    vext.8        d4, d0, d1, #4
    vmla.u16      q7, q8, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q8, d1, d4

    vmls.u16      q7, q8, q12

loop_16_highhalf:

    vld1.32       {q0}, [r8], r2
    vext.8        d5, d0, d1, #5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q8, d0, d5

    vst1.32       {q7}, [r10], r6

    vaddl.u8      q9, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      q8, q9, q11
    vext.8        d1, d0, d1, #1
    vadd.s16      q14, q4, q7
    vaddl.u8      q9, d1, d4
    vadd.s16      q15, q5, q6
    vmls.u16      q8, q9, q12
    vld1.32       {q0}, [r8], r2
    vext.8        d5, d0, d1, #5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q10, d0, d5

    vst1.32       {q8}, [r10], r6

    vaddl.s16     q9, d6, d16

    vld1.32       {q13}, [r11], r6

    vaddl.s16     q3, d7, d17

    vqrshrun.s16  d26, q13, #5

    vmlal.s16     q9, d30, d22
    vmlsl.s16     q9, d28, d24
    vmlal.s16     q3, d31, d22
    vmlsl.s16     q3, d29, d24
    vaddl.u8      q1, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      q10, q1, q11
    vqrshrun.s32  d18, q9, #10
    vext.8        d1, d0, d1, #1
    vqrshrun.s32  d19, q3, #10
    vadd.s16      q14, q5, q8
    vaddl.u8      q1, d1, d4
    vadd.s16      q15, q6, q7
    vmls.u16      q10, q1, q12
    vqmovn.u16    d18, q9
    vld1.32       {q0}, [r8], r2

    vrhadd.u8     d26, d18, d26

    vext.8        d5, d0, d1, #5
    vext.8        d2, d0, d1, #2

    vst1.32       {q10}, [r10], r6

    vaddl.s16     q9, d8, d20
    vaddl.s16     q3, d9, d21

    vld1.32       {q4}, [r11], r6


    vst1.32       d26, [r14], r3        @store row 0

    vmlal.s16     q9, d30, d22
    vmlsl.s16     q9, d28, d24

    vqrshrun.s16  d28, q4, #5

    vmlal.s16     q3, d31, d22
    vmlsl.s16     q3, d29, d24
    vext.8        d3, d0, d1, #3
    vaddl.u8      q4, d0, d5
    vaddl.u8      q1, d2, d3
    vqrshrun.s32  d18, q9, #10
    vext.8        d4, d0, d1, #4
    vqrshrun.s32  d19, q3, #10
    vmla.u16      q4, q1, q11
    vext.8        d1, d0, d1, #1
    vadd.s16      q13, q6, q10
    vaddl.u8      q1, d1, d4
    vqmovn.u16    d18, q9
    vadd.s16      q15, q7, q8
    vmls.u16      q4, q1, q12
    vld1.32       {q0}, [r8], r2

    vrhadd.u8     d28, d28, d18

    vext.8        d5, d0, d1, #5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3

    vst1.32       d28, [r14], r3        @store row 1

    vaddl.u8      q14, d0, d5

    vst1.32       {q4}, [r10], r6

    vaddl.s16     q9, d10, d8
    vaddl.s16     q3, d11, d9

    vld1.32       {q5}, [r11], r6

    vmlal.s16     q9, d30, d22
    vmlsl.s16     q9, d26, d24
    vmlal.s16     q3, d31, d22

    vqrshrun.s16  d26, q5, #5

    vmlsl.s16     q3, d27, d24
    vaddl.u8      q1, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      q14, q1, q11
    vqrshrun.s32  d18, q9, #10
    vext.8        d1, d0, d1, #1
    vqrshrun.s32  d19, q3, #10
    vadd.s16      q5, q7, q4
    vaddl.u8      q1, d1, d4
    vadd.s16      q15, q8, q10
    vmls.u16      q14, q1, q12
    vqmovn.u16    d27, q9


    vaddl.s16     q9, d12, d28
    vaddl.s16     q3, d13, d29

    vrhadd.u8     d26, d26, d27

    vmlal.s16     q9, d30, d22
    vmlsl.s16     q9, d10, d24
    vmlal.s16     q3, d31, d22
    vmlsl.s16     q3, d11, d24

    vst1.32       d26, [r14], r3        @ store row 2

    vst1.32       {q14}, [r10]

    vqrshrun.s32  d18, q9, #10
    vmov          q5, q10
    vld1.32       {q15}, [r11], r6

    vqrshrun.s32  d19, q3, #10
    subs          r12, r12, #4

    vqrshrun.s16  d30, q15, #5

    vqmovn.u16    d18, q9
    vmov          q6, q4
    vmov          q3, q7
    vrhadd.u8     d30, d18, d30
    vmov          q4, q8
    vmov          q7, q14
    vst1.32       d30, [r14], r3        @ store row 3

    bgt           loop_16_highhalf      @ looping if height = 8 or 16
    b             end_func

loop_8_start:

    vmov.u16      q11, #20              @ Filter coeff 20 into Q11
    vmov.u16      q12, #5               @ Filter coeff 5  into Q12
    vld1.32       {q0}, [r0], r2        @ row -2 load for horizontal filter
    vext.8        d5, d0, d1, #5
    vaddl.u8      q3, d0, d5

    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q4, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      q3, q4, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q4, d1, d4
    vld1.32       {q0}, [r0], r2        @ row -1 load for horizontal filter
    vmls.u16      q3, q4, q12
    vext.8        d5, d0, d1, #5
    vaddl.u8      q4, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q5, d2, d3

    vst1.32       {q3}, [r9], r6        @ store temp buffer 0

    vext.8        d4, d0, d1, #4
    vmla.u16      q4, q5, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q5, d1, d4
    vld1.32       {q0}, [r0], r2        @ row 0 load for horizontal filter
    vmls.u16      q4, q5, q12
    vext.8        d5, d0, d1, #5
    vaddl.u8      q5, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q6, d2, d3

    vst1.32       {q4}, [r9], r6        @ store temp buffer 1

    vext.8        d4, d0, d1, #4
    vmla.u16      q5, q6, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q6, d1, d4
    vld1.32       {q0}, [r0], r2        @ row 1 load for horizontal filter
    vmls.u16      q5, q6, q12
    vext.8        d5, d0, d1, #5
    vaddl.u8      q6, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q7, d2, d3

    vst1.32       {q5}, [r9], r6        @ store temp buffer 2

    vext.8        d4, d0, d1, #4
    vmla.u16      q6, q7, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q7, d1, d4
    vld1.32       {q0}, [r0], r2        @ row 2 load for horizontal filter
    vmls.u16      q6, q7, q12
    vext.8        d5, d0, d1, #5
    vaddl.u8      q7, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q8, d2, d3

    vst1.32       {q6}, [r9], r6        @ store temp buffer 3

    vext.8        d4, d0, d1, #4
    vmla.u16      q7, q8, q11
    vext.8        d1, d0, d1, #1
    vaddl.u8      q8, d1, d4

    vmls.u16      q7, q8, q12
loop_8:

    vld1.32       {q0}, [r0], r2        @ row 3 load for horizontal filter
    vext.8        d5, d0, d1, #5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q8, d0, d5

    vst1.32       {q7}, [r9], r6        @ store temp buffer 4

    vaddl.u8      q9, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      q8, q9, q11
    vext.8        d1, d0, d1, #1
    vadd.s16      q14, q4, q7
    vaddl.u8      q9, d1, d4
    vadd.s16      q15, q5, q6
    vmls.u16      q8, q9, q12
    vld1.32       {q0}, [r0], r2        @ row 4 load for hoorizontal filter
    vext.8        d5, d0, d1, #5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q10, d0, d5

    vst1.32       {q8}, [r9], r6        @ store temp buffer r5

    vaddl.s16     q9, d6, d16

    vld1.32       {q13}, [r7], r6       @ load from temp buffer 0

    vaddl.s16     q3, d7, d17

    vqrshrun.s16  d26, q13, #5

    vmlal.s16     q9, d30, d22
    vmlsl.s16     q9, d28, d24
    vmlal.s16     q3, d31, d22
    vmlsl.s16     q3, d29, d24
    vaddl.u8      q1, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      q10, q1, q11
    vqrshrun.s32  d18, q9, #10
    vext.8        d1, d0, d1, #1
    vqrshrun.s32  d19, q3, #10
    vadd.s16      q14, q5, q8
    vaddl.u8      q1, d1, d4
    vadd.s16      q15, q6, q7
    vmls.u16      q10, q1, q12
    vqmovn.u16    d18, q9
    vld1.32       {q0}, [r0], r2        @ row 5 load for horizontal filter

    vrhadd.u8     d26, d18, d26

    vext.8        d5, d0, d1, #5
    vext.8        d2, d0, d1, #2

    vst1.32       {q10}, [r9], r6       @ store temp buffer r6

    vaddl.s16     q9, d8, d20

    vaddl.s16     q3, d9, d21

    vld1.32       {q4}, [r7], r6        @load from temp buffer 1


    vst1.32       d26, [r1], r3         @ store row 0

    vmlal.s16     q9, d30, d22
    vmlsl.s16     q9, d28, d24

    vqrshrun.s16  d28, q4, #5

    vmlal.s16     q3, d31, d22
    vmlsl.s16     q3, d29, d24
    vext.8        d3, d0, d1, #3
    vaddl.u8      q4, d0, d5
    vaddl.u8      q1, d2, d3
    vqrshrun.s32  d18, q9, #10
    vext.8        d4, d0, d1, #4
    vqrshrun.s32  d19, q3, #10
    vmla.u16      q4, q1, q11
    vext.8        d1, d0, d1, #1
    vadd.s16      q13, q6, q10
    vaddl.u8      q1, d1, d4
    vqmovn.u16    d18, q9
    vadd.s16      q15, q7, q8
    vmls.u16      q4, q1, q12
    vld1.32       {q0}, [r0], r2        @ row 6 load for horizontal filter

    vrhadd.u8     d28, d28, d18

    vext.8        d5, d0, d1, #5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3

    vst1.32       d28, [r1], r3         @ store row 1

    vaddl.u8      q14, d0, d5

    vst1.32       {q4}, [r9], r6        @ store temp buffer r7

    vaddl.s16     q9, d10, d8
    vaddl.s16     q3, d11, d9

    vld1.32       {q5}, [r7], r6        @ load from temp buffer 2

    vmlal.s16     q9, d30, d22
    vmlsl.s16     q9, d26, d24
    vmlal.s16     q3, d31, d22

    vqrshrun.s16  d26, q5, #5

    vmlsl.s16     q3, d27, d24
    vaddl.u8      q1, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      q14, q1, q11
    vqrshrun.s32  d18, q9, #10
    vext.8        d1, d0, d1, #1
    vqrshrun.s32  d19, q3, #10
    vadd.s16      q5, q7, q4
    vaddl.u8      q1, d1, d4
    vadd.s16      q15, q8, q10
    vmls.u16      q14, q1, q12
    vqmovn.u16    d27, q9

    vaddl.s16     q9, d12, d28
    vaddl.s16     q3, d13, d29

    vrhadd.u8     d26, d26, d27

    vmlal.s16     q9, d30, d22
    vmlsl.s16     q9, d10, d24
    vmlal.s16     q3, d31, d22
    vmlsl.s16     q3, d11, d24

    vst1.32       d26, [r1], r3         @ store row 2

    vst1.32       {q14}, [r9]


    vqrshrun.s32  d18, q9, #10
    vmov          q5, q10
    vld1.32       {q15}, [r7], r6       @ load from temp buffer 3

    vqrshrun.s32  d19, q3, #10
    subs          r4, r4, #4

    vqrshrun.s16  d30, q15, #5

    vqmovn.u16    d18, q9
    vmov          q6, q4
    vmov          q3, q7
    vrhadd.u8     d30, d18, d30
    vmov          q4, q8
    vmov          q7, q14
    vst1.32       d30, [r1], r3         @ store row 3

    bgt           loop_8                @if height =8 or 16  loop
    b             end_func

loop_4_start:
    vmov.u16      d22, #20              @ Filter coeff 20 into D22
    vmov.u16      d23, #5               @ Filter coeff 5  into D23

    vld1.32       {q0}, [r0], r2        @row -2 load
    vext.8        d5, d0, d1, #5
    vaddl.u8      q3, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q4, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      d6, d8, d22
    vext.8        d1, d0, d1, #1
    vaddl.u8      q4, d1, d4
    vld1.32       {q0}, [r0], r2        @ row -1 load
    vmls.u16      d6, d8, d23
    vext.8        d5, d0, d1, #5
    vaddl.u8      q4, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q5, d2, d3

    vst1.32       d6, [r9], r6          @ store temp buffer 0

    vext.8        d4, d0, d1, #4
    vmla.u16      d8, d10, d22
    vext.8        d1, d0, d1, #1
    vaddl.u8      q5, d1, d4
    vld1.32       {q0}, [r0], r2        @ row 0 load
    vmls.u16      d8, d10, d23
    vext.8        d5, d0, d1, #5
    vaddl.u8      q5, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q6, d2, d3

    vst1.32       d8, [r9], r6          @ store temp buffer 1

    vext.8        d4, d0, d1, #4
    vmla.u16      d10, d12, d22
    vext.8        d1, d0, d1, #1
    vaddl.u8      q6, d1, d4
    vld1.32       {q0}, [r0], r2        @ row 1 load
    vmls.u16      d10, d12, d23
    vext.8        d5, d0, d1, #5
    vaddl.u8      q6, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q7, d2, d3

    vst1.32       d10, [r9], r6         @ store temp buffer 2

    vext.8        d4, d0, d1, #4
    vmla.u16      d12, d14, d22
    vext.8        d1, d0, d1, #1
    vaddl.u8      q7, d1, d4
    vld1.32       {q0}, [r0], r2        @ row 2 load
    vmls.u16      d12, d14, d23
    vext.8        d5, d0, d1, #5
    vaddl.u8      q7, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q8, d2, d3
    vext.8        d4, d0, d1, #4
    vmla.u16      d14, d16, d22
    vext.8        d1, d0, d1, #1
    vaddl.u8      q8, d1, d4

    vst1.32       d12, [r9], r6         @ store temp buffer 3

    vmls.u16      d14, d16, d23

loop_4:

    vld1.32       {q0}, [r0], r2        @ row 3 load
    vext.8        d5, d0, d1, #5
    vaddl.u8      q8, d0, d5
    vext.8        d2, d0, d1, #2
    vext.8        d3, d0, d1, #3
    vaddl.u8      q9, d2, d3
    vst1.32       d14, [r9], r6         @ store temp buffer 4
    vext.8        d4, d0, d1, #4
    vmla.u16      d16, d18, d22
    vext.8        d1, d0, d1, #1
    vaddl.u8      q9, d1, d4
    vadd.s16      d2, d10, d12
    vmls.u16      d16, d18, d23
    vadd.s16      d3, d8, d14
    vld1.32       {q9}, [r0], r2        @ row 4 load
    vext.8        d25, d18, d19, #5
    vaddl.u8      q13, d18, d25
    vext.8        d20, d18, d19, #2

    vst1.32       d16, [r9], r6         @ store temp buffer 5

    vaddl.s16     q0, d6, d16
    vmlal.s16     q0, d2, d22
    vext.8        d21, d18, d19, #3
    vaddl.u8      q14, d20, d21
    vext.8        d24, d18, d19, #4
    vmlsl.s16     q0, d3, d23
    vmla.u16      d26, d28, d22
    vext.8        d19, d18, d19, #1
    vaddl.u8      q14, d19, d24
    vadd.s16      d2, d12, d14
    vmls.u16      d26, d28, d23
    vqrshrun.s32  d0, q0, #0xa
    vadd.s16      d3, d10, d16
    vld1.32       {q9}, [r0], r2        @ row 5 load
    vext.8        d25, d18, d19, #5
    vqmovn.u16    d11, q0
    vaddl.u8      q14, d18, d25

    vst1.32       d26, [r9], r6         @ store temp buffer 6

    @Q3 available here
    vld1.32       d6, [r7], r6          @ load from temp buffer 0
    vld1.32       d7, [r7], r6          @ load from temp buffer 1
    vqrshrun.s16  d9, q3, #5

    vext.8        d20, d18, d19, #2

    vaddl.s16     q0, d8, d26
    vmlal.s16     q0, d2, d22
    vext.8        d21, d18, d19, #3
    vaddl.u8      q3, d20, d21
    vext.8        d24, d18, d19, #4
    vmlsl.s16     q0, d3, d23
    vmla.u16      d28, d6, d22
    vext.8        d19, d18, d19, #1
    vaddl.u8      q3, d19, d24
    vadd.s16      d2, d14, d16
    vmls.u16      d28, d6, d23
    vqrshrun.s32  d0, q0, #0xa
    vadd.s16      d3, d12, d26
    vld1.32       {q9}, [r0], r2        @ row 6 load
    vext.8        d25, d18, d19, #5
    vqmovn.u16    d13, q0

    vtrn.32       d11, d13
    vaddl.s16     q0, d10, d28
    vrhadd.u8     d9, d9, d11

    vst1.32       d28, [r9], r6         @ store temp buffer 7

    vmlal.s16     q0, d2, d22
    vaddl.u8      q15, d18, d25

    vst1.32       d9[0], [r1], r3       @ store row 0

    vext.8        d20, d18, d19, #2

    vst1.32       d9[1], [r1], r3       @ store row 1

    vext.8        d21, d18, d19, #3
    vmlsl.s16     q0, d3, d23
    vaddl.u8      q4, d20, d21
    vext.8        d24, d18, d19, #4
    vmla.u16      d30, d8, d22
    vext.8        d19, d18, d19, #1
    vaddl.u8      q4, d19, d24
    vqrshrun.s32  d0, q0, #0xa
    vadd.s16      d2, d16, d26
    vmls.u16      d30, d8, d23
    vqmovn.u16    d4, q0

    vadd.s16      d3, d14, d28


    vaddl.s16     q0, d12, d30

    vst1.32       d30, [r9]

    vmlal.s16     q0, d2, d22

    vld1.32       d8, [r7], r6          @ load from temp buffer 2
    vld1.32       d9, [r7], r6          @ load from temp buffer 3
    vmlsl.s16     q0, d3, d23
    subs          r4, r4, #4
    vqrshrun.s16  d10, q4, #5

    vmov          d12, d28

    vqrshrun.s32  d0, q0, #0xa
    vmov          d6, d14
    vmov          d8, d16

    vqmovn.u16    d5, q0

    vtrn.32       d4, d5
    vrhadd.u8     d4, d4, d10
    vmov          d10, d26
    vmov          d14, d30

    vst1.32       d4[0], [r1], r3       @ store row 2
    vst1.32       d4[1], [r1], r3       @ store row 3

    bgt           loop_4

end_func:
    vldmia        sp!, {d8-d15}         @ Restore neon registers that were saved
    ldmfd         sp!, {r4-r12, pc}     @Restoring registers from stack