files/source/compare.cc

33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp/*
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp *  Copyright 2011 The LibYuv Project Authors. All rights reserved.
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp *
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp *  Use of this source code is governed by a BSD-style license
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp *  that can be found in the LICENSE file in the root of the source
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp *  tree. An additional intellectual property rights grant can be found
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp *  in the file PATENTS.  All contributing project authors may
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp *  be found in the AUTHORS file in the root of the source tree.
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp */
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#include "libyuv/compare.h"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#include <float.h>
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#include <math.h>
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#ifdef _OPENMP
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#include <omp.h>
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#endif
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#include "libyuv/basic_types.h"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#include "libyuv/cpu_id.h"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#include "libyuv/row.h"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#ifdef __cplusplus
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampnamespace libyuv {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampextern "C" {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#endif
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// hash seed of 5381 recommended.
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// Internal C version of HashDjb2 with int sized count for efficiency.
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic uint32 HashDjb2_C(const uint8* src, int count, uint32 seed) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  uint32 hash = seed;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  for (int i = 0; i < count; ++i) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    hash += (hash << 5) + src[i];
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  return hash;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// This module is for Visual C x86
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#if !defined(YUV_DISABLE_ASM) && defined(_M_IX86)
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#define HAS_HASHDJB2_SSE41
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic const uvec32 kHash16x33 = { 0x92d9e201, 0, 0, 0 };  // 33 ^ 16
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic const uvec32 kHashMul0 = {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x0c3525e1,  // 33 ^ 15
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0xa3476dc1,  // 33 ^ 14
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x3b4039a1,  // 33 ^ 13
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x4f5f0981,  // 33 ^ 12
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp};
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic const uvec32 kHashMul1 = {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x30f35d61,  // 33 ^ 11
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x855cb541,  // 33 ^ 10
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x040a9121,  // 33 ^ 9
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x747c7101,  // 33 ^ 8
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp};
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic const uvec32 kHashMul2 = {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0xec41d4e1,  // 33 ^ 7
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x4cfa3cc1,  // 33 ^ 6
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x025528a1,  // 33 ^ 5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x00121881,  // 33 ^ 4
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp};
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic const uvec32 kHashMul3 = {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x00008c61,  // 33 ^ 3
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x00000441,  // 33 ^ 2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x00000021,  // 33 ^ 1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x00000001,  // 33 ^ 0
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp};
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// 27: 66 0F 38 40 C6     pmulld      xmm0,xmm6
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// 44: 66 0F 38 40 DD     pmulld      xmm3,xmm5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// 59: 66 0F 38 40 E5     pmulld      xmm4,xmm5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// 72: 66 0F 38 40 D5     pmulld      xmm2,xmm5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// 83: 66 0F 38 40 CD     pmulld      xmm1,xmm5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#define pmulld(reg) _asm _emit 0x66 _asm _emit 0x0F _asm _emit 0x38 \
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    _asm _emit 0x40 _asm _emit reg
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp__declspec(naked) __declspec(align(16))
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic uint32 HashDjb2_SSE41(const uint8* src, int count, uint32 seed) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  __asm {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    mov        eax, [esp + 4]    // src
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    mov        ecx, [esp + 8]    // count
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movd       xmm0, [esp + 12]  // seed
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pxor       xmm7, xmm7        // constant 0 for unpck
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqa     xmm6, kHash16x33
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    align      16
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  wloop:
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqu     xmm1, [eax]       // src[0-15]
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    lea        eax, [eax + 16]
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pmulld(0xc6)                 // pmulld      xmm0,xmm6  hash *= 33 ^ 16
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqa     xmm5, kHashMul0
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqa     xmm2, xmm1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    punpcklbw  xmm2, xmm7        // src[0-7]
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqa     xmm3, xmm2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    punpcklwd  xmm3, xmm7        // src[0-3]
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pmulld(0xdd)                 // pmulld     xmm3, xmm5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqa     xmm5, kHashMul1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqa     xmm4, xmm2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    punpckhwd  xmm4, xmm7        // src[4-7]
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pmulld(0xe5)                 // pmulld     xmm4, xmm5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqa     xmm5, kHashMul2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    punpckhbw  xmm1, xmm7        // src[8-15]
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqa     xmm2, xmm1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    punpcklwd  xmm2, xmm7        // src[8-11]
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pmulld(0xd5)                 // pmulld     xmm2, xmm5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqa     xmm5, kHashMul3
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    punpckhwd  xmm1, xmm7        // src[12-15]
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pmulld(0xcd)                 // pmulld     xmm1, xmm5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    paddd      xmm3, xmm4        // add 16 results
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    paddd      xmm1, xmm2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    sub        ecx, 16
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    paddd      xmm1, xmm3
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pshufd     xmm2, xmm1, 14    // upper 2 dwords
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    paddd      xmm1, xmm2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pshufd     xmm2, xmm1, 1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    paddd      xmm1, xmm2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    paddd      xmm0, xmm1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    jg         wloop
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movd       eax, xmm0        // return hash
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    ret
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#elif !defined(YUV_DISABLE_ASM) && \
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    (defined(__x86_64__) || (defined(__i386__) && !defined(__pic__)))
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// GCC 4.2 on OSX has link error when passing static or const to inline.
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// TODO(fbarchard): Use static const when gcc 4.2 support is dropped.
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#ifdef __APPLE__
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#define CONST
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#else
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#define CONST static const
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#endif
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#define HAS_HASHDJB2_SSE41
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik DahlkampCONST uvec32 kHash16x33 = { 0x92d9e201, 0, 0, 0 };  // 33 ^ 16
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik DahlkampCONST uvec32 kHashMul0 = {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x0c3525e1,  // 33 ^ 15
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0xa3476dc1,  // 33 ^ 14
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x3b4039a1,  // 33 ^ 13
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x4f5f0981,  // 33 ^ 12
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp};
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik DahlkampCONST uvec32 kHashMul1 = {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x30f35d61,  // 33 ^ 11
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x855cb541,  // 33 ^ 10
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x040a9121,  // 33 ^ 9
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x747c7101,  // 33 ^ 8
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp};
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik DahlkampCONST uvec32 kHashMul2 = {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0xec41d4e1,  // 33 ^ 7
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x4cfa3cc1,  // 33 ^ 6
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x025528a1,  // 33 ^ 5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x00121881,  // 33 ^ 4
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp};
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik DahlkampCONST uvec32 kHashMul3 = {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x00008c61,  // 33 ^ 3
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x00000441,  // 33 ^ 2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x00000021,  // 33 ^ 1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  0x00000001,  // 33 ^ 0
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp};
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic uint32 HashDjb2_SSE41(const uint8* src, int count, uint32 seed) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  uint32 hash;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  asm volatile (
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movd      %2,%%xmm0                       \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pxor      %%xmm7,%%xmm7                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqa    %4,%%xmm6                       \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    ".p2align  4                               \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  "1:                                          \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqu    (%0),%%xmm1                     \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "lea       0x10(%0),%0                     \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pmulld    %%xmm6,%%xmm0                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqa    %5,%%xmm5                       \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqa    %%xmm1,%%xmm2                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "punpcklbw %%xmm7,%%xmm2                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqa    %%xmm2,%%xmm3                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "punpcklwd %%xmm7,%%xmm3                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pmulld    %%xmm5,%%xmm3                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqa    %6,%%xmm5                       \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqa    %%xmm2,%%xmm4                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "punpckhwd %%xmm7,%%xmm4                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pmulld    %%xmm5,%%xmm4                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqa    %7,%%xmm5                       \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "punpckhbw %%xmm7,%%xmm1                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqa    %%xmm1,%%xmm2                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "punpcklwd %%xmm7,%%xmm2                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pmulld    %%xmm5,%%xmm2                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqa    %8,%%xmm5                       \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "punpckhwd %%xmm7,%%xmm1                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pmulld    %%xmm5,%%xmm1                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "paddd     %%xmm4,%%xmm3                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "paddd     %%xmm2,%%xmm1                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "sub       $0x10,%1                        \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "paddd     %%xmm3,%%xmm1                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pshufd    $0xe,%%xmm1,%%xmm2              \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "paddd     %%xmm2,%%xmm1                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pshufd    $0x1,%%xmm1,%%xmm2              \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "paddd     %%xmm2,%%xmm1                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "paddd     %%xmm1,%%xmm0                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "jg        1b                              \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movd      %%xmm0,%3                       \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  : "+r"(src),        // %0
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "+r"(count),      // %1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "+rm"(seed),      // %2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "=g"(hash)        // %3
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  : "m"(kHash16x33),  // %4
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "m"(kHashMul0),   // %5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "m"(kHashMul1),   // %6
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "m"(kHashMul2),   // %7
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "m"(kHashMul3)    // %8
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  : "memory", "cc"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#if defined(__SSE2__)
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    , "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6", "xmm7"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#endif
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  );
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  return hash;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#endif  // HAS_HASHDJB2_SSE41
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// hash seed of 5381 recommended.
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik DahlkampLIBYUV_API
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampuint32 HashDjb2(const uint8* src, uint64 count, uint32 seed) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  uint32 (*HashDjb2_SSE)(const uint8* src, int count, uint32 seed) = HashDjb2_C;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#if defined(HAS_HASHDJB2_SSE41)
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  if (TestCpuFlag(kCpuHasSSE41)) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    HashDjb2_SSE = HashDjb2_SSE41;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#endif
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int kBlockSize = 1 << 15;  // 32768;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  while (count >= static_cast<uint64>(kBlockSize)) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    seed = HashDjb2_SSE(src, kBlockSize, seed);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    src += kBlockSize;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    count -= kBlockSize;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  int remainder = static_cast<int>(count) & ~15;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  if (remainder) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    seed = HashDjb2_SSE(src, remainder, seed);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    src += remainder;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    count -= remainder;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  remainder = static_cast<int>(count) & 15;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  if (remainder) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    seed = HashDjb2_C(src, remainder, seed);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  return seed;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#if !defined(YUV_DISABLE_ASM) && (defined(__ARM_NEON__) || defined(LIBYUV_NEON))
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#define HAS_SUMSQUAREERROR_NEON
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampuint32 SumSquareError_NEON(const uint8* src_a, const uint8* src_b, int count);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#elif !defined(YUV_DISABLE_ASM) && defined(_M_IX86)
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#define HAS_SUMSQUAREERROR_SSE2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp__declspec(naked) __declspec(align(16))
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic uint32 SumSquareError_SSE2(const uint8* src_a, const uint8* src_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                  int count) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  __asm {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    mov        eax, [esp + 4]    // src_a
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    mov        edx, [esp + 8]    // src_b
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    mov        ecx, [esp + 12]   // count
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pxor       xmm0, xmm0
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pxor       xmm5, xmm5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    sub        edx, eax
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    align      16
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  wloop:
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqa     xmm1, [eax]
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqa     xmm2, [eax + edx]
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    lea        eax,  [eax + 16]
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    sub        ecx, 16
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqa     xmm3, xmm1  // abs trick
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    psubusb    xmm1, xmm2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    psubusb    xmm2, xmm3
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    por        xmm1, xmm2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movdqa     xmm2, xmm1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    punpcklbw  xmm1, xmm5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    punpckhbw  xmm2, xmm5
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pmaddwd    xmm1, xmm1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pmaddwd    xmm2, xmm2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    paddd      xmm0, xmm1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    paddd      xmm0, xmm2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    jg         wloop
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pshufd     xmm1, xmm0, 0EEh
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    paddd      xmm0, xmm1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    pshufd     xmm1, xmm0, 01h
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    paddd      xmm0, xmm1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    movd       eax, xmm0
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    ret
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#elif !defined(YUV_DISABLE_ASM) && (defined(__x86_64__) || defined(__i386__))
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#define HAS_SUMSQUAREERROR_SSE2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic uint32 SumSquareError_SSE2(const uint8* src_a, const uint8* src_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                  int count) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  uint32 sse;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  asm volatile (
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pxor      %%xmm0,%%xmm0                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pxor      %%xmm5,%%xmm5                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "sub       %0,%1                           \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    ".p2align  4                               \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "1:                                        \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqa    (%0),%%xmm1                     \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqa    (%0,%1,1),%%xmm2                \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "lea       0x10(%0),%0                     \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "sub       $0x10,%2                        \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqa    %%xmm1,%%xmm3                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "psubusb   %%xmm2,%%xmm1                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "psubusb   %%xmm3,%%xmm2                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "por       %%xmm2,%%xmm1                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movdqa    %%xmm1,%%xmm2                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "punpcklbw %%xmm5,%%xmm1                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "punpckhbw %%xmm5,%%xmm2                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pmaddwd   %%xmm1,%%xmm1                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pmaddwd   %%xmm2,%%xmm2                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "paddd     %%xmm1,%%xmm0                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "paddd     %%xmm2,%%xmm0                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "jg        1b                              \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pshufd    $0xee,%%xmm0,%%xmm1             \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "paddd     %%xmm1,%%xmm0                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "pshufd    $0x1,%%xmm0,%%xmm1              \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "paddd     %%xmm1,%%xmm0                   \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "movd      %%xmm0,%3                       \n"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  : "+r"(src_a),      // %0
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "+r"(src_b),      // %1
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "+r"(count),      // %2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    "=g"(sse)         // %3
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  :
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  : "memory", "cc"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#if defined(__SSE2__)
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    , "xmm0", "xmm1", "xmm2", "xmm5"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#endif
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  );
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  return sse;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#endif
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic uint32 SumSquareError_C(const uint8* src_a, const uint8* src_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                               int count) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  uint32 sse = 0u;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  for (int i = 0; i < count; ++i) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    int diff = src_a[i] - src_b[i];
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    sse += static_cast<uint32>(diff * diff);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  return sse;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik DahlkampLIBYUV_API
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampuint64 ComputeSumSquareError(const uint8* src_a, const uint8* src_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                             int count) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  uint32 (*SumSquareError)(const uint8* src_a, const uint8* src_b, int count) =
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp      SumSquareError_C;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#if defined(HAS_SUMSQUAREERROR_NEON)
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  if (TestCpuFlag(kCpuHasNEON)) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    SumSquareError = SumSquareError_NEON;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#elif defined(HAS_SUMSQUAREERROR_SSE2)
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  if (TestCpuFlag(kCpuHasSSE2) &&
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp      IS_ALIGNED(src_a, 16) && IS_ALIGNED(src_b, 16)) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    // Note only used for multiples of 16 so count is not checked.
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    SumSquareError = SumSquareError_SSE2;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#endif
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  // 32K values will fit a 32bit int return value from SumSquareError.
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  // After each block of 32K, accumulate into 64 bit int.
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int kBlockSize = 1 << 15;  // 32768;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  uint64 sse = 0;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#ifdef _OPENMP
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#pragma omp parallel for reduction(+: sse)
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#endif
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  for (int i = 0; i < (count - (kBlockSize - 1)); i += kBlockSize) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    sse += SumSquareError(src_a + i, src_b + i, kBlockSize);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  src_a += count & ~(kBlockSize - 1);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  src_b += count & ~(kBlockSize - 1);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  int remainder = count & (kBlockSize - 1) & ~15;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  if (remainder) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    sse += SumSquareError(src_a, src_b, remainder);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    src_a += remainder;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    src_b += remainder;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  remainder = count & 15;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  if (remainder) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    sse += SumSquareError_C(src_a, src_b, remainder);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  return sse;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik DahlkampLIBYUV_API
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampuint64 ComputeSumSquareErrorPlane(const uint8* src_a, int stride_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                  const uint8* src_b, int stride_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                  int width, int height) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  uint32 (*SumSquareError)(const uint8* src_a, const uint8* src_b, int count) =
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp      SumSquareError_C;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#if defined(HAS_SUMSQUAREERROR_NEON)
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  if (TestCpuFlag(kCpuHasNEON)) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    SumSquareError = SumSquareError_NEON;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#elif defined(HAS_SUMSQUAREERROR_SSE2)
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  if (TestCpuFlag(kCpuHasSSE2) && IS_ALIGNED(width, 16) &&
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp      IS_ALIGNED(src_a, 16) && IS_ALIGNED(stride_a, 16) &&
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp      IS_ALIGNED(src_b, 16) && IS_ALIGNED(stride_b, 16)) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    SumSquareError = SumSquareError_SSE2;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#endif
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  uint64 sse = 0;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  for (int h = 0; h < height; ++h) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    sse += SumSquareError(src_a, src_b, width);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    src_a += stride_a;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    src_b += stride_b;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  return sse;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik DahlkampLIBYUV_API
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampdouble SumSquareErrorToPsnr(uint64 sse, uint64 count) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  double psnr;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  if (sse > 0) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    double mse = static_cast<double>(count) / static_cast<double>(sse);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    psnr = 10.0 * log10(255.0 * 255.0 * mse);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  } else {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    psnr = kMaxPsnr;      // Limit to prevent divide by 0
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  if (psnr > kMaxPsnr)
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    psnr = kMaxPsnr;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  return psnr;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik DahlkampLIBYUV_API
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampdouble CalcFramePsnr(const uint8* src_a, int stride_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                     const uint8* src_b, int stride_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                     int width, int height) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const uint64 samples = width * height;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const uint64 sse = ComputeSumSquareErrorPlane(src_a, stride_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                                src_b, stride_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                                width, height);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  return SumSquareErrorToPsnr(sse, samples);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik DahlkampLIBYUV_API
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampdouble I420Psnr(const uint8* src_y_a, int stride_y_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                const uint8* src_u_a, int stride_u_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                const uint8* src_v_a, int stride_v_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                const uint8* src_y_b, int stride_y_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                const uint8* src_u_b, int stride_u_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                const uint8* src_v_b, int stride_v_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                int width, int height) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const uint64 sse_y = ComputeSumSquareErrorPlane(src_y_a, stride_y_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                                  src_y_b, stride_y_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                                  width, height);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int width_uv = (width + 1) >> 1;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int height_uv = (height + 1) >> 1;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const uint64 sse_u = ComputeSumSquareErrorPlane(src_u_a, stride_u_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                                  src_u_b, stride_u_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                                  width_uv, height_uv);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const uint64 sse_v = ComputeSumSquareErrorPlane(src_v_a, stride_v_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                                  src_v_b, stride_v_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                                  width_uv, height_uv);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const uint64 samples = width * height + 2 * (width_uv * height_uv);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const uint64 sse = sse_y + sse_u + sse_v;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  return SumSquareErrorToPsnr(sse, samples);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic const int64 cc1 =  26634;  // (64^2*(.01*255)^2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic const int64 cc2 = 239708;  // (64^2*(.03*255)^2
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampstatic double Ssim8x8_C(const uint8* src_a, int stride_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                        const uint8* src_b, int stride_b) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  int64 sum_a = 0;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  int64 sum_b = 0;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  int64 sum_sq_a = 0;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  int64 sum_sq_b = 0;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  int64 sum_axb = 0;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  for (int i = 0; i < 8; ++i) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    for (int j = 0; j < 8; ++j) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp      sum_a += src_a[j];
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp      sum_b += src_b[j];
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp      sum_sq_a += src_a[j] * src_a[j];
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp      sum_sq_b += src_b[j] * src_b[j];
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp      sum_axb += src_a[j] * src_b[j];
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    src_a += stride_a;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    src_b += stride_b;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int64 count = 64;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  // scale the constants by number of pixels
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int64 c1 = (cc1 * count * count) >> 12;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int64 c2 = (cc2 * count * count) >> 12;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int64 sum_a_x_sum_b = sum_a * sum_b;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int64 ssim_n = (2 * sum_a_x_sum_b + c1) *
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                       (2 * count * sum_axb - 2 * sum_a_x_sum_b + c2);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int64 sum_a_sq = sum_a*sum_a;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int64 sum_b_sq = sum_b*sum_b;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int64 ssim_d = (sum_a_sq + sum_b_sq + c1) *
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                       (count * sum_sq_a - sum_a_sq +
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                        count * sum_sq_b - sum_b_sq + c2);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  if (ssim_d == 0.0)
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    return DBL_MAX;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  return ssim_n * 1.0 / ssim_d;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// We are using a 8x8 moving window with starting location of each 8x8 window
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// on the 4x4 pixel grid. Such arrangement allows the windows to overlap
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp// block boundaries to penalize blocking artifacts.
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik DahlkampLIBYUV_API
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampdouble CalcFrameSsim(const uint8* src_a, int stride_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                     const uint8* src_b, int stride_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                     int width, int height) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  int samples = 0;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  double ssim_total = 0;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  double (*Ssim8x8)(const uint8* src_a, int stride_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                    const uint8* src_b, int stride_b);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  Ssim8x8 = Ssim8x8_C;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  // sample point start with each 4x4 location
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  for (int i = 0; i < height - 8; i += 4) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    for (int j = 0; j < width - 8; j += 4) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp      ssim_total += Ssim8x8(src_a + j, stride_a, src_b + j, stride_b);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp      samples++;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    src_a += stride_a * 4;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp    src_b += stride_b * 4;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  }
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  ssim_total /= samples;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  return ssim_total;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik DahlkampLIBYUV_API
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkampdouble I420Ssim(const uint8* src_y_a, int stride_y_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                const uint8* src_u_a, int stride_u_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                const uint8* src_v_a, int stride_v_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                const uint8* src_y_b, int stride_y_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                const uint8* src_u_b, int stride_u_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                const uint8* src_v_b, int stride_v_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                int width, int height) {
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const double ssim_y = CalcFrameSsim(src_y_a, stride_y_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                      src_y_b, stride_y_b, width, height);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int width_uv = (width + 1) >> 1;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const int height_uv = (height + 1) >> 1;
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const double ssim_u = CalcFrameSsim(src_u_a, stride_u_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                      src_u_b, stride_u_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                      width_uv, height_uv);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  const double ssim_v = CalcFrameSsim(src_v_a, stride_v_a,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                      src_v_b, stride_v_b,
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp                                      width_uv, height_uv);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp  return ssim_y * 0.8 + 0.1 * (ssim_u + ssim_v);
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#ifdef __cplusplus
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}  // extern "C"
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp}  // namespace libyuv
33cfdeb7b267ab635413797fffb046b73272f7ecHendrik Dahlkamp#endif