Lines Matching refs:reg

32       result.buf.reg[i] = LoadInt32x4(src.data(row, col + i));
46 result.buf.reg[2 * i + 0] = LoadInt32x4(src.data(row + 0, col + i));
47 result.buf.reg[2 * i + 1] = LoadInt32x4(src.data(row + 4, col + i));
64 result.buf.reg[0] = LoadInt32x4(buf);
80 result.buf.reg[0] = LoadInt32x4(buf);
81 result.buf.reg[1] = LoadInt32x4(buf + 4);
92 result.buf.reg[0] = LoadInt32x4(src.data(pos));
103 result.buf.reg[0] = LoadInt32x4(src(0));
120 result.buf.reg[0] = LoadInt32x4(src.data(pos));
137 result.buf.reg[0] = LoadInt32x4(src.data(pos));
138 result.buf.reg[1] = LoadInt32x4(src.data(pos + 4));
154 result.buf.reg[0] = src(pos);
171 result.buf.reg[0] = LoadInt32x4(src.data(pos));
188 result.buf.reg[0] = LoadInt32x4(src.data(pos));
189 result.buf.reg[1] = LoadInt32x4(src.data(pos + 4));
200 result.buf.reg[0] = Add(lhs.buf.reg[0], Dup<Int32x4>(rhs.buf.reg[0]));
211 result.buf.reg[0] = Add(lhs.buf.reg[0], Dup<Int32x4>(rhs.buf.reg[0]));
222 result.buf.reg[0] = Add(lhs.buf.reg[0], rhs.buf.reg[0]);
233 result.buf.reg[0] = Add(lhs.buf.reg[0], rhs.buf.reg[0]);
244 result.buf.reg[0] = Add(lhs.buf.reg[0], DupLane<0>(rhs.buf.reg[0]));
245 result.buf.reg[1] = Add(lhs.buf.reg[1], DupLane<1>(rhs.buf.reg[0]));
246 result.buf.reg[2] = Add(lhs.buf.reg[2], DupLane<2>(rhs.buf.reg[0]));
247 result.buf.reg[3] = Add(lhs.buf.reg[3], DupLane<3>(rhs.buf.reg[0]));
258 result.buf.reg[0] = Add(lhs.buf.reg[0], rhs.buf.reg[0]);
259 result.buf.reg[1] = Add(lhs.buf.reg[1], rhs.buf.reg[0]);
260 result.buf.reg[2] = Add(lhs.buf.reg[2], rhs.buf.reg[0]);
261 result.buf.reg[3] = Add(lhs.buf.reg[3], rhs.buf.reg[0]);
272 const Int32x4 p = Dup<Int32x4>(rhs.buf.reg[0]);
274 result.buf.reg[i] = Add(lhs.buf.reg[i], p);
287 result.buf.reg[i] = Add(lhs.buf.reg[i], rhs.buf.reg[i]);
299 result.buf.reg[0] = Add(lhs.buf.reg[0], DupLane<0>(rhs.buf.reg[0]));
300 result.buf.reg[1] = Add(lhs.buf.reg[1], DupLane<0>(rhs.buf.reg[0]));
301 result.buf.reg[2] = Add(lhs.buf.reg[2], DupLane<1>(rhs.buf.reg[0]));
302 result.buf.reg[3] = Add(lhs.buf.reg[3], DupLane<1>(rhs.buf.reg[0]));
303 result.buf.reg[4] = Add(lhs.buf.reg[4], DupLane<2>(rhs.buf.reg[0]));
304 result.buf.reg[5] = Add(lhs.buf.reg[5], DupLane<2>(rhs.buf.reg[0]));
305 result.buf.reg[6] = Add(lhs.buf.reg[6], DupLane<3>(rhs.buf.reg[0]));
306 result.buf.reg[7] = Add(lhs.buf.reg[7], DupLane<3>(rhs.buf.reg[0]));
317 result.buf.reg[0] = Add(lhs.buf.reg[0], rhs.buf.reg[0]);
318 result.buf.reg[1] = Add(lhs.buf.reg[1], rhs.buf.reg[1]);
319 result.buf.reg[2] = Add(lhs.buf.reg[2], rhs.buf.reg[0]);
320 result.buf.reg[3] = Add(lhs.buf.reg[3], rhs.buf.reg[1]);
321 result.buf.reg[4] = Add(lhs.buf.reg[4], rhs.buf.reg[0]);
322 result.buf.reg[5] = Add(lhs.buf.reg[5], rhs.buf.reg[1]);
323 result.buf.reg[6] = Add(lhs.buf.reg[6], rhs.buf.reg[0]);
324 result.buf.reg[7] = Add(lhs.buf.reg[7], rhs.buf.reg[1]);
335 result.buf.reg[0] = Add(lhs.buf.reg[0], rhs.buf.reg[0]);
336 result.buf.reg[1] = Add(lhs.buf.reg[1], rhs.buf.reg[1]);
347 result.buf.reg[0] = Add(lhs.buf.reg[0], Dup<Int32x4>(rhs.buf.reg[0]));
348 result.buf.reg[1] = Add(lhs.buf.reg[1], Dup<Int32x4>(rhs.buf.reg[0]));
359 result.buf.reg[0] = Mul(lhs.buf.reg[0], Dup<Int32x4>(rhs.buf.reg[0]));
370 result.buf.reg[0] = Mul(lhs.buf.reg[0], rhs.buf.reg[0]);
381 result.buf.reg[0] = Mul(lhs.buf.reg[0], rhs.buf.reg[0]);
392 result.buf.reg[0] = Mul(lhs.buf.reg[0], rhs.buf.reg[0]);
403 const Int32x4 p = rhs.buf.reg[0];
404 result.buf.reg[0] = MulByRhsLane<0>(lhs.buf.reg[0], p);
405 result.buf.reg[1] = MulByRhsLane<1>(lhs.buf.reg[1], p);
406 result.buf.reg[2] = MulByRhsLane<2>(lhs.buf.reg[2], p);
407 result.buf.reg[3] = MulByRhsLane<3>(lhs.buf.reg[3], p);
418 const Int32x4 p = rhs.buf.reg[0];
419 result.buf.reg[0] = Mul(lhs.buf.reg[0], p);
420 result.buf.reg[1] = Mul(lhs.buf.reg[1], p);
421 result.buf.reg[2] = Mul(lhs.buf.reg[2], p);
422 result.buf.reg[3] = Mul(lhs.buf.reg[3], p);
433 const std::int32_t p = rhs.buf.reg[0];
435 result.buf.reg[i] = Mul(lhs.buf.reg[i], p);
448 result.buf.reg[i] = Mul(lhs.buf.reg[i], rhs.buf.reg[i]);
460 const Int32x4 p = rhs.buf.reg[0];
462 result.buf.reg[i + 0] = MulByRhsLane<0>(lhs.buf.reg[i + 0], p);
463 result.buf.reg[i + 2] = MulByRhsLane<1>(lhs.buf.reg[i + 2], p);
464 result.buf.reg[i + 4] = MulByRhsLane<2>(lhs.buf.reg[i + 4], p);
465 result.buf.reg[i + 6] = MulByRhsLane<3>(lhs.buf.reg[i + 6], p);
477 const Int32x4 p[2]{rhs.buf.reg[0], rhs.buf.reg[1]};
481 result.buf.reg[k] = Mul(lhs.buf.reg[k], p[j]);
494 const std::int32_t p = rhs.buf.reg[0];
496 MulAdd(lhs.buf.reg[i], p, &acc->buf.reg[i]);
508 const std::int32_t p = rhs.buf.reg[0];
511 const Int32x4 q = Mul(lhs.buf.reg[i], p);
513 acc->buf.reg[i + j * kRegsPerCol] =
514 Add(acc->buf.reg[i + j * kRegsPerCol], q);
526 const std::int32_t p = rhs.buf.reg[0];
528 MulAdd(lhs.buf.reg[i], p, &acc->buf.reg[i]);
540 const Int32x4 p = Dup<Int32x4>(Mul(lhs.buf.reg[0], rhs.buf.reg[0]));
542 acc->buf.reg[i] = Add(acc->buf.reg[i], p);
553 MulAdd(lhs.buf.reg[0], rhs.buf.reg[0], &acc->buf.reg[0]);
563 const Int32x4 p = rhs.buf.reg[0];
566 MulAddByRhsLane<0>(lhs.buf.reg[i], p, &acc->buf.reg[i + 0 * kRegsPerCol]);
567 MulAddByRhsLane<1>(lhs.buf.reg[i], p, &acc->buf.reg[i + 1 * kRegsPerCol]);
568 MulAddByRhsLane<2>(lhs.buf.reg[i], p, &acc->buf.reg[i + 2 * kRegsPerCol]);
569 MulAddByRhsLane<3>(lhs.buf.reg[i], p, &acc->buf.reg[i + 3 * kRegsPerCol]);
580 const Int32x4 p = Mul(lhs.buf.reg[0], rhs.buf.reg[0]);
589 acc->buf.reg[i + j * kRegsPerCol] =
590 Add(q[j], acc->buf.reg[i + j * kRegsPerCol]);
602 const Int32x4 p = Dup<Int32x4>(Mul(lhs.buf.reg[0], rhs.buf.reg[0]));
604 acc->buf.reg[i] = Add(acc->buf.reg[i], p);
615 const std::int32_t p = rhs.buf.reg[0];
616 MulAdd(lhs.buf.reg[0], p, &acc->buf.reg[0]);
626 const Int32x4 p = Mul(lhs.buf.reg[0], rhs.buf.reg[0]);
628 acc->buf.reg[i] = Add(p, acc->buf.reg[i]);
639 const std::int32_t p = rhs.buf.reg[0];
640 MulAdd(lhs.buf.reg[0], p, &acc->buf.reg[0]);