查询指令的网址
ARM Neon Intrinsics各函数介绍_arm neon intrinsic 函数_June_Hou的博客-CSDN博客
https://developer.arm.com/architectures/instruction-sets/intrinsics/#q=vmovl_high_u16
总的来说
正常指令 操作64位 指令后加q了的话128位
长指令 指令后面加l ,结果比两个操作数要长
宽指令 指令后面加w 两种数据类型不一样相加减等 生成的数据类型取较宽的那个
窄指令 指令后面加hn 对应的长指令 加减之后 结果比原本两个一样类型的输入要窄
饱和指令 指令后面加q 自动限制在数据范围内
基本运算
乘法 mul
乘加 mla
加法 add
减法 sub
位移 shl shr
取大小 min max
绝对值 vabs
取反 vneg
和查表有关的:tb 但只支持表格很小?unit8x8这种table + index
比较
vceq (vector compare equal)
vcge a>=b? (Greater equal
vcle a<=b?
Vcgt a>b greater than
Vclt a<b
Vcage |a| >= |b| (vector compare absolute greater equal
r = |a - b| vabd vector absolute difference
R = a + |b -c| vaba absolute difference and accumulate
位运算
r = a|(~b) vorn_s8 or not
R = ~a & b vbic_s8 bitwise clear
R = a ^ b veor_s8 exclusive or
R = a | b vorr_s8 or
R = a & b vand_s8 and
R = ~a vmvn_s8
赋值or读写
vdup_n_s8 duplicate a scalar into every element of vector ??? Dup mov???
Dup是把一个数据复制多份的关键词
Ld 则是正常load 的关键词
Mov是 拿到一些高位 或者地位 就是操作数和结果位宽不同?(好像也不一定 偶尔和dup等价?
Get是 把unit816 拆成uint88 x2 这种 位宽相同 并行个数不同 vget_high vget_low
cvt convert数据类型
combine 把8个*2 合并成16个
int8x16_t vcombine_s(int8x8_t a,int8x8_t b)
create 从uint64 create uint8x8