arm intrinsic 指令查询技巧

正常指令 操作64位指令后加q了的话128位

长指令 指令后面加l ，结果比两个操作数要长

宽指令 指令后面加w 两种数据类型不一样相加减等生成的数据类型取较宽的那个

窄指令 指令后面加hn 对应的长指令加减之后结果比原本两个一样类型的输入要窄

饱和指令 指令后面加q 自动限制在数据范围内

乘法 mul

乘加 mla

加法 add

减法 sub

位移 shl shr

取大小 min max

绝对值 vabs

取反 vneg

和查表有关的：tb 但只支持表格很小？unit8x8这种table + index

vceq （vector compare equal）

vcge a>=b? (Greater equal

vcle a<=b?

Vcgt a>b greater than

Vclt a<b

Vcage |a| >= |b| (vector compare absolute greater equal

r = |a - b| vabd vector absolute difference

R = a + |b -c| vaba absolute difference and accumulate

r = a|(~b) vorn_s8 or not

R = ~a & b vbic_s8 bitwise clear

R = a ^ b veor_s8 exclusive or

R = a | b vorr_s8 or

R = a & b vand_s8 and

R = ~a vmvn_s8

vdup_n_s8 duplicate a scalar into every element of vector ??? Dup mov？？？

Dup是把一个数据复制多份的关键词

Ld 则是正常load 的关键词

Mov是拿到一些高位或者地位就是操作数和结果位宽不同？（好像也不一定偶尔和dup等价？

Get是把unit816 拆成uint88 x2 这种位宽相同并行个数不同 vget_high vget_low

cvt convert数据类型

combine 把8个*2 合并成16个

int8x16_t vcombine_s(int8x8_t a,int8x8_t b)

create 从uint64 create uint8x8