@@ -163,49 +163,49 @@ inline static void ggml_vec_mad_f32(const int n, float * GGML_RESTRICT y, const
163
163
164
164
ax1 = GGML_F32_VEC_LOAD (x + i );
165
165
ay1 = GGML_F32_VEC_LOAD (y + i );
166
- ay1 = GGML_F32_VEC_FMA (ax1 , vx , ay1 );
166
+ ay1 = GGML_F32_VEC_FMA (ay1 , ax1 , vx );
167
167
168
168
GGML_F32_VEC_STORE (y + i , ay1 );
169
169
170
170
ax2 = GGML_F32_VEC_LOAD (x + i + 1 * ggml_f32_epr );
171
171
ay2 = GGML_F32_VEC_LOAD (y + i + 1 * ggml_f32_epr );
172
- ay2 = GGML_F32_VEC_FMA (ax2 , vx , ay2 );
172
+ ay2 = GGML_F32_VEC_FMA (ay2 , ax2 , vx );
173
173
174
174
GGML_F32_VEC_STORE (y + i + 1 * ggml_f32_epr , ay2 );
175
175
176
176
ax3 = GGML_F32_VEC_LOAD (x + i + 2 * ggml_f32_epr );
177
177
ay3 = GGML_F32_VEC_LOAD (y + i + 2 * ggml_f32_epr );
178
- ay3 = GGML_F32_VEC_FMA (ax3 , vx , ay3 );
178
+ ay3 = GGML_F32_VEC_FMA (ay3 , ax3 , vx );
179
179
180
180
GGML_F32_VEC_STORE (y + i + 2 * ggml_f32_epr , ay3 );
181
181
182
182
ax4 = GGML_F32_VEC_LOAD (x + i + 3 * ggml_f32_epr );
183
183
ay4 = GGML_F32_VEC_LOAD (y + i + 3 * ggml_f32_epr );
184
- ay4 = GGML_F32_VEC_FMA (ax4 , vx , ay4 );
184
+ ay4 = GGML_F32_VEC_FMA (ay4 , ax4 , vx );
185
185
186
186
GGML_F32_VEC_STORE (y + i + 3 * ggml_f32_epr , ay4 );
187
187
188
188
ax5 = GGML_F32_VEC_LOAD (x + i + 4 * ggml_f32_epr );
189
189
ay5 = GGML_F32_VEC_LOAD (y + i + 4 * ggml_f32_epr );
190
- ay5 = GGML_F32_VEC_FMA (ax5 , vx , ay5 );
190
+ ay5 = GGML_F32_VEC_FMA (ay5 , ax5 , vx );
191
191
192
192
GGML_F32_VEC_STORE (y + i + 4 * ggml_f32_epr , ay5 );
193
193
194
194
ax6 = GGML_F32_VEC_LOAD (x + i + 5 * ggml_f32_epr );
195
195
ay6 = GGML_F32_VEC_LOAD (y + i + 5 * ggml_f32_epr );
196
- ay6 = GGML_F32_VEC_FMA (ax6 , vx , ay6 );
196
+ ay6 = GGML_F32_VEC_FMA (ay6 , ax6 , vx );
197
197
198
198
GGML_F32_VEC_STORE (y + i + 5 * ggml_f32_epr , ay6 );
199
199
200
200
ax7 = GGML_F32_VEC_LOAD (x + i + 6 * ggml_f32_epr );
201
201
ay7 = GGML_F32_VEC_LOAD (y + i + 6 * ggml_f32_epr );
202
- ay7 = GGML_F32_VEC_FMA (ax7 , vx , ay7 );
202
+ ay7 = GGML_F32_VEC_FMA (ay7 , ax7 , vx );
203
203
204
204
GGML_F32_VEC_STORE (y + i + 6 * ggml_f32_epr , ay7 );
205
205
206
206
ax8 = GGML_F32_VEC_LOAD (x + i + 7 * ggml_f32_epr );
207
207
ay8 = GGML_F32_VEC_LOAD (y + i + 7 * ggml_f32_epr );
208
- ay8 = GGML_F32_VEC_FMA (ax8 , vx , ay8 );
208
+ ay8 = GGML_F32_VEC_FMA (ay8 , ax8 , vx );
209
209
210
210
GGML_F32_VEC_STORE (y + i + 7 * ggml_f32_epr , ay8 );
211
211
}
@@ -215,7 +215,7 @@ inline static void ggml_vec_mad_f32(const int n, float * GGML_RESTRICT y, const
215
215
for (int i = np ; i < np2 ; i += ggml_f32_epr ) {
216
216
ax1 = GGML_F32_VEC_LOAD (x + i );
217
217
ay1 = GGML_F32_VEC_LOAD (y + i );
218
- ay1 = GGML_F32_VEC_FMA (ax1 , vx , ay1 );
218
+ ay1 = GGML_F32_VEC_FMA (ay1 , ax1 , vx );
219
219
220
220
GGML_F32_VEC_STORE (y + i , ay1 );
221
221
}
0 commit comments