fix

noooop · noooop · commit 613153e0a173 · 2025-04-18T13:02:51.000+08:00
diff --git a/tests/models/embedding/language/test_snowflake_arctic_embed.py b/tests/models/embedding/language/test_snowflake_arctic_embed.py
@@ -18,35 +18,35 @@
     EmbedModelInfo("Snowflake/snowflake-arctic-embed-xs",
                    is_matryoshka=False,
                    architecture="BertModel",
-                   enable_ci_test=True),
+                   enable_test=True),
     EmbedModelInfo("Snowflake/snowflake-arctic-embed-s",
                    is_matryoshka=False,
                    architecture="BertModel",
-                   enable_ci_test=False),
+                   enable_test=False),
     EmbedModelInfo("Snowflake/snowflake-arctic-embed-m",
                    is_matryoshka=False,
                    architecture="BertModel",
-                   enable_ci_test=False),
+                   enable_test=False),
     EmbedModelInfo("Snowflake/snowflake-arctic-embed-m-long",
                    is_matryoshka=False,
                    architecture="NomicBertModel",
-                   enable_ci_test=True),
+                   enable_test=True),
     EmbedModelInfo("Snowflake/snowflake-arctic-embed-l",
                    is_matryoshka=False,
                    architecture="BertModel",
-                   enable_ci_test=False),
+                   enable_test=False),
     EmbedModelInfo("Snowflake/snowflake-arctic-embed-m-v1.5",
                    is_matryoshka=True,
                    architecture="BertModel",
-                   enable_ci_test=True),
+                   enable_test=True),
     EmbedModelInfo("Snowflake/snowflake-arctic-embed-l-v2.0",
                    is_matryoshka=True,
                    architecture="XLMRobertaModel",
-                   enable_ci_test=True),
+                   enable_test=True),
     EmbedModelInfo("Snowflake/snowflake-arctic-embed-m-v2.0",
                    is_matryoshka=True,
                    architecture="GteModel",
-                   enable_ci_test=True),
+                   enable_test=True),
 ]
 
 
@@ -60,10 +60,10 @@ def test_models(
     dtype: str,
     monkeypatch,
 ) -> None:
-    if not model_info.enable_ci_test:
+    if not model_info.enable_test:
         # A model family has many models with the same architecture,
         # and we don't need to test each one.
-        pytest.skip("Skipping CI test.")
+        pytest.skip("Skipping test.")
 
     example_prompts = example_prompts + EMBEDDING_PROMPTS
 
diff --git a/tests/models/embedding/utils.py b/tests/models/embedding/utils.py
@@ -44,4 +44,4 @@ class EmbedModelInfo(NamedTuple):
     name: str
     is_matryoshka: bool
     architecture: str = ""
-    enable_ci_test: bool = True
+    enable_test: bool = True
diff --git a/tests/models/registry.py b/tests/models/registry.py
@@ -245,13 +245,15 @@ def check_available_online(
     "BertModel": _HfExamplesInfo("BAAI/bge-base-en-v1.5"),
     "Gemma2Model": _HfExamplesInfo("BAAI/bge-multilingual-gemma2"),
     "GritLM": _HfExamplesInfo("parasail-ai/GritLM-7B-vllm"),
-    "GteModel": _HfExamplesInfo("Snowflake/snowflake-arctic-embed-m-v2.0"),
+    "GteModel": _HfExamplesInfo("Snowflake/snowflake-arctic-embed-m-v2.0",
+                                               trust_remote_code=True),
     "InternLM2ForRewardModel": _HfExamplesInfo("internlm/internlm2-1_8b-reward",
                                                trust_remote_code=True),
     "JambaForSequenceClassification": _HfExamplesInfo("ai21labs/Jamba-tiny-reward-dev"),  # noqa: E501
     "LlamaModel": _HfExamplesInfo("llama", is_available_online=False),
     "MistralModel": _HfExamplesInfo("intfloat/e5-mistral-7b-instruct"),
-    "NomicBertModel": _HfExamplesInfo("Snowflake/snowflake-arctic-embed-m-long"), # noqa: E501
+    "NomicBertModel": _HfExamplesInfo("Snowflake/snowflake-arctic-embed-m-long",  # noqa: E501
+                                               trust_remote_code=True),
     "Qwen2Model": _HfExamplesInfo("ssmits/Qwen2-7B-Instruct-embed-base"),
     "Qwen2ForRewardModel": _HfExamplesInfo("Qwen/Qwen2.5-Math-RM-72B"),
     "Qwen2ForProcessRewardModel": _HfExamplesInfo("Qwen/Qwen2.5-Math-PRM-7B"),
diff --git a/vllm/model_executor/models/bert.py b/vllm/model_executor/models/bert.py
@@ -111,7 +111,6 @@ class BertEncoder(nn.Module):
     def __init__(self,
                  vllm_config: VllmConfig,
                  bias: bool = True,
-                 gate_up_proj_bias: bool = True,
                  rotary_kwargs: Optional[dict] = None,
                  prefix: str = ""):
         super().__init__()
@@ -123,7 +122,6 @@ def __init__(self,
                       cache_config=cache_config,
                       quant_config=quant_config,
                       bias=bias,
-                      gate_up_proj_bias=gate_up_proj_bias,
                       rotary_kwargs=rotary_kwargs,
                       prefix=f"{prefix}.layer.{layer_idx}")
             for layer_idx in range(config.num_hidden_layers)
@@ -146,7 +144,6 @@ def __init__(self,
                  cache_config: Optional[CacheConfig] = None,
                  quant_config: Optional[QuantizationConfig] = None,
                  bias: bool = True,
-                 gate_up_proj_bias: bool = True,
                  rotary_kwargs: Optional[dict] = None,
                  prefix: str = ""):
         super().__init__()
@@ -166,7 +163,7 @@ def __init__(self,
                 hidden_size=config.hidden_size,
                 intermediate_size=config.intermediate_size,
                 hidden_act=config.hidden_act,
-                gate_up_proj_bias=gate_up_proj_bias,
+                bias=bias,
                 quant_config=quant_config,
                 prefix=f"{prefix}.intermediate")
         else:
@@ -350,15 +347,15 @@ def __init__(self,
                  hidden_size: int,
                  intermediate_size: int,
                  hidden_act: str,
-                 gate_up_proj_bias: bool = True,
+                 bias: bool = True,
                  quant_config: Optional[QuantizationConfig] = None,
                  prefix: str = ""):
         super().__init__()
         self.act_fn = get_act_and_mul_fn(hidden_act)
         self.gate_up_proj = MergedColumnParallelLinear(
             hidden_size,
             [intermediate_size] * 2,
-            bias=gate_up_proj_bias,
+            bias=bias,
             quant_config=quant_config,
             prefix=f"{prefix}.gate_up_proj",
         )
@@ -410,24 +407,18 @@ def __init__(self,
                  prefix: str = "",
                  embedding_class: type = BertEmbedding,
                  bias: bool = True,
-                 gate_up_proj_bias: bool = True,
                  rotary_kwargs: Optional[dict] = None,
                  add_pooling_layer: bool = False):
         super().__init__()
         """
         For BertModel, all linear layers have bias.
-        For NomicBertModel, all linear layers do not have bias, 
-            the bias parameter intended to control all linear layers.
-        For GteModel, only up_gate_proj layer does not have bias, 
-            so the gate_up_proj_bias parameter must be added.
-        see #16649
+        For NomicBertModel, all linear layers do not have bias.
         """
 
         config = vllm_config.model_config.hf_config
         self.embeddings = embedding_class(config)
         self.encoder = BertEncoder(vllm_config=vllm_config,
                                    bias=bias,
-                                   gate_up_proj_bias=gate_up_proj_bias,
                                    rotary_kwargs=rotary_kwargs,
                                    prefix=f"{prefix}.encoder")
         self.pooler = BertPooler(config) if add_pooling_layer else None
@@ -672,7 +663,6 @@ def _build_model(self,
         return BertModel(vllm_config=vllm_config,
                          prefix=prefix,
                          bias=False,
-                         gate_up_proj_bias=False,
                          rotary_kwargs=rotary_kwargs,
                          embedding_class=BertEmbedding)
 
@@ -694,6 +684,7 @@ def _build_model(self,
 
         assert config.__class__.__name__ == "GteConfig"
         assert config.position_embedding_type == "rope"
+        assert config.hidden_act == "gelu"
 
         config.position_embedding_type = "rotary"
         config.hidden_act = "gelu_and_mul"
@@ -706,11 +697,21 @@ def _build_model(self,
             "base": config.rope_theta,
         }
 
-        return BertModel(vllm_config=vllm_config,
-                         prefix=prefix,
-                         gate_up_proj_bias=False,
-                         rotary_kwargs=rotary_kwargs,
-                         embedding_class=BertEmbedding)
+        model = BertModel(vllm_config=vllm_config,
+                          prefix=prefix,
+                          rotary_kwargs=rotary_kwargs,
+                          embedding_class=BertEmbedding)
+
+        # GteModel only gate_up_proj does not have bias.
+        for layer in model.encoder.layer:
+            layer.intermediate.gate_up_proj = MergedColumnParallelLinear(
+                config.hidden_size,
+                [config.intermediate_size] * 2,
+                bias=False,
+                quant_config=vllm_config.quant_config,
+                prefix=f"{prefix}.gate_up_proj",
+            )
+        return model
 
     def split_up_gate_proj(self, weights: Iterable[Tuple[str, torch.Tensor]]):
         n = "mlp.up_gate_proj"