Update some comments.

xipingyan · xipingyan · commit bbb9de3d5682 · 2025-09-11T10:12:02.000+08:00
Signed-off-by: xipingya &lt;xiping.yan@intel.com&gt;
diff --git a/src/cpp/src/continuous_batching/pipeline.cpp b/src/cpp/src/continuous_batching/pipeline.cpp
@@ -68,7 +68,6 @@ ContinuousBatchingPipeline::ContinuousBatchingPipeline( const std::filesystem::p
 
     if (is_prompt_lookup_enabled) {
         OPENVINO_ASSERT(draft_model_desr.model == nullptr, "Speculative decoding and prompt lookup decoding are mutually exclusive");
-        // OPENVINO_ASSERT(embedder == nullptr, "Prompt lookup decoding is not supported for models with embeddings");
         m_impl = std::make_shared<PromptLookupImpl>(model, embedder, tokenizer, scheduler_config, device, properties_without_draft_model_without_gguf, generation_config);
     } else if (draft_model_desr.model != nullptr) {
         OPENVINO_ASSERT(embedder == nullptr, "Speculative decoding is not supported for models with embeddings");
diff --git a/src/cpp/src/continuous_batching/pipeline_base.cpp b/src/cpp/src/continuous_batching/pipeline_base.cpp
@@ -154,6 +154,7 @@ ContinuousBatchingPipeline::IContinuousBatchingPipeline::generate(
              const StreamerVariant& streamer)  {
     auto generate_start_time = std::chrono::steady_clock::now();
     OPENVINO_ASSERT(m_model_input_type == ModelInputType::EMBEDDINGS);
+
     OPENVINO_ASSERT(prompts.size() == sampling_params.size(), "Number of prompts should be equal to the number of generation configs.");
     OPENVINO_ASSERT(prompts.size() == rgbs_vector.size(), "Number of prompts should be equal to the number of images vectors.");
 
diff --git a/src/cpp/src/prompt_lookup/continuous_batching_for_prompt_lookup.cpp b/src/cpp/src/prompt_lookup/continuous_batching_for_prompt_lookup.cpp
@@ -82,11 +82,15 @@ void ContinuousBatchingPipeline::ContinuousBatchingForPromptLookupImpl::generate
             }
             TokenIds candidates = generate_candidates(full_input_ids, min_num_assistant_tokens, sampling_params.max_ngram_size);
 
+            // Padding to candidate token,
+            // Avoid shape checking and increasing the amount of computation when the shape changes.
             if (candidates.size() < sampling_params.num_assistant_tokens) {
-                auto token_sz = candidates.size();
-                for (int ci = 0; ci < sampling_params.num_assistant_tokens - token_sz; ci ++) {
-                    // last token?
-                    candidates.push_back(15000);
+                if (full_input_ids.size() > 0) {
+                    auto token_sz = candidates.size();
+                    for (int ci = 0; ci < sampling_params.num_assistant_tokens - token_sz; ci++) {
+                        // Padding with last token.
+                        candidates.push_back(full_input_ids.back());
+                    }
                 }
             }
 
diff --git a/src/cpp/src/prompt_lookup/prompt_lookup_impl.cpp b/src/cpp/src/prompt_lookup/prompt_lookup_impl.cpp
@@ -39,11 +39,6 @@ void ContinuousBatchingPipeline::PromptLookupImpl::step() {
     ManualTimer step_timer("prompt_lookup_decoding: step()");
     step_timer.start();
 
-    // ManualTimer candidates_timer("prompt_lookup_decoding: generate_candidates()");
-    // candidates_timer.start();
-    // m_pipeline->generate_candidates();
-    // candidates_timer.end();
-    // m_sd_metrics.draft_duration += candidates_timer.get_duration();
     auto generated_len_before = m_pipeline->get_generated_request_len();
 
     ManualTimer main_timer("prompt_lookup_decoding: pipeline: step()");
diff --git a/src/cpp/src/visual_language/gemma3/classes.hpp b/src/cpp/src/visual_language/gemma3/classes.hpp
@@ -37,12 +37,12 @@ class InputsEmbedderGemma3 : public InputsEmbedder::IInputsEmbedder {
         
     ov::Tensor get_inputs_embeds(const std::string& prompt, const std::vector<ov::genai::EncodedImage>& images, ov::genai::VLMPerfMetrics& metrics, bool recalculate_merged_embeddings = true, const std::vector<size_t>& image_sequence = {}) override;
 
+    std::pair<ov::Tensor, ov::Tensor> get_inputs_embeds_with_token_type_ids(const std::string& prompt, const std::vector<EncodedImage>& images, VLMPerfMetrics& metrics, bool recalculate_merged_embeddings = true, const std::vector<size_t>& image_sequence = {}) override;
+
     bool has_token_type_ids() const override;
 
     std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images) override;
 
-    std::pair<ov::Tensor, ov::Tensor> get_inputs_embeds_with_token_type_ids(const std::string& prompt, const std::vector<ov::genai::EncodedImage>& images, ov::genai::VLMPerfMetrics& metrics, bool recalculate_merged_embeddings = true, const std::vector<size_t>& image_sequence = {}) override;
-
     std::pair<std::string, std::vector<size_t>> normalize_prompt(const std::string& prompt, size_t base_id, const std::vector<EncodedImage>& images) const override;
 
     std::pair<ov::Tensor, std::optional<int64_t>> get_position_ids(const size_t inputs_embeds_size, const size_t history_size) override;
diff --git a/src/cpp/src/visual_language/inputs_embedder.hpp b/src/cpp/src/visual_language/inputs_embedder.hpp
@@ -105,7 +105,7 @@ class InputsEmbedder {
         utils::KVCacheState m_kv_cache_state;
         // length of attention_mask/kv cache at the beginning of generation()
         size_t m_prev_hist_length = 0;
-        // When enable prompt lookup, prompt token type is need.
+        // When enable prompt lookup, prompt token ids are required to generate condidate.
         bool m_prompt_lookup = false;
         virtual ~IInputsEmbedder() = default;
 

Original file line number	Diff line number	Diff line change
`@@ -82,11 +82,15 @@ void ContinuousBatchingPipeline::ContinuousBatchingForPromptLookupImpl::generate`
`82`	`82`	`}`
`83`	`83`	`TokenIds candidates = generate_candidates(full_input_ids, min_num_assistant_tokens, sampling_params.max_ngram_size);`
`84`	`84`
	`85`	`+ // Padding to candidate token,`
	`86`	`+ // Avoid shape checking and increasing the amount of computation when the shape changes.`
`85`	`87`	`if (candidates.size() < sampling_params.num_assistant_tokens) {`
`86`		`- auto token_sz = candidates.size();`
`87`		`- for (int ci = 0; ci < sampling_params.num_assistant_tokens - token_sz; ci ++) {`
`88`		`- // last token?`
`89`		`- candidates.push_back(15000);`
	`88`	`+ if (full_input_ids.size() > 0) {`
	`89`	`+ auto token_sz = candidates.size();`
	`90`	`+ for (int ci = 0; ci < sampling_params.num_assistant_tokens - token_sz; ci++) {`
	`91`	`+ // Padding with last token.`
	`92`	`+ candidates.push_back(full_input_ids.back());`
	`93`	`+ }`
`90`	`94`	`}`
`91`	`95`	`}`
`92`	`96`