Qwen3 235B A22B#

Learn how to get started with the Qwen3 235B A22B model with Neuron, using recommended online and offline serving configurations.

About Qwen3 235B A22B#

Qwen3 235B A22B is a mixture-of-experts (MoE) model with 235B parameters developed by the Qwen Team, activating 22B parameters per forward pass.

For detailed model specifications, capabilities, and checkpoints, see the official Qwen/Qwen3-235B-A22B model card on Hugging Face.

Quickstart#

The following examples show how to use Qwen3 235B A22B with NeuronX Distributed Inference (NxDI) framework and vLLM for both online and offline use cases on Neuron devices.

Before you start…

Before running the sample code below, review how to set up your environment by following the NxDI Setup Guide. Additionally, download the model checkpoint to a local directory of your choice (such as ~/models/Qwen3-235B-A22B/).

NxDI

Select the instance type and make sure to update the highlighted code below to match your chosen path before you execute it.

trn2.48xlarge

import torch
from transformers import AutoTokenizer, GenerationConfig

from neuronx_distributed_inference.models.config import MoENeuronConfig, OnDeviceSamplingConfig
from neuronx_distributed_inference.models.qwen3_moe.modeling_qwen3_moe import Qwen3MoeInferenceConfig, NeuronQwen3MoeForCausalLM
from neuronx_distributed_inference.utils.hf_adapter import HuggingFaceGenerationAdapter, load_pretrained_config

MODEL_PATH = "~/models/Qwen3-235B-A22B/"
TRACED_MODEL_PATH = "~/traced_models/Qwen3-235B-A22B/"
SEED = 0
NEURON_CONFIG = MoENeuronConfig(
   tp_degree=64,
   attention_dp_degree=8,
   cp_degree=16,
   moe_tp_degree=2,
   moe_ep_degree=32,
   use_index_calc_kernel=True,
   mode_mask_padded_tokens=True,
   batch_size=16,
   ctx_batch_size=1,
   max_context_length=16384,
   seq_len=16384,
   scratch_pad_size=1024,
   torch_dtype="float16",
   is_continuous_batching=True,
   fused_qkv=True,
   blockwise_matmul_config={'use_shard_on_intermediate_dynamic_while': True, 'skip_dma_token': True},
   on_device_sampling_config={'do_sample': True, 'temperature': 0.6, 'top_k': 20, 'top_p': 0.95},
   enable_bucketing=True,
   token_generation_buckets=[10240, 16384],
   context_encoding_buckets=[10240, 16384],
   flash_decoding_enabled=False,
   logical_nc_config=2,
   cc_pipeline_tiling_factor=2,
   sequence_parallel_enabled=True,
   qkv_kernel_enabled=True,
   qkv_nki_kernel_enabled=True,
   qkv_cte_nki_kernel_fuse_rope=True,
   attn_kernel_enabled=True,
   strided_context_parallel_kernel_enabled=True,
   async_mode=True,
)

# Set random seed for reproducibility
torch.manual_seed(SEED)

# Initialize configs and tokenizer.
generation_config = GenerationConfig.from_pretrained(MODEL_PATH)
config = Qwen3MoeInferenceConfig(NEURON_CONFIG, load_config=load_pretrained_config(MODEL_PATH))

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, padding_side="right")
tokenizer.pad_token = tokenizer.eos_token

# Compile and save model.
print("Compiling and saving model...")
model = NeuronQwen3MoeForCausalLM(MODEL_PATH, config)
model.compile(TRACED_MODEL_PATH)
tokenizer.save_pretrained(TRACED_MODEL_PATH)

# Load from compiled checkpoint.
print("Loading model from compiled checkpoint...")
model = NeuronQwen3MoeForCausalLM(TRACED_MODEL_PATH)
model.load(TRACED_MODEL_PATH)

# Generate outputs.
print("\nGenerating outputs...")
prompt = "Give me a short introduction to large language models."
messages = [
   {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
   messages,
   tokenize=False,
   add_generation_prompt=True,
   enable_thinking=True # Switches between thinking and non-thinking modes. Default is True.
)
inputs = tokenizer([text], padding=True, return_tensors="pt")
generation_model = HuggingFaceGenerationAdapter(model)
outputs = generation_model.generate(
   inputs.input_ids,
   generation_config=generation_config,
   attention_mask=inputs.attention_mask,
   max_length=model.config.neuron_config.max_length,
)

output_tokens = tokenizer.batch_decode(outputs, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print("Generated outputs:")
for i, output_token in enumerate(output_tokens):
   print(f"Output {i}: {output_token}")

Offline serving

Select the instance type and make sure to update the highlighted code below to match your chosen path before you execute it.

trn2.48xlarge

import os

os.environ["VLLM_NEURON_FRAMEWORK"] = "neuronx-distributed-inference"

from vllm import LLM, SamplingParams

# Create an LLM.
llm = LLM(
   model="~/models/Qwen3-235B-A22B/",
   tensor_parallel_size=64,
   max_num_seqs=16,
   max_model_len=16384,
   additional_config={'override_neuron_config': {'tp_degree': 64, 'attention_dp_degree': 8, 'cp_degree': 16, 'moe_tp_degree': 2, 'moe_ep_degree': 32, 'use_index_calc_kernel': True, 'mode_mask_padded_tokens': True, 'batch_size': 16, 'ctx_batch_size': 1, 'max_context_length': 16384, 'seq_len': 16384, 'scratch_pad_size': 1024, 'torch_dtype': 'float16', 'is_continuous_batching': True, 'fused_qkv': True, 'blockwise_matmul_config': {'use_shard_on_intermediate_dynamic_while': True, 'skip_dma_token': True}, 'on_device_sampling_config': {'do_sample': True, 'temperature': 0.6, 'top_k': 20, 'top_p': 0.95}, 'enable_bucketing': True, 'token_generation_buckets': [10240, 16384], 'context_encoding_buckets': [10240, 16384], 'flash_decoding_enabled': False, 'logical_nc_config': 2, 'cc_pipeline_tiling_factor': 2, 'sequence_parallel_enabled': True, 'qkv_kernel_enabled': True, 'qkv_nki_kernel_enabled': True, 'qkv_cte_nki_kernel_fuse_rope': True, 'attn_kernel_enabled': True, 'strided_context_parallel_kernel_enabled': True, 'async_mode': True}},
   enable_prefix_caching=False,
   enable_chunked_prefill=False,
)

# Sample prompts.
prompts = [
   "The president of the United States is",
   "The capital of France is",
   "The future of AI is",
]
outputs = llm.generate(prompts, SamplingParams(top_k=1))

for output in outputs:
   prompt = output.prompt
   generated_text = output.outputs[0].text
   print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

Online serving

Select the instance type and make sure to update the highlighted code below to match your chosen path before you execute it.

trn2.48xlarge

vllm serve \
   --model="~/models/Qwen3-235B-A22B/" \
   --tensor-parallel-size=64 \
   --max-num-seqs=16 \
   --max-model-len=16384 \
   --additional-config='{"override_neuron_config": {"async_mode": true, "attention_dp_degree": 8, "attn_kernel_enabled": true, "batch_size": 16, "blockwise_matmul_config": {"skip_dma_token": true, "use_shard_on_intermediate_dynamic_while": true}, "cc_pipeline_tiling_factor": 2, "context_encoding_buckets": [10240, 16384], "cp_degree": 16, "ctx_batch_size": 1, "enable_bucketing": true, "flash_decoding_enabled": false, "fused_qkv": true, "is_continuous_batching": true, "logical_nc_config": 2, "max_context_length": 16384, "mode_mask_padded_tokens": true, "moe_ep_degree": 32, "moe_tp_degree": 2, "on_device_sampling_config": {"do_sample": true, "temperature": 0.6, "top_k": 20, "top_p": 0.95}, "qkv_cte_nki_kernel_fuse_rope": true, "qkv_kernel_enabled": true, "qkv_nki_kernel_enabled": true, "scratch_pad_size": 1024, "seq_len": 16384, "sequence_parallel_enabled": true, "strided_context_parallel_kernel_enabled": true, "token_generation_buckets": [10240, 16384], "torch_dtype": "float16", "tp_degree": 64, "use_index_calc_kernel": true}}' \
   --no-enable-chunked-prefill \
   --no-enable-prefix-caching \
   --port=8080 

Once the vLLM server is online, submit requests using the example below:

from openai import OpenAI


client = OpenAI(api_key="EMPTY", base_url="http://0.0.0.0:8080/v1")
models = client.models.list()
model_name = models.data[0].id

prompt = "Hello, my name is Llama "

response = client.chat.completions.create(
    model=model_name,
    messages=[{"role": "user", "content": prompt}],
    max_tokens=1024,
    temperature=1.0,
    top_p=1.0,
    stream=False,
    extra_body={"top_k": 50},
)

generated_text = response.choices[0].message.content
print(generated_text)

Recommended configuration#

Select a use case to view the recommended Neuron configuration. For the definitions of the flags listed below, see the NxDI API reference guide.

Offline serving

For most use cases, the configuration below can be used to optimize throughput on Neuron devices. You can also increase the batch_size or use quantization to improve throughput even further.

For this specific configuration, we recommend using Expert Parallelism (EP) of 32. For more details, refer to the Qwen3-MoE Inference on Trn2 tutorial.

trn2.48xlarge

NeuronConfig(
   tp_degree=64,
   attention_dp_degree=8,
   cp_degree=16,
   moe_tp_degree=2,
   moe_ep_degree=32,
   use_index_calc_kernel=True,
   mode_mask_padded_tokens=True,
   batch_size=64,
   ctx_batch_size=1,
   max_context_length=16384,
   seq_len=16384,
   scratch_pad_size=1024,
   torch_dtype="float16",
   is_continuous_batching=True,
   fused_qkv=True,
   blockwise_matmul_config={'use_shard_on_intermediate_dynamic_while': True, 'skip_dma_token': True},
   on_device_sampling_config={'do_sample': True, 'temperature': 0.6, 'top_k': 20, 'top_p': 0.95},
   enable_bucketing=True,
   token_generation_buckets=[10240, 16384],
   context_encoding_buckets=[10240, 16384],
   flash_decoding_enabled=False,
   logical_nc_config=2,
   cc_pipeline_tiling_factor=2,
   sequence_parallel_enabled=True,
   qkv_kernel_enabled=True,
   qkv_nki_kernel_enabled=True,
   qkv_cte_nki_kernel_fuse_rope=True,
   attn_kernel_enabled=True,
   strided_context_parallel_kernel_enabled=True,
   async_mode=True,
)

Online serving

For most use cases, the configuration below can be used to optimize latency on Neuron devices.

For this specific configuration, we recommend using Expert Parallelism (EP) of 32. For more details, refer to the qwen3-moe-tutorial tutorial.

trn2.48xlarge

NeuronConfig(
   tp_degree=64,
   attention_dp_degree=8,
   cp_degree=16,
   moe_tp_degree=2,
   moe_ep_degree=32,
   use_index_calc_kernel=True,
   mode_mask_padded_tokens=True,
   batch_size=16,
   ctx_batch_size=1,
   max_context_length=16384,
   seq_len=16384,
   scratch_pad_size=1024,
   torch_dtype="float16",
   is_continuous_batching=True,
   fused_qkv=True,
   blockwise_matmul_config={'use_shard_on_intermediate_dynamic_while': True, 'skip_dma_token': True},
   on_device_sampling_config={'do_sample': True, 'temperature': 0.6, 'top_k': 20, 'top_p': 0.95},
   enable_bucketing=True,
   token_generation_buckets=[10240, 16384],
   context_encoding_buckets=[10240, 16384],
   flash_decoding_enabled=False,
   logical_nc_config=2,
   cc_pipeline_tiling_factor=2,
   sequence_parallel_enabled=True,
   qkv_kernel_enabled=True,
   qkv_nki_kernel_enabled=True,
   qkv_cte_nki_kernel_fuse_rope=True,
   attn_kernel_enabled=True,
   strided_context_parallel_kernel_enabled=True,
   async_mode=True,
)

Qwen3 235B A22B

Contents

Qwen3 235B A22B#

About Qwen3 235B A22B#

Quickstart#

Recommended configuration#

Resources#