SGLang相关参数

SGLang相关参数

SGLANG_USE_MODELSCOPE=true python -m sglang.bench_latency --model-path /data/hub/LLM-Research/Meta-Llama-3___1-70B-Instruct-AWQ-INT4 --batch 128 --input-len 256 --output-len 32 --tp 8 --mem-fraction-static 0.9 --dtype float16 --context-length 512 --enable-p2p-check --quantization Marlin
usage: bench_latency.py [-h] [--model-path MODEL_PATH] [--tokenizer-path TOKENIZER_PATH]
                        [--host HOST] [--port PORT] [--additional-ports [ADDITIONAL_PORTS ...]]
                        [--tokenizer-mode {auto,slow}] [--skip-tokenizer-init]
                        [--load-format {auto,pt,safetensors,npcache,dummy}]
                        [--dtype {auto,half,float16,bfloat16,float,float32}]
                        [--kv-cache-dtype {auto,fp8_e5m2}] [--trust-remote-code] [--is-embedding]
                        [--context-length CONTEXT_LENGTH]
                        [--quantization {awq,fp8,gptq,marlin,gptq_marlin,awq_marlin,squeezellm,bitsandbytes}]
                        [--served-model-name SERVED_MODEL_NAME] [--chat-template CHAT_TEMPLATE]
                        [--mem-fraction-static MEM_FRACTION_STATIC]
                        [--max-running-requests MAX_RUNNING_REQUESTS] [--max-num-reqs MAX_NUM_REQS]
                        [--max-total-tokens MAX_TOTAL_TOKENS]
                        [--chunked-prefill-size CHUNKED_PREFILL_SIZE]
                        [--max-prefill-tokens MAX_PREFILL_TOKENS]
                        [--schedule-policy {lpm,random,fcfs,dfs-weight}]
                        [--schedule-conservativeness SCHEDULE_CONSERVATIVENESS]
                        [--tensor-parallel-size TENSOR_PARALLEL_SIZE]
                        [--stream-interval STREAM_INTERVAL] [--random-seed RANDOM_SEED]
                        [--log-level LOG_LEVEL] [--log-level-http LOG_LEVEL_HTTP] [--log-requests]
                        [--show-time-cost] [--api-key API_KEY] [--file-storage-pth FILE_STORAGE_PTH]
                        [--data-parallel-size DATA_PARALLEL_SIZE]
                        [--load-balance-method {round_robin,shortest_queue}]
                        [--nccl-init-addr NCCL_INIT_ADDR] [--nnodes NNODES] [--node-rank NODE_RANK]
                        [--disable-flashinfer] [--disable-flashinfer-sampling]
                        [--disable-radix-cache] [--disable-regex-jump-forward]
                        [--disable-cuda-graph] [--disable-cuda-graph-padding] [--disable-disk-cache]
                        [--disable-custom-all-reduce] [--enable-mixed-chunk]
                        [--enable-torch-compile] [--enable-p2p-check] [--enable-mla]
                        [--triton-attention-reduce-in-fp32] [--efficient-weight-load]

[--run-name RUN_NAME] [--batch-size BATCH_SIZE [BATCH_SIZE ...]]
                        [--input-len INPUT_LEN [INPUT_LEN ...]]
                        [--output-len OUTPUT_LEN [OUTPUT_LEN ...]]
                        [--result-filename RESULT_FILENAME] [--correctness-test] [--cut-len CUT_LEN]
                        [--graph-sql GRAPH_SQL] [--graph-filename GRAPH_FILENAME]
bench_latency.py: error: argument --quantization: invalid choice: 'Marlin' (choose from 'awq', 'fp8', 'gptq', 'marlin', 'gptq_marlin', 'awq_marlin', 'squeezellm', 'bitsandbytes')

Read more

深入理解 Proxy 和 Object.defineProperty

在JavaScript中,对象是一种核心的数据结构,而对对象的操作也是开发中经常遇到的任务。在这个过程中,我们经常会使用到两个重要的特性:Proxy和Object.defineProperty。这两者都允许我们在对象上进行拦截和自定义操作,但它们在实现方式、应用场景和灵活性等方面存在一些显著的区别。本文将深入比较Proxy和Object.defineProperty,包括它们的基本概念、使用示例以及适用场景,以帮助读者更好地理解和运用这两个特性。 1. Object.defineProperty 1.1 基本概念 Object.defineProperty 是 ECMAScript 5 引入的一个方法,用于直接在对象上定义新属性或修改已有属性。它的基本语法如下: javascript 代码解读复制代码Object.defineProperty(obj, prop, descriptor); 其中,obj是目标对象,prop是要定义或修改的属性名,descriptor是一个描述符对象,用于定义属性的特性。 1.2 使用示例 javascript 代码解读复制代码//

By Ne0inhk

Proxy 和 Object.defineProperty 的区别

Proxy 和 Object.defineProperty 是 JavaScript 中两个不同的特性,它们的作用也不完全相同。 Object.defineProperty 允许你在一个对象上定义一个新属性或者修改一个已有属性。通过这个方法你可以精确地定义属性的特征,比如它是否可写、可枚举、可配置等。该方法的使用场景通常是需要在一个对象上创建一个属性,然后控制这个属性的行为。 Proxy 也可以用来代理一个对象,但是相比于 Object.defineProperty,它提供了更加强大的功能。使用 Proxy 可以截获并重定义对象的基本操作,比如访问属性、赋值、函数调用等等。在这些操作被执行之前,可以通过拦截器函数对这些操作进行拦截和修改。因此,通过 Proxy,你可以完全重写一个对象的默认行为。该方法的使用场景通常是需要对一个对象的行为进行定制化,或者需要在对象上添加额外的功能。 对比 以下是 Proxy 和 Object.defineProperty 的一些区别对比: 方面ProxyObject.defineProperty语法使用 new Proxy(target,

By Ne0inhk