VoiceSculptor

VoiceSculptor:

Your Voice, Designed By You

Jingbin Hu¹, Huakang Chen¹, Linhan Ma¹, Dake Guo¹, Qirui Zhan¹, Wenhao Li¹, Haoyu Zhang¹,
Kangxiang Xia¹, Ziyu Zhang¹, Wenjie Tian¹, Chengyou Wang¹, Jinrui Liang¹, Shuhan Guo¹, Zihang Yang¹,
Bengu Wu², Binbin Zhang⁴, Pengcheng Zhu^{1 4}, Pengyuan Xie³, Chuan Xie³, Qiang Zhang³, Jie Liu³, Lei Xie^1†

¹Audio, Speech and Language Processing Group (ASLP@NPU), School of Computer Science, Northwestern Polytechnical University

²Yutu Zhineng

³Shanghai Lingguang Zhaxian Technology

⁴WeNet Open Source Community

📄 Technical Report | 🤗 Hugging Face | 🧪 Hugging Face Demo | 💻 GitHub Repo

Abstract
VoiceSculptor is composed of two core components: voice design and voice clone. The voice design module enables the generation of timbre from natural language descriptions and supports command refinement through Retrieval-Augmented Generation (RAG). It also provides fine-grained control over voice attributes, including gender, age, speaking rate, pitch, volume, and emotional expression. The synthesized audio produced by the voice design module can be used as a prompt waveform for the CosyVoice2 voice cloning model, enabling timbre cloning and downstream speech synthesis tasks.

Contents

System Overview
Demo Video
Instruct TTS Eval
Role Play
Voice Diversity
Fine-grained Control of Prosodic Attributes
Emotion Control
Retrieval-Augmented Generation
Voice Clone

This page is for research demonstration purposes only.

System Overview

Figure 1. An overview of our VoiceSculptor system.

Demo Video

Instruct TTS Eval

Instruct TTS Eval (ZH)

model	APS (%)	DSD (%)	RP (%)	AVG (%)
Gemini 2.5-Flash*	88.2	90.9	77.3	85.4
Gemini 2.5-Pro*	89.0	90.1	75.5	84.8
GPT-4o-Mini-TTS*	54.9	52.3	46.0	51.1
ElevenLabs*	42.8	50.9	59.1	50.9
VoxInstruct	47.5	52.3	42.6	47.5
MiMo-Audio-7B-Instruct	70.1	66.1	57.1	64.5
VoiceSculptor	75.7	64.7	61.5	67.3

Note：

• Models marked with * are commercial models.

InstructTTSEval — Huang, K., Tu, Q., Fan, L., Yang, C., Zhang, D., Li, S., Fei, Z., Cheng, Q., & Qiu, X. (2025). InstructTTSEval: Benchmarking Complex Natural-Language Instruction Following in Text-to-Speech Systems. arXiv preprint arXiv:2506.16381. arXiv

Role Play

VoiceSculptor can portray any character.

Role	Instruct Text	Text
诗歌朗诵-雄浑有力	一位男性现代诗朗诵者，用深沉磁性的低音，以顿挫有力的节奏演绎艾青诗歌，音量洪亮，情感激昂澎湃。	为什么我的眼里常含泪水？因为我对这土地爱得深沉。这土地，这河流，这吹刮着的暴风。
评书表演-抑扬顿挫	这是一位男性评书表演者，用传统说唱腔调，以变速节奏和韵律感极强的语速讲述江湖故事，音量时高时低，充满江湖气。	话说那武松，提着哨棒，直奔景阳冈。天色将晚，酒劲上头，只听一阵狂风，老虎来啦！
戏剧表演-夸张戏剧	这是一位男性戏剧表演者，用夸张戏剧化的嗓音，以忽高忽低的音调和时快时慢的语速表演独白，充满张力。	我疯了！彻底疯了！你们都说我疯了！可疯的是这个世界！清醒的人反而被当成疯子！
童话故事-甜美夸张	这是一位女性童话旁白朗诵者，用甜美夸张的童声，以跳跃变化的语速讲述《安徒生童话》，音调偏高，充满奇幻色彩。	在一个很冷很冷的夜晚，小女孩擦亮了一根火柴。突然，温暖的火炉出现了！她觉得自己好像坐在火炉旁。
老奶奶-沙哑低沉	一位慈祥的老奶奶，用沙哑低沉的嗓音，以极慢而温暖的语速讲述民间传说，音量微弱但清晰，带着怀旧和神秘的情感。	很久很久以前，在山的那边，住着一只会说话的狐狸。它常常在月圆之夜，变成美丽的姑娘，来到村子里。
幼儿园女教师-温柔甜美	这是一位幼儿园女教师，用甜美明亮的嗓音，以极慢且富有耐心的语速，带着温柔鼓励的情感，用标准普通话给小朋友讲睡前故事，音量轻柔适中，咬字格外清晰。	月亮婆婆升上天空啦，星星宝宝都困啦。小白兔躺在床上，盖好小被子，闭上眼睛。兔妈妈轻轻地唱着摇篮曲：睡吧睡吧，我亲爱的宝贝。
小女孩-尖锐清脆	一位7岁的小女孩，用天真高亢的童声，以不稳定的快节奏，充满兴奋和炫耀地背诵乘法口诀，音调忽高忽低，带着儿童特有的尖锐清脆。	一一得一！一二得二！一三得三！我会背乘法口诀啦！老师今天表扬我啦！妈妈说我最棒！
广告配音-沧桑浑厚	这是一位男性白酒品牌广告配音，用沧桑浑厚的嗓音，以缓慢而豪迈的语速，音量洪亮，传递历史底蕴和男人情怀。	一杯敬过往，一杯敬远方。传承千年的酿造工艺，只在每一滴醇香。老朋友，值得好酒。
纪录片旁白-低沉磁性	这是一位男性纪录片旁白，用深沉磁性的嗓音，以缓慢而富有画面感的语速讲述自然奇观，音量适中，充满敬畏和诗意。	在这片广袤的非洲草原上，生命与死亡每天都在上演。猎豹的速度，羚羊的敏捷，都是生存的代价。
相声风格-夸张幽默	这是一位男性相声表演者，用夸张幽默的嗓音，以时快时慢的节奏抖包袱，音调起伏大，充满喜感和节奏感。	我这个人啊，最大的优点就是太谦虚。谦虚到什么程度？连谦虚本身都觉得我太谦虚了！
悬疑小说-低沉神秘	一位男性悬疑小说演播者，用低沉神秘的嗓音，以时快时慢的变速节奏营造紧张氛围，音量忽高忽低，充满悬念感。	深夜，他独自走在空无一人的小巷。脚步声，回声，还有……另一个人的呼吸声。他猛地回头——什么也没有。
新闻主播-清晰明亮	这是一位女性新闻主播，用标准普通话以清晰明亮的中高音，以平稳专业的语速播报时事新闻，音量洪亮，情感客观中立。	本台讯，今日凌晨，我国成功发射新一代载人飞船试验船。此次任务验证了多项关键技术，为后续空间站建设奠定基础。
冥想引导师-空灵悠长	一位女性冥想引导师，用空灵悠长的气声，以极慢而飘渺的语速，配合环境音效，音量轻柔，营造禅意空间。	想象你是一片叶子，随风飘落。没有牵挂，没有重量。只有呼吸，只有当下，只有宁静。
法治节目-庄严庄重	这是一位男性法治节目主持人，用严肃庄重的嗓音，以平稳有力的语速讲述案件，音量适中，体现法律的威严。	天网恢恢，疏而不漏。任何触犯法律的行为，终将受到公正的审判。正义或许会迟到，但绝不会缺席。
年轻女主播-直播带货	这是一位年轻女主播，用标准普通话以明亮快速的语速进行直播带货，音调偏高且充满激情，音量响亮，情绪亢奋极具煽动性。	家人们！这款面膜最后五百单！三二一，上链接！买到就是赚到，快抢快抢！我已经自留十盒了！
男销售员-热情饱满	一位男销售员，用热情饱满的高亢嗓音，以极快且富有煽动性的语速推销产品，音量逐渐提高，充满夸张和诱惑。	家人们！这款保健品吃了能长寿！今天不要999，只要99！99你买不了吃亏，买不了上当！抢到就是赚到！
历史老师-沉稳渊博	这是一位男性历史老师，用沉稳渊博的嗓音，以中等偏慢的语速讲解历史事件，音量适中，充满知识性和启发性。	安史之乱不仅是唐朝的转折点，更是整个中华文明由盛转衰的关键节点。我们要从多个角度看这段历史。

Voice Diversity

VoiceSculptor can generate multiple distinct voice from a single text instruct.

Role	Instruct Text	Text
评书表演-抑扬顿挫	这是一位男性评书表演者，用传统说唱腔调，以变速节奏和韵律感极强的语速讲述江湖故事，音量时高时低，充满江湖气。	话说那武松，提着哨棒，直奔景阳冈。天色将晚，酒劲上头，只听一阵狂风，老虎来啦！






幼儿园女教师-温柔甜美	这是一位幼儿园女教师，用甜美明亮的嗓音，以极慢且富有耐心的语速，带着温柔鼓励的情感，用标准普通话给小朋友讲睡前故事，音量轻柔适中，咬字格外清晰。	月亮婆婆升上天空啦，星星宝宝都困啦。小白兔躺在床上，盖好小被子，闭上眼睛。兔妈妈轻轻地唱着摇篮曲：睡吧睡吧，我亲爱的宝贝。

Text	Instruct Text	Tag
本台讯，今日凌晨，我国成功发射新一代载人飞船试验船。此次任务验证了多项关键技术，为后续空间站建设奠定基础。	这是一位男性新闻主播	男性
	这是一位女性新闻主播	女性
	这是一位女孩，新闻主播	小孩
	这是一位青年女性新闻主播	青年
	这是一位中年女性新闻主播	中年
	这是一位老年女性新闻主播	老年
	这是一位女性新闻主播，音调高。	音调很高
	这是一位女性新闻主播，音调中等。	音调中等
	这是一位女性新闻主播，音调低。	音调很低
	这是一位女性新闻主播，音调变化很强。	音调变化很强
	这是一位女性新闻主播，音调变化一般。	音调变化一般
	这是一位女性新闻主播，音调变化很弱。	音调变化很弱
	这是一位女性新闻主播，音量很大。	音量很大
	这是一位女性新闻主播，音量中等。	音量中等
	这是一位女性新闻主播，音量很小。	音量很小
	这是一位女性新闻主播，语速很快。	语速很快
	这是一位女性新闻主播，语速中等。	语速中等
	这是一位女性新闻主播，语速很慢。	语速很慢

Text	Instruct Text	Tag
医生……他还能听见我吗？求你再试一次，我——我还没来得及说再见……	一位站在医院走廊的青年女性，声音细薄带浓重哭腔，语速断续、音量轻飘，情绪崩溃边缘，吐字被抽噎切成碎片。	难过
灯……灯怎么闪了？走廊的脚步声不是我幻听，对吧？拜托，有人吗？我……我躲好了，别过来……	这是一位躲藏在空教室的少女，声音细弱发颤，带着哭腔，语速断续、音量极小，情绪害怕紧张，吐字被呼吸声切割。	害怕
小手拉大手，彩虹伞一起抛——哇！伞变成大泡泡啦！孩子们，转圈圈，让笑声飞到天上去！	这是一位带户外活动的女老师，声音明亮圆润，语速中等偏快、音量饱满，极其高兴和开心。	开心
安全帽！谁又没戴安全帽？再让我看见一次，立马停工！命只有一条，别拿它换侥幸！	这是一位在嘈杂工地喊话的男领班，声音粗厚高亢，语速急、音量极大，情绪愤怒爆发，吐字短促硬截。	愤怒
哇——！隐藏款居然第一抽就出？！弹幕快看，闪到我了！	一位凌晨直播开箱的青年女主播，声音原本清脆，瞬间拔高变尖，语速陡然加快、音量骤升，情绪惊喜到破音，吐字短促带气声。	惊讶
先生，请把袜子穿好，地板被你踩得黏唧唧——我快窒息了。	一位深夜便利店收银的青年女性，声音细尖带鼻音，语速急，透着烦躁，情绪厌恶到皱眉。	厌恶

Text	Instruct Text	Type
你回来！把那句话给我收回去！收回去！	一位青年女性，嘶吼着说。	Instruct
你回来！把那句话给我收回去！收回去！	一位青年女性，嘶吼着说。	Instruct+RAG
要是走，就带我一起下地狱，别把我一个人扔在这里。	一位青年女性，带着哭腔说。	Instruct
要是走，就带我一起下地狱，别把我一个人扔在这里。	一位青年女性，带着哭腔说。	Instruct+RAG
嘘，我们小声点，让故事继续睡觉。	一位青年女性，轻声细语地说。	Instruct
嘘，我们小声点，让故事继续睡觉。	一位青年女性，轻声细语地说。	Instruct+RAG

Text	Prompt	Generated
冬天来得太早，小刺猬阿栗的苹果全冻成了冰球。它把最后一颗苹果塞进胸口，却听见“咚”的一声，苹果里孵出一只金黄的小太阳，只有纽扣大。阿栗把太阳藏进自己的刺缝里，走一路，雪化一路；它经过的地方，开出指甲盖大的雏菊，像给雪地扣上悄悄话。
灯花刚爆，满楼金漆还晃着眼，就见一条灰影贴着大梁滑过，活似壁虎倒行，却连一粒尘都没惊。此人姓赛，名无影，江湖送号“袖里闪电”，专偷旁人眨眼间。那夜，开封府堂上高悬“御赐琉璃灯”，灯罩八瓣，瓣瓣镶夜明珠一颗，值江北三年粮。包大人刚拍惊堂木，灯还在；木声未落，灯已灭。众衙役眼前一黑，再亮时，灯罩空空，八珠尽失！
把晨曦折成旗，五颗星悬在我胸口；一声鸽哨，万里山河同时回礼。我把最亮的浪花写进你的名字，风一吹，整片土地都举起金黄的麦穗。

VoiceSculptor:

Your Voice, Designed By You

System Overview

Demo Video

Instruct TTS Eval (ZH)

Role Play

Voice Diversity

Fine-grained Control of Prosodic Attributes

Emotion Control

Retrieval-Augmented Generation

Voice Clone