网页站点什么意思wordpress update_post_meta-Seo优化-定安县网站建设公司

网页站点什么意思,wordpress update_post_meta,php免费网站模板,wordpress 调用地图一、引言随着语音大模型的普及#xff0c;不管是TTS还是ASR#xff0c;都与音频处理有着紧密的联系#xff0c;AIGC的蓬勃发展#xff0c;也催生了文本到音频#xff08;Text-to-Audio, TTA#xff09;的落地场景#xff0c;音乐生成也走进了我们的实际应用。基于传统的…一、引言随着语音大模型的普及不管是TTS还是ASR都与音频处理有着紧密的联系AIGC的蓬勃发展也催生了文本到音频Text-to-Audio, TTA的落地场景音乐生成也走进了我们的实际应用。基于传统的信号合成技术凭借完全可控、轻量化的优势在场景化音效补充中不可替代而声乐大模型也是雨后勃发以 MusicGen 为代表的 TTA 大模型则通过海量数据训练实现了文本意图驱动的创意生成。今天我们围绕声音的本质深度解析音频合成的核心逻辑深度的理解一套融合MusicGen 大模型创意核心传统信号合成场景增强多维度可视化效果验证的音频生成系统涵盖模型原理、参数配置、执行流程、结果解读各个环节从而达到从零掌握可控化、场景化的 AI 音频生成技术。二、音频合成的核心在开始讲解模型之前我们得先拆解原测试音频生成器的核心原理其实所有生成声音的本质都是对波形的精准操控。代码能模拟会议和演示语音关键靠这 4 个核心技术也是我们后续生成优美音乐的基础1. 声音的本质核心本质是频率、振幅与波形声音是机械波的传播我们听到的音调由频率决定单位Hz低频50-200Hz低沉、厚重如大提琴、男生语音中频200-2000Hz人声主导、清晰如女生语音、钢琴中音区高频2000Hz 以上明亮、尖锐如小提琴、鸟鸣、键盘敲击声振幅则决定音量大小波形的高低。正弦波是最基础的纯音但真实声音或音乐不会是单一正弦波而是由基频和谐波共同组成比如钢琴的声音需要“基频 2 倍频 3 倍频 ...”共同组成。2. ADSR 包络让声音有呼吸感的关键为什么同样是 100Hz 的频率钢琴和小提琴的声音完全不同核心在于ADSR 包络模拟声音从“发声”到“消失”的生命周期AAttack起音声音从 0 达到最大音量的时间如钢琴按键瞬间起音快小提琴拉弦起音慢DDecay衰减音量从峰值降到持续音量的时间SSustain持续发声过程中音量稳定的阶段RRelease释音停止发声后音量降到 0 的时间生成音乐时我们要调整 ADSR 参数让声音更有乐器感比如钢琴的起音快、释音中等弦乐的起音慢、释音长。3. 音色塑造基频声音的基础频率决定音调高低谐波基频的整数倍频率决定音色比如吉他的谐波丰富所以声音温暖共振峰人声/乐器的频率峰值比如元音 a/i/u 的区别就是共振峰分布不同我们在生成音色时通过调整基频100-200Hz、添加 2-4 次谐波模拟不同说话人的音色生成音乐时我们可以通过定制谐波比例模拟钢琴、吉他、合成器等不同乐器的音色。4. 环境感营造通过音效叠加我们添加背景噪音、回响、环境音效键盘声、咳嗽声让模拟语音更真实营造一些特定的背景环境感基础音语音/乐器结合环境音噪音 / 场景元素实现场景化声音效果器回响、混响、失真给声音加空间感比如回响模拟大房间的声学效果生成优美音乐时我们可以用这个原理添加自然环境音雨声、风声、音乐效果器混响让声音更空灵让音乐更有层次感。三、音频合成应用我们先直观的感受一下一段音乐的生成初步的了解其中的集合的元素基于以上介绍的合成核心的实际代码体现逐步分析其中的细节知识点强化了解。import numpy as np import soundfile as sf import os from scipy import signal class SceneAudioGenerator: def __init__(self, sample_rate44100, duration_minutes5): self.sample_rate sample_rate # 音乐用44100Hz比ASR的16000Hz更清晰 self.duration_seconds duration_minutes * 60 self.total_samples int(self.duration_seconds * self.sample_rate) def _create_adsr_envelope(self, num_samples, instrumentpiano): 优化ADSR参数适配不同乐器 envelope np.ones(num_samples) total_time num_samples / self.sample_rate if instrument piano: attack 0.02 # 钢琴起音快 decay 0.1 # 快速衰减 sustain 0.3 # 持续音量低 release 0.8 # 释音中等 elif instrument synth: # 合成器冥想用 attack 0.5 # 起音慢更舒缓 decay 0.3 # 缓慢衰减 sustain 0.6 # 持续音量高 release 2.0 # 释音长更空灵 # 计算各阶段样本数 attack_samples int(attack * self.sample_rate) decay_samples int(decay * self.sample_rate) release_samples int(release * self.sample_rate) sustain_samples num_samples - attack_samples - decay_samples - release_samples # 处理边界情况 sustain_samples max(sustain_samples, 0) if attack_samples decay_samples sustain_samples num_samples: release_samples num_samples - attack_samples - decay_samples - sustain_samples # 生成包络 if attack_samples 0: envelope[:attack_samples] np.linspace(0, 1, attack_samples) if decay_samples 0: start attack_samples end start decay_samples envelope[start:end] np.linspace(1, sustain, decay_samples) if sustain_samples 0: start attack_samples decay_samples end start sustain_samples envelope[start:end] sustain if release_samples 0: start attack_samples decay_samples sustain_samples end min(start release_samples, num_samples) if start end: envelope[start:end] np.linspace(sustain, 0, end - start) return envelope def _generate_fractal_noise(self, duration_seconds, hurst0.5, octaves4): 生成分形噪声自然环境音专用比随机噪声更真实 samples int(duration_seconds * self.sample_rate) noise np.zeros(samples) freq 1.0 for _ in range(octaves): t np.linspace(0, duration_seconds * freq, samples, endpointFalse) noise np.sin(2 * np.pi * t * np.random.randn()) * (freq ** (-hurst)) freq * 2 return noise / np.max(np.abs(noise)) * 0.1 # 降低音量 def _breathing_amplitude(self, duration_seconds): 生成呼吸节奏的音量曲线4秒吸气6秒呼气 t np.linspace(0, duration_seconds, int(duration_seconds * self.sample_rate)) breath_cycle 10.0 # 呼吸周期10秒 # 吸气0-4秒音量从0.3→0.8呼气4-10秒音量从0.8→0.3 cycle np.where(t % breath_cycle 4, np.interp(t % breath_cycle, [0, 4], [0.3, 0.8]), np.interp((t % breath_cycle) - 4, [0, 6], [0.8, 0.3])) return cycle def generate_meditation_music(self, filenamemeditation_music.wav, nature_soundrain): 生成冥想音乐合成器自然环境音呼吸节奏 print(f 生成冥想音乐{filename}) # 1. 生成基础合成器音色五声音阶C、D、E、G、A pentatonic_scale [261.63, 293.66, 329.63, 392.00, 440.00] # C大调五声音阶Hz bpm 50 # 慢节奏 beat_duration 60 / bpm # 每拍时长 num_beats int(self.duration_seconds / beat_duration) # 生成和弦序列C-Am-F-G舒缓经典 chord_progression [ [0, 2, 4], # C和弦C-E-A [1, 3, 0], # Am和弦D-G-C [3, 0, 2], # F和弦G-C-E [4, 1, 3] # G和弦A-D-G ] # 初始化音频 audio np.zeros(self.total_samples) current_sample 0 # 生成和弦进行 for beat in range(num_beats): chord chord_progression[beat % len(chord_progression)] chord_duration beat_duration * 2 # 每个和弦占2拍 chord_samples int(chord_duration * self.sample_rate) for note_idx in chord: note_freq pentatonic_scale[note_idx] # 生成音符波形基频谐波 t np.linspace(0, chord_duration, chord_samples, endpointFalse) fundamental np.sin(2 * np.pi * note_freq * t) harmonic1 np.sin(2 * np.pi * note_freq * 2 * t) * 0.3 # 2倍谐波丰富音色 harmonic2 np.sin(2 * np.pi * note_freq * 3 * t) * 0.1 # 3倍谐波 note fundamental harmonic1 harmonic2 # 应用ADSR包络合成器音色 envelope self._create_adsr_envelope(chord_samples, instrumentsynth) note note * envelope # 叠加到主音频 if current_sample chord_samples self.total_samples: audio[current_sample:current_samplechord_samples] note * 0.3 current_sample chord_samples # 2. 添加自然环境音雨声/风声 nature_duration self.duration_seconds if nature_sound rain: nature_audio self._generate_fractal_noise(nature_duration) # 分形噪声模拟雨声 elif nature_sound wind: nature_audio self._generate_fractal_noise(nature_duration, hurst0.7, octaves3) # 更平缓的噪声模拟风声 audio[:len(nature_audio)] nature_audio # 3. 应用呼吸节奏音量曲线 breathing_curve self._breathing_amplitude(self.duration_seconds) audio audio * breathing_curve # 4. 添加混响效果模拟空旷空间 audio self._add_reverb(audio, delay0.5, decay0.7) # 5. 标准化音量 audio self._normalize_audio(audio) # 保存文件 sf.write(filename, audio, self.sample_rate) print(f✅ 冥想音乐已保存{filename}{self.duration_seconds:.1f}秒) return audio def _add_reverb(self, audio, delay0.3, decay0.5): 优化混响效果让音乐更空灵 delay_samples int(delay * self.sample_rate) delayed np.zeros_like(audio) delayed[delay_samples:] audio[:-delay_samples] * decay # 二次延迟更真实的空间感 delay2_samples int(delay * 1.5 * self.sample_rate) delayed2 np.zeros_like(audio) delayed2[delay2_samples:] audio[:-delay2_samples] * decay * 0.6 result audio delayed delayed2 return self._normalize_audio(result) def _normalize_audio(self, audio): 标准化音量避免削波 max_val np.max(np.abs(audio)) if max_val 0: return audio / max_val * 0.8 # 保留20%余量更柔和 return audio # 生成冥想音乐5分钟雨声合成器 generator SceneAudioGenerator(duration_minutes5) generator.generate_meditation_music(meditation_rain.wav, nature_soundrain)1. 采样率初始化class SceneAudioGenerator: def __init__(self, sample_rate44100, duration_minutes5): self.sample_rate sample_rate # 音乐用44100Hz比ASR的16000Hz更清晰 self.duration_seconds duration_minutes * 60 self.total_samples int(self.duration_seconds * self.sample_rate)采样率选择 44100Hz这是CD质量的采样率44.1kHzNyquist频率为 22050Hz完全覆盖人耳可听范围20-20000Hz比语音识别常用的16000Hz更高保留更多高频细节计算公式总样本数时长(秒) × 采样率2. ADSR包络生成器def _create_adsr_envelope(self, num_samples, instrumentpiano): 优化ADSR参数适配不同乐器 envelope np.ones(num_samples) total_time num_samples / self.sample_rate if instrument piano: attack 0.02 # 钢琴起音快 decay 0.1 # 快速衰减 sustain 0.3 # 持续音量低 release 0.8 # 释音中等 elif instrument synth: # 合成器冥想用 attack 0.5 # 起音慢更舒缓 decay 0.3 # 缓慢衰减 sustain 0.6 # 持续音量高 release 2.0 # 释音长更空灵 .....ADSR包络原理Attack起音声音从0上升到最大振幅的时间Decay衰减从最大振幅下降到持续电平的时间Sustain持续保持的音量电平Release释音音符结束后衰减到0的时间不同乐器的ADSR参数对比钢琴: A0.02s, D0.1s, S0.3, R0.8s快速起音、快速衰减模拟真实钢琴的击弦机制合成器: A0.5s, D0.3s, S0.6, R2.0s缓慢起音、长释音创造飘渺空灵的冥想效果包络生成算法线性插值生成包络曲线线性上升envelope[:attack_samples] np.linspace(0, 1, attack_samples)线性下降envelope[start:end] np.linspace(1, sustain, decay_samples)3. 分形噪声生成def _generate_fractal_noise(self, duration_seconds, hurst0.5, octaves4): noise np.zeros(samples) freq 1.0 for _ in range(octaves): t np.linspace(0, duration_seconds * freq, samples, endpointFalse) noise np.sin(2 * np.pi * t * np.random.randn()) * (freq ** (-hurst)) freq * 2分形噪声原理多个八度octaves的正弦波叠加每个八度频率翻倍1x, 2x, 4x, 8x...振幅按Hurst指数衰减amp freq ** (-hurst)Hurst指数的作用hurst0.5布朗噪声Brownian noise频率每翻倍振幅减半hurst0.7更平缓的噪声适合模拟风声指数关系1/f^hh越大低频成分越多自然环境声模拟雨声多频率成分叠加nature_audio self._generate_fractal_noise(nature_duration)风声更平缓的低频噪声nature_audio self._generate_fractal_noise(nature_duration, hurst0.7, octaves3)4. 呼吸节奏音量曲线def _breathing_amplitude(self, duration_seconds): 生成呼吸节奏的音量曲线4秒吸气6秒呼气 t np.linspace(0, duration_seconds, int(duration_seconds * self.sample_rate)) breath_cycle 10.0 # 呼吸周期10秒 # 吸气0-4秒音量从0.3→0.8呼气4-10秒音量从0.8→0.3 cycle np.where(t % breath_cycle 4, np.interp(t % breath_cycle, [0, 4], [0.3, 0.8]), np.interp((t % breath_cycle) - 4, [0, 6], [0.8, 0.3])) return cycle生理呼吸模式正常冥想呼吸吸气4秒呼气6秒 10秒周期呼吸比吸气:呼气 4:6 ≈ 1:1.5音量变化模拟呼吸强度吸气时渐强呼气时渐弱5. 音乐生成核心算法def generate_meditation_music(self, filenamemeditation_music.wav, nature_soundrain): 生成冥想音乐合成器自然环境音呼吸节奏 print(f 生成冥想音乐{filename}) # 1. 生成基础合成器音色五声音阶C、D、E、G、A pentatonic_scale [261.63, 293.66, 329.63, 392.00, 440.00] # C大调五声音阶Hz bpm 50 # 慢节奏 beat_duration 60 / bpm # 每拍时长 num_beats int(self.duration_seconds / beat_duration) # 生成和弦序列C-Am-F-G舒缓经典 chord_progression [ [0, 2, 4], # C和弦C-E-A [1, 3, 0], # Am和弦D-G-C [3, 0, 2], # F和弦G-C-E [4, 1, 3] # G和弦A-D-G ]音阶和和弦设计五声音阶特点无半音和谐悦耳适合冥想音乐和弦进行C - Am - F - G经典四和弦进行波形合成技术谐波增强添加2倍、3倍频谐波丰富音色谐波比例基频:2倍:3倍 1:0.3:0.1避免谐波过强节奏控制慢节奏50 BPM适合冥想和弦变化每2.4秒一次缓慢过渡6. 混响效果实现def _add_reverb(self, audio, delay0.3, decay0.5): delay_samples int(delay * self.sample_rate) delayed np.zeros_like(audio) delayed[delay_samples:] audio[:-delay_samples] * decay # 二次延迟 delay2_samples int(delay * 1.5 * self.sample_rate) delayed2 np.zeros_like(audio) delayed2[delay2_samples:] audio[:-delay2_samples] * decay * 0.6简单混响算法主延迟300ms衰减50%二次延迟450ms1.5倍衰减30%0.5×0.6公式输出原始延迟1 延迟2空灵感创造长延迟500ms 高衰减70%模拟大空间如教堂、山洞的回声7. 音量标准化def _normalize_audio(self, audio): 标准化音量避免削波 max_val np.max(np.abs(audio)) if max_val 0: return audio / max_val * 0.8 # 保留20%余量更柔和 return audio防止削波Clipping找到音频的最大绝对值缩放所有采样点到[-0.8, 0.8]范围保留20%动态余量避免数字过载心理学考虑80%最大音量听起来更柔和为后续处理如EQ、压缩留出空间8. 完整信号处理流程四、通过模型生成接下来我们来分析一套融合MusicGen 大模型创意核心传统信号合成场景增强多维度可视化效果验证的音频生成系统1. 核心概念采样率Sample Rate本文采用 32000HzMusicGen 默认值表示每秒采集 32000 个音频样本越高则音质越好但文件体积越大Token 生成数MusicGen 按 25Hz 的帧率生成 Token因此max_new_tokens 时长(秒) × 25分形噪声区别于随机噪声通过多倍频叠加生成更自然的雨声符合真实物理环境的声音特征情绪特征映射基于音频的客观特征响度、节奏、频谱中心量化映射为 “平静 / 快乐 / 激昂 / 悲伤”4 个主观情绪维度Guidance ScaleTTA 模型的关键参数控制文本提示对生成结果的约束强度值越高生成结果越贴合文本。2. MusicGen 模型介绍MusicGen 是 Meta 推出的轻量级 TTA 大模型本系统选用facebook/musicgen-small1.5GB 级兼顾效果与部署门槛架构Encoder-Decoder 结构文本 Encoder 将自然语言转为语义向量音频 Decoder 基于语义向量生成音频 TokenToken 化将音频波形转为离散 Token类似 LLM 的文本 Token通过自回归生成实现音频创作本地化部署通过modelscope.snapshot_download实现模型缓存避免重复下载支持离线使用核心优化代码中通过torch.no_grad()、模型评估模式eval()降低显存占用通过标准化audio / audio_max * 0.9避免音频削波。3. 核心模块设计本系统拆分为 3 个解耦模块便于扩展和维护3.1 TTAAudioGenerator 模块核心功能MusicGen 模型调用、核心音频生成关键函数/特性generate_from_text()支持自定义 temperature/guidance_scale含异常捕获静音兜底机制确保程序稳定性3.2 TraditionalAudioEnhancer 模块核心功能场景音效增强关键函数/特性_generate_fractal_rain_noise()分形雨声生成比随机噪声更自然enhance_audio()混响添加音量标准化避免音频失真3.3 AudioVisualizer 模块核心功能音频可视化情绪分析关键函数/特性plot_spectrogram()梅尔频谱绘制展现频率分布extract_emotion_features()提取响度 / 节奏 / 频谱特征映射为情绪得分4. 详细参数配置4.1 全局配置SAMPLE_RATE 32000MusicGen 默认采样率不可随意修改模型训练时固定修改会导致音频变速 / 变调DURATION 10生成音频时长秒建议 5-30 秒平衡效果与耗时DEVICE cuda if torch.cuda.is_available () else cpu优先使用 GPU 加速无 GPU 时自动切换 CPU速度较慢。4.2 MusicGen 生成参数temperature默认值为0.7取值范围在0.1-1.0之间作用说明控制生成随机性值越高创意性越强值越低结果越稳定调优建议冥想音乐→0.6-0.8电子舞曲→0.8-0.9top_k默认值为50取值范围在10-100之间作用说明采样时仅保留概率前 k 的 Token降低随机性调优建议保持默认即可top_p默认值为0.95取值范围在0.8-1.0之间作用说明核采样保留累计概率≥p 的 Token平衡随机性与合理性调优建议保持默认即可guidance_scale默认值为3.0取值范围在1.0-5.0之间作用说明文本约束强度值越高生成结果越贴合文本描述过高易导致音频不自然调优建议简单提示→2.0-3.0复杂提示→3.0-4.04.3 传统音效增强参数rain_level默认值0.1作用说明控制雨声强度0-1 区间调优建议冥想音乐→0.05-0.1环境音乐→0.1-0.15everb_strength默认值0.3作用说明控制混响强度0-1 区间调优建议空灵场景→0.3-0.4紧凑场景→0.1-0.25. 执行流程主要流程说明1. 初始化阶段下载/加载MusicGen模型缓存→初始化处理器/模型→设置评估模式2. 核心生成文本提示预处理→Token生成→音频解码→标准化→输出核心音频3. 音效增强生成分形雨声→添加混响→音量标准化→输出最终音频4. 结果保存保存核心音频/最终音频为WAV文件5. 可视化阶段绘制核心/最终音频的波形图→绘制频谱图→提取情绪特征→绘制情绪热力图6. 结果解析输出情绪得分→识别主要情绪→汇总生成文件6. 代码整体结构6.1 全局配置采样率32000HzMusicGen默认生成时长10秒设备优先使用CUDA6.2 TTAAudioGenerator类初始化下载模型加载模型和处理器设置模型为评估模式。generate_from_text根据文本提示生成音频可以调整生成参数temperature、guidance_scale等。生成过程将文本转换为模型输入生成音频token然后解码为音频波形。最后对音频进行标准化单声道幅度归一化。6.3 TraditionalAudioEnhancer类使用传统信号处理技术添加音效。分形雨声通过多个八度的正弦波叠加生成分形噪声然后进行低通滤波模拟雨声。混响简单的延迟线混响将原始音频与延迟后的音频叠加。增强函数将雨声和混响效果添加到核心音频中。6.4 AudioVisualizer类波形图显示音频幅度随时间的变化。频谱图使用梅尔频谱显示音频频率随时间的变化梅尔频谱更符合人耳听觉。情绪分析提取音频的节奏、响度、频谱中心、频谱带宽等特征映射到四个情绪维度平静、快乐、激昂、悲伤。情绪热力图用柱状图显示四个情绪维度的得分。6.5 主流程步骤1用TTAAudioGenerator生成核心音频core_audio.wav步骤2用TraditionalAudioEnhancer增强音频添加雨声和混响保存为final_audio.wav步骤3可视化核心音频和最终音频的波形图和频谱图步骤4情绪分析并绘制情绪热力图7. 输出图例7.1 波形图waveform横轴时间秒纵轴振幅归一化到-1到1之间作用观察音频的幅度变化可以直观看到音频的响度变化和节奏。7.2 梅尔频谱图spectrogram横轴时间秒纵轴频率Hz但转换为梅尔刻度更符合人耳对音高的感知。颜色表示能量dB颜色越亮表示该频率成分的能量越高。作用观察音频的频率成分随时间的变化可以识别音高、和声、乐器等。7.3 情绪热力图emotion heatmap四个情绪维度平静、快乐、激昂、悲伤。每个维度得分在0-10之间通过音频特征计算得到。响度RMS高、节奏快则激昂得分高节奏快、频谱中心高则快乐得分高情绪特征的映射平静低响度、低节奏、窄带宽 - 得分高快乐高节奏、高频谱中心 - 得分高激昂高响度、高节奏 - 得分高悲伤低频谱中心、低节奏 - 得分高五、总结今天我们构建了一个完整的AI驱动音乐创作与分析流水线创新性地融合了深度生成模型与传统信号处理技术。核心采用MusicGen大模型从文本描述生成基础音乐再通过分形噪声合成和数字混响等传统方法增强场景效果实现了“AI创意生成人工精细化调整”的协作模式。系统配备了多维分析模块通过波形图、梅尔频谱图展示音频的时频特性并创新性地从响度、节奏、频谱质心等声学特征中提取情绪维度得分将主观感知转化为“平静/快乐/激昂/悲伤”的量化评估。该架构体现了生成式AI与经典数字信号处理的有机结合既发挥了大模型的创造性又保留了传统方法在特定音效上的精确可控性为自动化音乐创作、情绪化配乐生成及音频分析提供了基础的框架支撑。附录完整的示例参考import numpy as np import torch import soundfile as sf import librosa import librosa.display import matplotlib.pyplot as plt from scipy import signal from transformers import AutoProcessor, MusicgenForConditionalGeneration from modelscope import snapshot_download # 全局配置 SAMPLE_RATE 32000 # MusicGen默认采样率 DURATION 10 # 生成音频时长秒 DEVICE cuda if torch.cuda.is_available() else cpu plt.rcParams[font.sans-serif] [SimHei] # 中文显示 plt.rcParams[axes.unicode_minus] False # 负号显示 # 1. TTA大模型MusicGen生成核心音频 class TTAAudioGenerator: def __init__(self, model_namefacebook/musicgen-small, cache_dirD:\\modelscope\\hub): 初始化MusicGen模型 try: print(正在下载/校验模型缓存...) local_model_path snapshot_download(model_name, cache_dircache_dir) print(加载模型和处理器...) self.processor AutoProcessor.from_pretrained(local_model_path) self.model MusicgenForConditionalGeneration.from_pretrained(local_model_path).to(DEVICE) # 设置模型为评估模式 self.model.eval() self.sample_rate SAMPLE_RATE print(f✅ TTA大模型初始化完成{model_name} (设备: {DEVICE})) except Exception as e: print(f❌ 模型初始化失败: {e}) raise def generate_from_text(self, text_prompt, duration_seconds10, **generation_kwargs): 从文本生成核心音频 try: # 设置默认生成参数 default_kwargs { do_sample: True, temperature: 0.7, top_k: 50, top_p: 0.95, guidance_scale: 3.0, } # 更新用户提供的参数 generation_kwargs {**default_kwargs, **generation_kwargs} # 计算生成token数 max_new_tokens int(duration_seconds * 25) generation_kwargs[max_new_tokens] max_new_tokens print(f 生成音频: {text_prompt}) print(f 参数: temperature{generation_kwargs[temperature]}, fguidance_scale{generation_kwargs[guidance_scale]}) # 预处理文本 inputs self.processor( text[text_prompt], paddingTrue, return_tensorspt, ).to(DEVICE) print(⏳ 生成中...) # 生成音频 with torch.no_grad(): audio_values self.model.generate( **inputs, **generation_kwargs ) # 获取生成的音频数据 audio audio_values[0].cpu().numpy().squeeze() # 确保音频是单声道 if audio.ndim 1: audio audio.mean(axis0) # 标准化音频到[-1, 1]范围 audio_max np.max(np.abs(audio)) if audio_max 0: audio audio / audio_max * 0.9 duration len(audio) / self.sample_rate print(f✅ 生成完成: {duration:.1f}秒) return audio except Exception as e: print(f❌ 音频生成失败: {e}) # 返回静音音频 return np.zeros(int(duration_seconds * self.sample_rate)) # 2. 传统信号合成补充场景音效 class TraditionalAudioEnhancer: def __init__(self, sample_rate32000): self.sample_rate sample_rate def _generate_fractal_rain_noise(self, duration_seconds, noise_level0.1): 生成分形雨声 try: samples int(duration_seconds * self.sample_rate) noise np.zeros(samples) freq 1.0 octaves 4 hurst 0.5 for _ in range(octaves): t np.linspace(0, duration_seconds * freq, samples, endpointFalse) noise np.sin(2 * np.pi * t * np.random.randn()) * (freq ** (-hurst)) freq * 2 # 低通滤波 if len(noise) 0: b, a signal.butter(4, 1000, low, fsself.sample_rate) noise signal.lfilter(b, a, noise) noise_max np.max(np.abs(noise)) if noise_max 0: noise noise / noise_max * noise_level return noise except Exception as e: print(f❌ 雨声生成失败: {e}) return np.zeros(int(duration_seconds * self.sample_rate)) def enhance_audio(self, core_audio, add_rainTrue, add_reverbTrue, rain_level0.1, reverb_strength0.3): 增强核心音频 try: if len(core_audio) 0: return core_audio enhanced_audio core_audio.copy() duration len(core_audio) / self.sample_rate # 添加雨声 if add_rain: rain_noise self._generate_fractal_rain_noise(duration, noise_levelrain_level) if len(rain_noise) len(enhanced_audio): enhanced_audio rain_noise # 添加简单混响 if add_reverb and len(enhanced_audio) 0: delay_samples int(0.3 * self.sample_rate) if delay_samples len(enhanced_audio): delayed np.zeros_like(enhanced_audio) delayed[delay_samples:] enhanced_audio[:-delay_samples] * reverb_strength enhanced_audio enhanced_audio delayed # 标准化 audio_max np.max(np.abs(enhanced_audio)) if audio_max 0: enhanced_audio enhanced_audio / audio_max * 0.9 print(f✅ 音效增强完成) return enhanced_audio except Exception as e: print(f❌ 音效增强失败: {e}) return core_audio # 3. 音频可视化波形频谱情绪 class AudioVisualizer: def __init__(self, sample_rate32000): self.sample_rate sample_rate def plot_waveform(self, audio, save_pathwaveform.png, title音频波形图): 绘制波形图 try: if len(audio) 0: print(❌ 音频数据为空无法绘制波形) return duration len(audio) / self.sample_rate if duration 0: print(❌ 音频时长为0) return time np.linspace(0, duration, len(audio)) plt.figure(figsize(12, 4)) plt.plot(time, audio, color#2E86AB, linewidth0.5) plt.title(title, fontsize14) plt.xlabel(时间秒, fontsize12) plt.ylabel(振幅, fontsize12) plt.grid(alpha0.3) plt.tight_layout() plt.savefig(save_path, dpi150, bbox_inchestight) plt.close() print(f 波形图已保存{save_path}) except Exception as e: print(f❌ 波形图绘制失败: {e}) def plot_spectrogram(self, audio, save_pathspectrogram.png, title梅尔频谱图): 绘制频谱图 try: if len(audio) 0: print(❌ 音频数据为空无法绘制频谱) return # 确保音频长度足够 if len(audio) 512: print(❌ 音频太短无法计算频谱) return # 计算梅尔频谱 S librosa.feature.melspectrogram( yaudio, srself.sample_rate, n_mels128, fmax8000, hop_length512 ) S_dB librosa.power_to_db(S, refnp.max) plt.figure(figsize(12, 6)) img librosa.display.specshow( S_dB, srself.sample_rate, x_axistime, y_axismel, fmax8000, cmapviridis ) plt.colorbar(img, format%2.0f dB) plt.title(title, fontsize14) plt.xlabel(时间秒, fontsize12) plt.ylabel(频率Hz, fontsize12) plt.tight_layout() plt.savefig(save_path, dpi150, bbox_inchestight) plt.close() print(f 频谱图已保存{save_path}) except Exception as e: print(f❌ 频谱图绘制失败: {e}) def extract_emotion_features(self, audio): 提取音频情绪特征 try: if len(audio) 0: return {平静: 5.0, 快乐: 5.0, 激昂: 5.0, 悲伤: 5.0} features {} # 1. 响度确保是标量 rms librosa.feature.rms(yaudio)[0] features[loudness] float(np.mean(rms)) if len(rms) 0 else 0.0 # 2. 节奏确保是标量 try: tempo, _ librosa.beat.beat_track(yaudio, srself.sample_rate) features[tempo] float(tempo[0]) if isinstance(tempo, np.ndarray) and len(tempo) 0 else float(tempo) except: features[tempo] 80.0 # 默认值 # 3. 频谱中心 try: spectral_centroid librosa.feature.spectral_centroid(yaudio, srself.sample_rate)[0] features[spectral_centroid] float(np.mean(spectral_centroid)) except: features[spectral_centroid] 1000.0 # 4. 频谱带宽 try: spectral_bandwidth librosa.feature.spectral_bandwidth(yaudio, srself.sample_rate)[0] features[spectral_bandwidth] float(np.mean(spectral_bandwidth)) except: features[spectral_bandwidth] 1000.0 # 映射到情绪维度确保是标量 emotion_scores {} # 平静低响度低节奏窄带宽 calm 10 - (features[loudness] * 10) - (features[tempo] / 20) - (features[spectral_bandwidth] / 1000) emotion_scores[平静] float(np.clip(calm, 0, 10)) # 快乐高节奏高频谱中心 happy (features[tempo] / 20) (features[spectral_centroid] / 1000) emotion_scores[快乐] float(np.clip(happy, 0, 10)) # 激昂高响度高节奏 energetic (features[loudness] * 10) (features[tempo] / 20) emotion_scores[激昂] float(np.clip(energetic, 0, 10)) # 悲伤低频谱中心低节奏 sad 10 - (features[spectral_centroid] / 1000) - (features[tempo] / 20) emotion_scores[悲伤] float(np.clip(sad, 0, 10)) print(f 音频特征: 响度{features[loudness]:.3f}, f节奏{features[tempo]:.1f}, f频谱中心{features[spectral_centroid]:.0f}Hz) return emotion_scores except Exception as e: print(f❌ 情绪特征提取失败: {e}) return {平静: 5.0, 快乐: 5.0, 激昂: 5.0, 悲伤: 5.0} def plot_emotion_heatmap(self, emotion_scores, save_pathemotion_heatmap.png): 绘制情绪热力图 try: # 确保数据是标量 emotions list(emotion_scores.keys()) scores [] for emotion in emotions: score emotion_scores[emotion] # 确保是标量 if isinstance(score, (np.ndarray, list)): score float(score[0]) if len(score) 0 else float(score) else: score float(score) scores.append(score) colors [#A23B72, #F18F01, #C73E1D, #2E86AB] # 绘制柱状图 plt.figure(figsize(8, 6)) bars plt.bar(emotions, scores, colorcolors, alpha0.8, edgecolorblack, linewidth1.5) # 添加数值标签 for bar, score in zip(bars, scores): plt.text( bar.get_x() bar.get_width()/2, bar.get_height() 0.1, f{score:.1f}, hacenter, vabottom, fontsize12, fontweightbold ) plt.title(音频情绪维度得分, fontsize16, fontweightbold) plt.ylabel(得分0-10, fontsize14) plt.ylim(0, 10) plt.grid(axisy, alpha0.3, linestyle--) plt.xticks(fontsize12) plt.yticks(fontsize12) plt.tight_layout() plt.savefig(save_path, dpi150, bbox_inchestight) plt.close() print(f 情绪热力图已保存{save_path}) except Exception as e: print(f❌ 情绪热力图绘制失败: {e}) # 4. 主流程整合所有模块 def main(): print( * 60) print( 音乐生成与情绪分析系统 ) print( * 60) try: # 1. 定义文本提示 text_prompt 舒缓的钢琴冥想音乐轻柔的雨声背景40BPM print(f\n 音乐描述: {text_prompt}) print(f⏱️ 目标时长: {DURATION}秒) # 2. TTA大模型生成核心音频 print(\n 步骤1: 初始化TTA大模型) tta_generator TTAAudioGenerator() print(\n 步骤2: 生成核心音频) core_audio tta_generator.generate_from_text( text_prompt, duration_secondsDURATION, temperature0.8, guidance_scale3.5 ) # 保存原始生成的音频 if len(core_audio) 0: sf.write(core_audio.wav, core_audio, SAMPLE_RATE) print(f 核心音频已保存core_audio.wav ({len(core_audio)}个采样点)) else: print(❌ 核心音频生成为空) return # 3. 传统信号合成增强音频 print(\n️ 步骤3: 音效增强) enhancer TraditionalAudioEnhancer(sample_rateSAMPLE_RATE) final_audio enhancer.enhance_audio( core_audio, add_rainTrue, add_reverbTrue, rain_level0.05, # 降低雨声强度 reverb_strength0.3 ) # 4. 保存最终音频 sf.write(final_audio.wav, final_audio, SAMPLE_RATE) print(f 最终音频已保存final_audio.wav) # 5. 可视化 print(\n 步骤4: 音频可视化) visualizer AudioVisualizer(sample_rateSAMPLE_RATE) # 可视化核心音频 visualizer.plot_waveform(core_audio, core_waveform.png, 核心音频波形图) visualizer.plot_spectrogram(core_audio, core_spectrogram.png, 核心音频频谱图) # 可视化最终音频 visualizer.plot_waveform(final_audio, final_waveform.png, 最终音频波形图) visualizer.plot_spectrogram(final_audio, final_spectrogram.png, 最终音频频谱图) # 提取情绪特征并可视化 print(\n 步骤5: 情绪分析) emotion_scores visualizer.extract_emotion_features(final_audio) print(f 情绪得分) for emotion, score in emotion_scores.items(): print(f {emotion}: {score:.2f}) # 找出主要情绪 main_emotion max(emotion_scores, keyemotion_scores.get) print(f✨ 主要情绪: {main_emotion} ({emotion_scores[main_emotion]:.2f}分)) visualizer.plot_emotion_heatmap(emotion_scores) print(\n * 60) print( 音乐生成流程完成) print(生成的文件:) print( - core_audio.wav (核心音频)) print( - final_audio.wav (最终音频)) print( - core_waveform.png (核心波形图)) print( - core_spectrogram.png (核心频谱图)) print( - final_waveform.png (最终波形图)) print( - final_spectrogram.png (最终频谱图)) print( - emotion_heatmap.png (情绪分析图)) print( * 60) except Exception as e: print(f\n❌ 程序执行失败: {e}) import traceback traceback.print_exc() def quick_generate(prompt, duration10, save_nameoutput): 快速生成函数 print(f\n 快速生成: {prompt}) generator TTAAudioGenerator() enhancer TraditionalAudioEnhancer() visualizer AudioVisualizer() # 生成音频 audio generator.generate_from_text( prompt, duration_secondsduration, temperature0.9, guidance_scale3.0 ) # 增强 audio enhancer.enhance_audio(audio, add_rainFalse, add_reverbTrue) # 保存 sf.write(f{save_name}.wav, audio, SAMPLE_RATE) print(f✅ 已保存: {save_name}.wav) # 快速可视化 visualizer.plot_waveform(audio, f{save_name}_waveform.png) # 情绪分析 emotion visualizer.extract_emotion_features(audio) print(f情绪分析: {emotion}) return audio if __name__ __main__: # 运行主流程 main() # 示例快速生成不同风格的音乐 print(\n * 60) print( 示例快速生成测试) print( * 60) # 测试不同风格 test_prompts [ (欢快的电子舞曲强节奏, electronic_dance), (悲伤的小提琴独奏慢节奏, sad_violin), (激昂的摇滚吉他, rock_guitar), (放松的环境音乐自然声音, ambient_nature), ] for prompt, name in test_prompts[:1]: # 只测试第一个以节省时间 quick_generate(prompt, duration5, save_namename)

网页站点什么意思wordpress update_post_meta

网站是否必须做认证网站开发提案模板

wordpress漫画网站绵阳市三台县城乡建设局网站

甜品售卖网站网页设计seo优化排名经验

成交型网站模板网站优化含义

山东网站制作哪家好给个网站好人有好报2021

网站页面如何设计图设计开发建设网站