iis7 网站访问权限量品定制怎么发展客户-Seo优化-定安县网站建设公司

iis7 网站访问权限,量品定制怎么发展客户,怎样做网站链接,营销型网站品牌目录 1 引言 2 音乐生成任务的表示与问题设定#xff1a;谱面世界与声学世界如何握手表1 生成任务的主流表征与适用场景 3 符号音乐生成#xff1a;把“乐谱当语言”的漫长道路表2 符号域代表性工作与关键思想 4 从“生成音频”到“生成可压缩 token”#xff1a;神…目录1 引言2 音乐生成任务的表示与问题设定谱面世界与声学世界如何握手表1 生成任务的主流表征与适用场景3 符号音乐生成把“乐谱当语言”的漫长道路表2 符号域代表性工作与关键思想4 从“生成音频”到“生成可压缩 token”神经音频编解码器与离散化表3 音频离散化/表示学习的关键支撑工作5 音频域大模型自回归、掩码并行、扩散/流匹配三大范式表4 音频域生成范式对比速度、质量、可控性的代价结构6 可控生成与对齐从“能生成”到“能听懂你的话”表5 可控性“接口化”的常见手段你能控制什么取决于你把什么变成条件7 评测基准与评估体系为什么“听起来不错”无法成为科学指标表6 常见评测指标/方法与它们的“盲点”8 数据集与训练数据从“公开基准”到“版权与溯源”成为第一等约束9 统一化趋势从单任务模型到“音频基础模型”与多模态创作链10 结语未来几年真正决定路线胜负的可能是评测与合规而非模型规模参考文献与资料精选1 引言“让机器写音乐”这件事过去很长时间都像是在两种世界之间搭桥一边是乐理、谱面、结构、动机与发展这些高度抽象的符号体系另一边是声学、音色、混音、空间感与“像真的一样”的听感。直到近几年随着神经音频编解码器neural audio codec、大规模自监督表示学习、扩散模型与大语言模型式的离散序列建模在音频领域逐渐打通音乐生成开始出现一种新的统一视角无论是“谱”还是“声”都可以被编码成可学习、可生成、可对齐文本语义的表示然后用规模化模型去做条件生成与编辑。以 Google 的 MusicLM 为代表的一条路线把音乐生成写成层级式序列到序列问题并公开了 MusicCaps 数据集以推动后续研究 (arXiv)Meta 的 MusicGen 则强调单阶段的离散 token 语言模型结合 EnCodec 等音频离散化技术以更直接的生成链路换取效率与可控性 (arXiv)Stability AI 的 Stable Audio Open 则把文本到音频的大模型推进到“开放权重可追溯 Creative Commons 训练数据”的叙事中试图在可用性、可研究性与版权合规之间找到一个工程可落地的中点 (arXiv)。但当模型走出论文、进入真实创作与商业分发语境“评测”与“评估体系”就不再只是学术比赛的计分规则它会直接影响产品体验、版权争议的可辩护性、平台治理与行业合作方式。2024 年起围绕训练数据是否构成“合理使用”、输出是否“可替代”原创作品的法律争议被迅速推到台前美国唱片业相关诉讼把 Suno、Udio 等生成式音乐平台推到聚光灯下RIAA 与多家唱片公司提交的起诉文件与媒体报道不断更新细节 (Reuters)而 2025 年又出现了更“产业化”的信号部分版权方与平台达成和解与合作框架试图转向“授权模型”的路线 (Reuters)。在这种背景下音乐生成模型的综述如果只停留在“模型结构像什么”就会失焦我们必须把表示方式、训练数据、对齐方法、评测指标、人类听感实验、可控编辑能力、部署效率与合规治理放到同一个评估框架里谈才能理解为什么某些路线能产品化、某些路线更适合学术开放、某些路线在法律与伦理压力下不得不改变技术选型。本文尝试做一篇“超长但不清单化”的整合综述用较长段落解释关键技术脉络再用表格把横向对比压缩成可检索的结构化信息并在必要处引入公开论文与官方资料中可核查的事实。由于音乐生成跨越符号域、音频域、多模态对齐与人类主观评测本文也会把“评测基准”当作核心主线什么才算“更好”的音乐我们又如何在可重复的实验条件下衡量它2 音乐生成任务的表示与问题设定谱面世界与声学世界如何握手音乐生成的难点从来不只是“生成一段听起来不难听的音频”。音乐同时存在于三层结构里最底层是波形与频谱决定的“物理可听性”中间层是音色、和声、节奏、律动、混音空间构成的“风格与制作”最高层则是主题动机、段落结构、张力推进、复现与变化这些“时间尺度很长的叙事”。如果直接在波形上建模序列长度巨大、采样率高、长程依赖极难如果只在符号上建模虽然长程结构容易一些却很难自然地呈现真实音色与演唱质感。于是研究路线不断在“更抽象”与“更具体”之间摆动符号作曲模型把 MIDI/音符事件当语言音频域模型把压缩后的离散码当语言扩散模型则在连续潜空间里逐步采样把生成过程变成“逐渐去噪”的物理过程类比。一个关键的“握手”技术是神经音频编解码器SoundStream 这样的工作证明了用残差向量量化RVQ等方法可以把音频压缩成离散 token在较低码率下仍保持主观质量从而让“像语言一样的序列建模”在音频上成为可能 (arXiv)。AudioLM 进一步提出混合 token 化思路用自监督音频表征捕捉长程一致性用神经编解码 token 捕捉高保真细节从而兼顾“结构”和“听感” (arXiv)。MusicLM 把这类框架扩展到文本条件音乐生成并强调分钟级一致性与对文本的遵循度 (arXiv)。另一方面Meta 的 MusicGen 则选择“更简单的链路”直接在多个离散码流上训练单阶段 Transformer 语言模型用高效 interleaving 模式生成多码本 token减少级联模型的复杂性换取推理更直接的工程优势 (arXiv)。表1 生成任务的主流表征与适用场景表征层级典型形式优势典型短板更适合的任务符号域SymbolicMIDI、piano-roll、事件序列bar/beat/pitch/duration 等结构可控、可插入乐理先验、长程依赖更“短”音色/演唱/混音缺失落地到音频需再合成作曲草稿、配器草案、和声/旋律续写、风格迁移符号级音频域Waveform原始波形直接输出可听音乐覆盖音色与制作序列极长、训练与推理成本高、长程结构困难高保真生成但成本高、端到端带人声生成早期离散音频 tokenneural codec 的多码本 token如 RVQ可用“语言模型式”方法质量与效率折中仍需解决长程结构与语义对齐文本到音乐/音效、音乐续写、条件编辑连续潜空间扩散VAE/autoencoder latent diffusion/flow稳定训练、可做强条件控制与编辑采样步数影响速度长程结构仍是难点文本到音频、风格/音色编辑、音频到音频变换本表概括了以 SoundStream、AudioLM、MusicLM、MusicGen、Stable Audio Open 等工作所体现的表征取舍与代价结构。 (arXiv)3 符号音乐生成把“乐谱当语言”的漫长道路符号音乐生成是深度学习音乐生成最早成熟的一支因为它天然把音乐变成离散序列音符事件像 token拍号小节像分隔符和弦与调式像高层语义标签。问题在于“把 MIDI 当文本”并不等同于“音乐像语言”。音乐的并行结构和弦纵向堆叠与层级结构小节—乐句—段落更强节奏栅格与速度变化也比自然语言更具刚性约束。于是研究者不断发明更贴近音乐结构的表示与训练策略Pop Music Transformer 提出的 REMIRevamped MIDI以“bar/position”显式标注节拍推进并把 tempo、chord 等控制事件纳入序列使模型更容易学到节奏与和声的可控结构 (arXiv)。MusicBERT 则把“理解音乐”的预训练引入符号域强调 bar-level masking 等策略以减少信息泄漏说明音乐 token 的相关性结构与文本不同照搬 NLP 的 mask 方式会损害学习效果 (arXiv)。符号生成在今天仍然重要原因并不只是“学术传统”。恰恰相反当音频域模型越来越能“一键生成听起来像歌的作品”符号域反而在更专业的工作流里凸显价值它适合做结构草图、旋律动机、和弦走向、段落安排适合与 DAW/MIDI 工具链协作也更容易做“可解释、可编辑、可版权溯源”的控制至少在乐谱层面。从产业角度看很多“可控性需求”最终会回到符号层用户想要的是“把副歌升高一个全音、保持节奏与配器不变”而不是“再随机采样一次”。表2 符号域代表性工作与关键思想工作年份关键创新点与评测/可控性相关的启示Pop Music Transformer / REMI2020以 bar/position/tempo/chord 等事件构造更适配 Transformer 的音乐序列表示可控 token 的设计本身就是“评测维度”没有可控接口就难以评“可控性” (arXiv)MusicBERT2021符号音乐的大规模预训练针对音乐结构设计 masking 策略预训练让下游任务与生成可共享表征但也要求更严格的数据与任务划分 (arXiv)Theme Transformer主题条件2022/2023更显式的主题/动机条件化训练示例把“动机复现/发展”变成可评测的条件任务有助于客观指标设计 (ACM Digital Library)4 从“生成音频”到“生成可压缩 token”神经音频编解码器与离散化如果说符号域把音乐生成简化为“像写字一样写谱”那么音频域要解决的第一性问题是如何把 44.1kHz 或 48kHz 的高采样率信号变成模型可处理的序列长度早期像 OpenAI Jukebox 这样的大规模系统使用多尺度 VQ-VAE 把音频压缩成离散 code再用自回归 Transformer 在 code 序列上建模展示了分钟级连贯与带人声生成的可能性但代价是推理极慢工程门槛极高 (arXiv)。之后SoundStream 等神经编解码器路线把“高保真压缩”推进到可实时或接近实时的方向用 RVQ 与端到端训练在较低码率下取得可观主观质量且能覆盖语音与音乐等多类音频 (arXiv)。在这一基础上AudioLM 的“语义 token 声学 token”混合方案把长期结构与细节质量分担给不同 token 空间使“既像真的、又有结构”的生成更可行 (arXiv)。这段演进的意义在于音乐生成开始拥有类似 NLP 的“token 工程学”。一旦音频被稳定离散化很多在语言模型里成熟的训练技巧条件建模、引导、对齐、偏好优化、并行解码就能迁移同时评测也开始能借用“embedding 分布距离”这类更可重复的指标例如 FAD因为我们终于可以用统一的表征空间去比较生成音频与真实音频在统计意义上的距离 (Google Research)。表3 音频离散化/表示学习的关键支撑工作工作核心贡献为什么对音乐生成重要SoundStream端到端神经音频编解码器RVQ多码率把“音频→token→语言模型”的路线变得可规模化 (arXiv)AudioLM混合语义/声学 token 的层级生成框架解释了“结构一致性”和“高保真”可以由不同 token 子空间协同实现 (arXiv)MuLan音乐音频与自然语言的联合嵌入为文本条件音乐生成提供语义对齐支点也反过来用于评测相似度分数 (arXiv)5 音频域大模型自回归、掩码并行、扩散/流匹配三大范式当我们能把音乐压缩为 token 或潜变量后生成模型大致分成三类范式它们的分歧本质上是你愿意用多少推理时间换取多强的条件一致性与音质以及你把“结构”交给模型还是交给后处理与工作流。自回归AR范式把生成当作逐 token 预测优点是训练目标简单、可自然地做长上下文续写与条件插入缺点是推理速度常常被序列长度锁死。MusicGen 是这一范式在音乐生成上的代表它用单阶段 Transformer 直接生成多码本 token强调无需多级级联模型即可得到高质量样本并支持文本与旋律特征条件 (arXiv)。AudioGen 则把相似框架用于更广义的文本到音频含环境声、音效等并使用数据混合增强与 classifier-free guidance 等技术提升文本遵循与多源分离能力 (arXiv)。从评测角度看AR 模型往往在“可续写性、可条件插入性”上更自然你可以给一个短前缀让它续写也可以在 token 层做受控采样但当用户想要“快速出多个候选、反复迭代”AR 的延迟会成为体验瓶颈。掩码并行masked / non-AR范式试图用并行解码加速生成MAGNeTMasked Audio Generation using a Single Non-Autoregressive Transformer通过预测被遮蔽的 token span 并迭代填充强调在保持质量竞争力的同时大幅加速推理并讨论了与 AR、扩散之间的速度—质量折中 (arXiv)。这种路线对“产品化”尤其诱人音乐生成产品最怕用户等待等待会让“创作流”断裂但如果并行解码导致结构一致性或细节质量下降又会放大用户对“塑料感”“拼贴感”的厌恶。扩散diffusion及其变体把生成当作逐步去噪在音频领域常见做法是在 autoencoder latent 空间做扩散既降低维度又保留可编辑性。AudioLDM 把 CLAP 等语言-音频对比表征作为条件构建 latent diffusion 的文本到音频系统 (arXiv)Stable Audio Open 则采用 autoencoder T5 文本嵌入 latent-space DiT 扩散结构公开权重并强调训练数据基于 Creative Commons使研究者能在可复现实验与合规叙事中继续迭代 (arXiv)。扩散模型往往在“音色质感、局部细节、编辑能力”上表现突出但推理速度与采样步数绑定必须靠蒸馏、流匹配、少步采样或更强硬件来解决延迟问题。近期也出现用偏好优化、DPO 类方法对齐扩散音频生成的工作例如 Tango 2 讨论通过偏好数据提升概念覆盖与顺序一致性反映出“扩散也需要对齐”正在成为共识 (arXiv)。表4 音频域生成范式对比速度、质量、可控性的代价结构范式代表工作典型优势典型挑战评测侧重点更敏感于…自回归ARtoken LMMusicGen、AudioGen、AudioLM、MusicLM训练直接、可续写、条件插入自然推理慢、长音频成本高长程一致性、条件遵循度、续写连贯 (arXiv)掩码并行/非自回归MAGNeT推理更快、适合多候选探索迭代策略复杂、质量/结构折中速度—质量曲线、结构稳定性 (arXiv)扩散/流匹配latentAudioLDM、Stable Audio Open细节质感强、编辑友好、训练稳定采样慢、长程结构仍难真实感embedding 距离、人类偏好、编辑一致性 (arXiv)6 可控生成与对齐从“能生成”到“能听懂你的话”音乐生成的“可控性”比文生文更难因为用户需求往往同时作用于多个时间尺度你既想要整体风格“90 年代英伦摇滚质感”又想要和声走向“副歌转到大调并抬高张力”还想要制作细节“鼓要干一点、混响短一点”甚至想要具体结构“前奏 8 小节—主歌—副歌—间奏—再副歌”。在学术论文中可控性常被简化为“文本遵循度”或额外加入“旋律条件”“和弦条件”“节奏模板条件”。MusicLM 展示了文本与旋律双条件的风格化转换能力强调在分钟级生成中保持一致性 (arXiv)MusicGen 也支持以旋律特征进行条件控制试图把“哼唱/哨音 → 风格化成某种编曲”做成标准接口 (arXiv)符号域里REMI 的 chord/tempo 事件就是把控制显式编码进序列使控制成为“语言的一部分” (arXiv)。对齐alignment则更像是“把模型从统计拟合推到用户意图”。在文本领域这对应 RLHF 或偏好优化在音频领域偏好数据更贵、更难标注也更难获得“客观正确答案”。因此一条常见路径是用预训练的跨模态相似度模型做代理例如 CLAP 作为语言-音频对齐表征经常被用作条件编码或排序信号 (arXiv)MuLan 相似度也在 MusicLM 相关工作里被用作评测与对齐参考 (arXiv)。另一条路径是直接构造偏好数据Tango 2 通过合成偏好对来优化扩散模型的概念覆盖与顺序一致性体现了“音频对齐也在向 DPO 化”发展 (arXiv)。当我们把“可控性”视为评测维度就会发现评测体系需要同时覆盖“语义正确”“结构正确”“音质正确”“制作正确”。这也是为什么工业界产品更新时常常强调“结构更好、key 控制、stem 下载、音频到音频 remix”等功能点——因为这些点本质上是在补齐“可控性维度”的用户可感知接口。Udio 的官方更新中就明确提到 v1.5 带来 key control 等能力 (Udio)Suno 的模型时间线说明了不同版本在生成时长与结构质量上的迭代方向 (Suno帮助中心)。表5 可控性“接口化”的常见手段你能控制什么取决于你把什么变成条件控制目标常见实现方式适用域难点风格/情绪/流派文本条件引导CFG/偏好排序或跨模态嵌入条件CLAP/MuLan音频域为主文本词汇与音乐风格映射含糊主观差异大 (arXiv)旋律约束哼唱/旋律引导旋律特征条件pitch contour/embedding或提供短音频 prompt 做续写音频域/符号域“保形”与“变风格”矛盾既要像原旋律又要像目标风格 (arXiv)和弦/调式/速度在符号表示中显式加入 chord/tempo tokenREMI或在音频域用结构条件符号域更直接音频域的和声可解释性弱需要可靠的自动标注或条件提取 (arXiv)结构段落/时长分段生成级联/编辑或模型支持 variable length音频域长程一致性、段落边界过渡、主题复现难 (arXiv)7 评测基准与评估体系为什么“听起来不错”无法成为科学指标音乐生成评测的核心矛盾是我们想要可重复、可量化、可对比的指标但音乐好坏高度主观且依赖文化语境。于是评测体系几乎必然是“自动指标人类主观实验任务化可控评测”的混合体。自动指标方面文本到音频/音乐生成常用 embedding 距离或相似度FADFréchet Audio Distance用音频编码器嵌入分布之间的 Fréchet 距离衡量生成音频与真实音频的统计差异是被频繁引用的“音质/真实感”代理指标之一 (arXiv)而文本遵循度常用 CLAPScore 或 MuLan 相似度一类跨模态相似度作为代理尽管这类指标会被“投机取巧”的模型优化而失真因此更适合作为开发过程中的诊断工具而非唯一排名依据 (arXiv)。人类主观评测方面音乐生成常借用音频领域传统的 MOS、MUSHRA 或成对偏好测试让听众在同一任务条件下比较多个样本评“更像音乐”“更符合提示词”“更少伪影”“更有结构”。这里的挑战不仅是成本更是实验设计听众是否专业、播放设备是否一致、样本时长是否公平、提示词是否覆盖多风格、是否存在“新奇偏置”第一次听 AI 觉得惊艳听多了觉得空洞都会影响结果。因而一个严肃的评测体系往往要同时报告自动指标、主观偏好、以及一组可复现的任务化设置例如固定提示词集、固定时长、固定采样策略、固定后处理。特别值得强调的是MusicLM 在发布同时公开 MusicCaps 数据集本质上是把评测基准“数据化”用 5.5k 高质量音乐-文本对为“文本到音乐”提供标准测试床从而让不同模型能在相近条件下对比文本遵循与音质 (arXiv)。而 Stable Audio Open 强调训练数据的许可来源也是在评测体系里引入一个新的维度不仅要评生成质量还要评“可公开、可复现、可合法使用的训练数据”是否会显著限制上限以及在这种限制下如何设计更公平的对比 (arXiv)。表6 常见评测指标/方法与它们的“盲点”评测手段典型代表能回答的问题常见盲点真实感/分布距离embedding-basedFAD生成音频整体上有多“像真实数据分布”可能忽略音乐结构对编码器选择敏感 (arXiv)文本-音频对齐分数CLAPScore、MuLan 相似度模型是否“听懂提示词”易被对齐模型偏置影响可能奖励“标签化音效”而非音乐性 (arXiv)人类偏好成对比较/打分A/B preference、MOS、MUSHRA常见范式综合质量、音乐性、可用性成本高、可重复性差实验设计细节决定可信度播放设备/受试者/样本长度任务化可控评测固定提示词集、固定结构控制任务可控接口是否真的可控任务设计困难容易“教模型做题”而非泛化能力8 数据集与训练数据从“公开基准”到“版权与溯源”成为第一等约束音乐生成模型的训练数据一直处于“需求巨大—可公开数据有限—版权风险极高”的张力中。学术界可公开的音乐数据往往规模有限或许可复杂MusicCaps 作为 MusicLM 工作中公开的数据集规模约 5.5k对研究推动很大但对训练一个“商业级全风格”音乐模型显然远远不够 (arXiv)。更大规模的音频事件数据集如 AudioSet 与衍生的 AudioCaps 提供了丰富的音频-标签/字幕资源为“文本到音频”与音频理解提供基础但其“音乐性”与“完整歌曲结构”并非设计重点 (Google Research)。在符号域Lakh MIDI Dataset 之类的大规模 MIDI 资源为结构学习提供沃土但 MIDI 来自网络抓取与社区制作质量与版权状态更复杂研究中常以清洗子集或衍生数据形式使用这也意味着评测与复现必须谨慎对齐数据版本 (kaggle.com)。这也是为什么 Stable Audio Open 选择强调“Creative Commons 数据训练并公开权重”——它把“数据许可”作为研究叙事的一部分使后续工作能在更低法律风险下复现实验与做二次开发 (arXiv)。与之并行的是产业界的另一条路不回避版权库而是通过授权与合作把数据合法化。2024 年唱片业对 Suno、Udio 的诉讼文件与新闻报道清晰展示了版权方对“未经许可训练”的强硬态度 (Reuters)而 2025 年出现的和解/合作报道则表明行业可能在向“授权 AI 模型”过渡只是代价是更强的平台限制、下载限制与更复杂的商业条款 (Reuters)。这会反过来影响评测体系未来的“最好模型”可能不是纯技术意义上的最好而是在“质量—成本—延迟—合规—可分发”多目标下的最优折中。9 统一化趋势从单任务模型到“音频基础模型”与多模态创作链近两年一个明显趋势是把音乐生成纳入“更广义的音频生成/编辑”框架同一个模型既做文本到音效也做文本到音乐甚至做歌声、配音、音频修复与编辑。UniAudio 把多类音频生成任务统一为 token 序列建模并用多尺度 Transformer 处理过长序列强调“音频基础模型”的潜力 (arXiv)。Google DeepMind 的 Lyria 与相关工具Music AI Sandbox、MusicFX 等则体现了另一种统一把音乐生成当作创作工具链的一环与实时交互、DJ 混合、短视频创作场景结合并在官方信息中明确这些工具由 Lyria/Lyria RealTime 驱动 (Google DeepMind)。当生成不再只是“一次性采样”而是“可交互、可编辑、可实时 jam”评测体系也必然要扩展延迟、交互稳定性、可撤销编辑、一致性保持、局部替换不破坏全局结构等都将变成新的可量化指标。与此同时模型的“部署形态”正在分叉一端是开放权重、研究可复现如 Stable Audio Open另一端是封闭 API、产品化与版权合作如部分商业平台还有一端是“实验性实时 API”与创作工具如 Lyria RealTime 的实验接口叙事。不同形态会塑造不同的评估习惯开放权重社区更偏好可复现基准与公开数据商业平台更在意用户留存、创作效率与版权风险实时交互则要求以系统工程指标延迟、抖动、稳定性重塑“好模型”的定义。10 结语未来几年真正决定路线胜负的可能是评测与合规而非模型规模回看音乐生成的技术史会发现每一次“质变”几乎都来自表征与评测的共同演进有了更合适的表示REMI、neural codec token、latent diffusion模型才学得动有了更可复现的基准MusicCaps与更工程化的指标FAD、对齐分数、人类偏好实验范式社区才知道该往哪儿优化 (arXiv)。而当音乐生成走向产业化训练数据许可、版权合作与平台限制会把评测体系从“学术比较”推向“治理工具”你不仅要证明模型更好听还要证明它更可控、更可解释、更可追溯、更合规、更可部署。2024—2025 年围绕 Suno、Udio 的诉讼与和解新闻已经把这种趋势写在明面上行业在探索一条既能用 AI 扩大创作可能、又能让权利人参与分配的路径 (Reuters)。因此未来“最强的音乐生成模型”很可能不是单纯参数最大、数据最多的模型而是在可控接口、对齐策略、评测体系与合规框架上最成熟的系统。技术路线会继续百花齐放AR、并行掩码、扩散/流匹配、符号—音频混合、以及统一音频基础模型都会并行存在真正的分水岭会出现在“谁能把评估变成可产品化的工程闭环谁能把合规变成可扩展的数据策略”。参考文献与资料精选Dhariwal, P. et al.Jukebox: A Generative Model for Music. arXiv:2005.00341 (arXiv)Zeghidour, N. et al.SoundStream: An End-to-End Neural Audio Codec. arXiv:2107.03312 (arXiv)Borsos, Z. et al.AudioLM: a Language Modeling Approach to Audio Generation. arXiv:2209.03143 (arXiv)Agostinelli, A. et al.MusicLM: Generating Music From Text. arXiv:2301.11325并发布 MusicCaps (arXiv)Copet, J. et al.Simple and Controllable Music GenerationMusicGen arXiv:2306.05284 (arXiv)Kreuk, F. et al.AudioGen: Textually Guided Audio Generation. arXiv:2209.15352 (arXiv)Evans, Z. et al.Stable Audio Open. arXiv:2407.14358 (arXiv)Liu, H. et al.AudioLDM: Text-to-Audio Generation with Latent Diffusion Models. arXiv:2301.12503 (arXiv)Huang, Y.-S., Yang, Y.-H.Pop Music Transformer: Beat-based Modeling and Generation of Expressive Pop Piano Compositions含 REMI arXiv:2002.00212 (arXiv)Zeng, M. et al.MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training. Findings of ACL 2021 (ACL Anthology)Kilgour, K. et al.Fréchet Audio DistanceFAD相关引用信息在后续工作中广泛使用 (arXiv)Wu, Y. et al.Contrastive Language-Audio Pretraining (CLAP). arXiv:2206.04769 (arXiv)Yang, D. et al.UniAudio: An Audio Foundation Model Toward Universal Audio Generation. arXiv:2310.00704 (arXiv)Google DeepMind音乐生成工具与 Lyria/Lyria RealTime 相关官方页面与公告 (Google DeepMind)Udio 官方v1.5 更新说明含 key control 等 (Udio)Suno 官方模型时间线与版本信息 (Suno帮助中心)RIAA/唱片公司诉讼文件Suno、Udio 起诉状 PDF (RIAA)Reuters / AP关于 AI 音乐平台诉讼与和解合作的新闻报道 (Reuters)ReutersReutersAP NewsThe VergeReuters

iis7 网站访问权限量品定制怎么发展客户

营销型网站建设0469z企业微信平台

网站运营的重要性考上一级建造师很牛吗

江苏网站推广公司哪家好理解网络营销型网站的建设

网站设计公司名称高端科研网站设计

电商网站开发案例建站不备案

做网站排名有用吗创建好网站如何把浏览