d.i.y.神经网络处理数据在音视频作品中的映射:数字废弃物、算法的特质性与数据唤起美学的跨虚构性

《Organised Sound》:Mapping of d.i.y. neural networks’ processing data in audiovisual compositions: digital waste, algorithms’ idiosyncrasies, and transfictionality of data-evoking aesthetics

【字体: 时间:2026年06月12日 来源:Organised Sound

编辑推荐:

  本研究以非生成式路径探索人工智能在艺术实践中的应用,聚焦于将人工神经网络(Neural Networks, NNNs)的处理数据映射至声音与视觉。该实践研究的首要目标 paradoxically(悖论式地)通过使受众直面这些无处不在却 notoriously(

  
本研究以非生成式路径探索人工智能在艺术实践中的应用,聚焦于将人工神经网络(Neural Networks, NNNs)的处理数据映射至声音与视觉。该实践研究的首要目标 paradoxically(悖论式地)通过使受众直面这些无处不在却 notoriously(臭名昭著地)不透明的算法运行过程之内在不可理解性,从而揭示其运作机制。另一目标在于将海量抽象数据作为音视频艺术创作的起点,援引那些因需利用并潜在理解此类庞杂信息而tics,以及与其他外部及抽象概念相联的声音发展起来的美学传统。

该研究的核心在于建立一种关联与交叉融合:一方面运用美学上与错误及数字故障关联的声音与视觉,另一方面使用神经网络训练中的实际"废弃物"数据——这些数据作为其运行痕迹存在。研究聚焦于创作一类音视频作品,其素材经特定人工神经网络算法训练处理数据加工或转化而成,尤以生成对抗网络(Generative Adversarial Networks, GANs)训练阶段产生的数值信息为框架。研究提出关键问题:何者构成"信息艺术"?是真实的数据使用,抑或仅是对受众产生"数据相关"心理意象的 evoke(唤起)——即经由随时间推移与数据概念形成关联的声音、视觉、符号等?

在数据唤起音乐中,表征"数据"世界的声音极少是字面意义的;正如电子音乐整体情形,"能指与所指的关系并非基于简单相似性,而是基于随时间将声音与外部概念配对的惯例"。这种声音与想象源头的关联,以及表征想象但特定媒介的音乐之出现,可能源于电子音乐对声音再物质化的需求。由此,表征非物质媒介(如数据)的声音成为某种跨虚构性(transfictionality)现象——即"至少两部作品共同指向同一虚构"的现象。

后数字美学(post-digital aesthetic)是该项目音视频作品最为倚重的传统,它从声音与观念之间高度编码化、跨虚构的关联集合中发展而来,使用超越字面意义且与数字世界之非物质性观念紧密关联的声音。然而,这些传统使用的声音多与模拟问题相关(模拟信号干扰的白噪声、不良连接中突发信号变化的原始断奏与爆音、邻近周期性电路电器感应的咔哒声等),即便与数字伪迹(如突然增益变化导致的数字咔哒声)混合,也只是经过高度 curated(策划)的特定数字"错误"。

数据驱动作品中常见对解析、扫描、过滤、分组、排序等数据处理概念的听觉表征需求,形式包括条码扫描器声、硬盘读写头声、电磁故障/咔哒/干扰声、人声朗读数据/数值信息、条码等视觉/语义数据表征、二进制编码、数学概念引用,或自指性聚焦。本研究亦尝试通过迭代运动(表征连续运行与权重值的不断重写)、离散结构(由单个 epoch 作为 distinct distinct 点而非连续过渡所致)及极简色板(以忠实度和无修饰表征原始数值信息)来满足对非物质过程进行视觉与听觉表征的需求。

研究进一步接受"数据库与叙事是天然敌人"的观念, embrace(拥抱)所呈现数据本身的抽象性及其不可理解性,而非提供清晰诠释,将此海量信息视为待体验而非待理解之物。将不可解析、不可理解的信息推向极致,引出另一核心观念:艺术之要点在于 detritus(废弃物),这与后数字与故障美学及作为材料的废弃物问题相关联——但此次以更为字面的意义。作品将通常被丢弃的训练结果、次优运行及故意推向低效的行为框定为尽可能接近字面意义的数字废弃物。

Alonso Trillo 与 Poliks 详细阐述了创造机器学习工具以"waste as overflow(作为溢出的废弃物)"的形式探索废弃物,将废弃物引入涉及音频文件上下采样过程作为处理伪迹(故障作为废弃物),以及废弃物作为被丢弃材料等。本研究共享此意图,即利用通常被丢弃或忽视的数字信息,重新思考废弃物如何成为音乐,以及任何艺术如何与 detritus(废弃物)互动。

本研究采用"人在回路中"(human-in-the-loop)的对机器学习废弃材料的再加工方式;重点不在于产物而在于过程。研究者最初希望理解神经网络内部运作的朴素期待,即假设机器学习架构中存在"隐含的音乐性",但结论是其操作规模(时间维度和信息量)与音乐或任何人类可解析结构如此迥异,一旦打开黑箱,其内容仍不可理解。因此转而聚焦呈现此不可理解性本身即值得关切的面向。

在数据选择上,研究者采用多种层次的数据:第一层为神经元激活与权重值——最抽象的数据类型,直接观察网络架构内部神经元的变化,是最大胆的"黑箱开启"故最不可理解;第二层为训练中的输出,即网络在训练过程中、达到期望准确度之前生成的样本;第三层为标准性能指标(损失、准确率等),映射至各种音乐参数,输出更嘈杂时导致更多噪声与抖动循环,图像更清晰时产生更多音高与稳定线条。

在《Noise through to twos and sevens》中,还使用从生成样本手动计算出的合成指标(熵值、信噪比、边缘强度等)驱动更多音乐参数,再次反映从混沌到秩序的渐进转变。所有数据选择均旨在将过程置于前景,无论其是否可理解。

在声化映射策略方面,三个作品呈现相当不同的方法:第一个作品采用复杂的参数映射声化方法,使用两个颗粒合成引擎、风琴循环、不同音量数字 crackle(噼啪声)及以语料库形式组织的咔哒声样本;第二个作品采用更简单的参数映射,仅聚焦单一参数,将八点分布上的点运动映射至八个对应扬声器;第三个作品则在音频维度完全不映射数据,因其目标在于展示流经神经网络神经元的信息之抽象性。

声音使用方面,混合了上述"后数字"音色与风琴录音,构成和声复杂的 drone(持续音)织体。这种纯合成与高度有机声音之间的对比,质疑了使用编码化声音来语义性表征本质上非物质且因此无声音的数据之传统做法。视觉方面则始终为数据的直接映射,即无维度损失:视觉始终完整呈现输出样本或网络内部结构,而非合成性能指标或高度缩放的抽象表征。

研究还涉及对网络的人为干预以强制产生特定故障模式:模式崩溃(适度降低 GAN 判别器学习率)、噪声输出(架构效率过低)、缓慢训练(显著降低总体学习率)、混沌输出(将学习率增至任何现实值之上)。通过约束网络至这些模式并确保非常规发展,强调其 palimpsest(重写本)性质。这种"肮脏电子学"(dirty-electronics)路径以创造性而非效率为重心,涵盖后数字、自制和 do-it-yourself(自己动手做)观念,与人类角色的重新振兴相对。

研究结论指出,该工作以较小规模回应了对表征(听觉与视觉)的需求,通过相对原始未经处理的状态呈现输出、训练数据和性能指标,使听众直面定义这些网络过程的高度抽象性,同时提供其运行的痕迹。废弃物与预期输出同样重要,可同时理解系统行为并提供与后数字运动关联的美学框架。美学与技术维度的紧密语义与概念关联使两者间产生对话与交叉融合,从而使这一艺术路径产生特别引人入胜的结果。此外,从神经网络过程而非最终输出制作艺术作品,并在此过程中保留艺术家的全部创作能动性,为非生成式路径提供了替代方案,并必然评论了将这些算法用于创造性应用的方式。未来探索将继续框定各种网络架构的特质性并尝试将其作为创造性起点,例如训练 GAN 于音频文件的 spectrograms(频谱图),生成更多频谱图再转回音频形式,探索网络内在的 imprecisions(不精确性),如因卷积核尺寸导致的网格状伪迹在转回音频时成为可用作作品节奏结构基础的规律性节奏模式。
该研究以非生成式路径探索人工智能在艺术创作中的应用,核心在于将人工神经网络(Neural Networks, NNs)处理过程中的数据映射为声音与视觉,旨在既揭示算法的不可理解性,又将其作为创造性起点。研究发表于《Organised Sound》。

研究背景方面,随着人工智能技术的普及,神经网络已成为 ubiquitous(无处不在)的技术工具,但其"黑箱"特性使得理解其内部运作成为挑战。传统上,可解释人工智能(Explainable AI, XAI)侧重于解释已训练网络的决策依据,而本研究则另辟蹊径,从艺术角度呈现训练过程的原始数据。在当代艺术语境中,"信息艺术"或"数据艺术"的界定标准模糊——究竟基于真实数据使用,抑或仅唤起受众的"数据相关"想象?研究者提出"数据唤起"(data-evoking)概念,即通过声音、视觉、符号等久而久之与数据概念形成关联的元素,构建受众对数据的心理意象。后数字美学传统为此提供了重要理论资源:该传统从数字故障中 rediscover(重新发现)噪声,将临床性声音编辑与"故障"质感并置,形成特定的声音符号体系。然而研究者指出,这些所谓"数字错误"的声音实则多为模拟信号问题的变体,其本质是"排演错误"而非真实故障,体现了一种"跨虚构性"(transfictionality)。在此语境下,研究者提出"数字废弃物"概念,将通常被丢弃的训练结果、次优运行等作为创作材料,赋予其美学价值。

研究人员开展了三方面具体创作实践。《Noise through to twos and sevens》聚焦生成对抗网络(Generative Adversarial Networks, GANs)在MNIST数据集(手写数字数据集)上的训练过程,将训练中的输出样本及合成指标(熵值、信噪比、边缘强度、归一化对比度等)映射至音频参数,使用颗粒合成引擎、风琴循环、数字噼啪声等声音元素,呈现从噪声到秩序的渐进转变。《Spin, split, spread, splatter (in eighths)》观察GAN在八点高斯分布点上的训练,将点分布运动直接映射至八声道扬声器系统的和弦结构,通过各声道对应和弦分部的叠加与否表征训练状态。《Reiterate something so many times that it changes》则深入网络最抽象的权重值层面,对同一前馈网络进行数十次重复训练,展示相同架构、相同数据、相同结果下完全不同的权重结构,直指神经网络运作超出人类逻辑的复杂性。

主要关键技术方法包括:神经网络训练与监控技术(使用PyTorch框架,Python编程语言);多层级数据提取策略(神经元激活值与权重值、训练中生成样本、性能指标、合成指标);参数映射声化技术(parameter-mapping sonification,将数据维度变化映射为声学维度变化);直接声化映射(direct sonification,如空间分布直接对应多声道布局);视觉直接映射(无维度损失的数据可视化);以及人为干扰技术(调整学习率等超参数强制产生模式崩溃、噪声输出、缓慢训练、混沌输出等特定故障模式)。

研究结果部分按论文结构呈现如下。

**1. 设置美学场景:基于数据与唤起数据的艺术** 该部分通过文献综述与理论建构,确立了研究的美学立场。分析表明,"信息艺术"的界定不在于是否使用真实数据,而在于是否成功唤起受众的数据想象;电子音乐中声音与数据概念的关联建立在跨虚构性惯例之上,而非字面相似性;后数字美学传统对"故障"声音的使用实为高度策划的模拟-数字混合体,其艺术价值在于事后关联而非经验真实性。研究进一步提出,数据驱动作品中对解析、扫描、过滤等数据处理概念的表征需求,可通过迭代运动、离散结构和极简色板等视觉策略,以及条码扫描器声、硬盘读写声、电磁干扰声等听觉策略实现。庞大数据流的不可理解性呈现,有效表征了神经网络的规模与数据解析速率,脱离了传统叙事结构。废弃物作为材料的观念将数字废弃数据(训练结果、次优运行)字面化,与后数字/故障美学形成互文。

**2. 何种数据?如何处理?** 该部分详细阐述三个作品的技术实现。在数据层面,研究确立了从抽象到具体的层级系统:权重值与激活值最为抽象(《Reiterate something so many times that it changes》),训练中的生成样本次之(《Noise through to twos and sevens》使用MNIST数据集GAN生成样本,《Spin, split, spread, splatter (in eighths)》使用八点分布GAN生成样本),性能指标最为具体(损失、准确率等标准度量)。研究强调,无论数据是否可理解,过程本身应置于前景,"算法(以及神经网络)的文化地位与能动性"需得到承认。在声化映射策略上,三个作品呈现递进的抽象程度:《Noise through to twos and sevens》采用复杂参数映射,叠加多重数据流创造整体声音运动;《Spin, split, spread, splatter (in eighths)》采用简化参数映射,单一空间参数直接对应多声道和弦;《Reiterate something so many times that it changes》则完全放弃音频映射,仅保留视觉呈现。声音设计方面,后数字音色(白噪声、数字咔哒声、正弦波蜂鸣等)与风琴录音的混合,既利用了与数据概念的传统关联,又通过有机声材质疑这种关联的必然性。视觉设计方面,始终坚持数据的直接映射(输出样本完整呈现、网络结构直接显示),作为声音抽象表征的语境补充。

**3. 让产物影响过程** 该部分讨论创作方法的反思性调整。研究人员将Bown等人的艺术家技术态度框架应用于自身实践,经历了从"我有创意目标,寻找可实现它的系统"到"展示系统可想象极限,我在其中寻找创意空间"的转变。神经网络被重新定位为"创造性行动者",其生成材料只能被"塑造"而非完全由艺术家"定义",这意味着创作能动性的部分让渡。通过人为构建网络运行低效性(模式崩溃、噪声输出、缓慢训练、混沌输出),研究强调神经网络的 palimpsest(重写本)性质——持续的擦除与书写、文本与物质媒介之间的 interplay(相互作用)。这种"肮脏电子学"方法以创造性取代效率,使技术过程与美学结果形成反馈循环:噪声数据对应白噪声声音,"肮脏"数据对应咔哒扭曲质感,"类人"输出(手写数字)对应文化传统声音(风琴)。数据集选择亦服务于此框架,采用MNIST、抽象点分布、小规模黑白频谱图等远离人类艺术创作的简单数据集,使转换过程更为清晰并赋予确定的"数据"美学。

**4. "但我们能从这团混乱中获得洞察吗?"** 该部分回应研究的认识论价值。研究人员最初期望对"可解释人工智能"有所贡献,但通过重复训练同一网络发现:不同初始化导致完全不同的权重结构,从中寻找模式本质上不可能。这一"失败"本身成为重要发现——神经网络的运作不应被简化为"问题+架构=解决方案"的范式。相比之下,训练输出的演变(从噪声到秩序)则呈现出可辨识的模式。作为"废弃物"的中间输出,充当网络状态的"痕迹"(trace),避免了与抽象权重值的直接遭遇。故意引入的错误/低效运行,使常见神经网络错误(模式崩溃、缓慢学习、梯度消失等)得以清晰呈现,"每当GANs交付与预期和编码不同的结果时,其架构的感性特质便更为 apparent(明显)"。最终,从神经网络运作中寻找模式或解释的固有困难,本身就构成一种解释:面对错误、废弃物、抽象、不可理解的海量数字,可获知这些网络不应被简单理解。

**5. 结论与未来工作** 该部分总结研究贡献并展望未来方向。研究以较小规模回应了机器学习领域对表征的需求,通过相对原始未经处理的输出、训练数据和性能指标的视听呈现,使受众直面神经网络过程的高度抽象性,同时提供其运行的痕迹。废弃物与预期输出同等重要,既有助于理解系统行为,又提供了与后数字运动关联的美学框架。美学与技术维度的紧密语义和概念关联,使两者产生对话与交叉融合。从过程而非最终输出制作艺术作品,并为艺术家保留全部创作能动性,为非生成式路径提供了替代方案,同时评论了将这些算法用于创造性应用的常规方式。

未来工作将继续框定各种网络架构的特质性作为创造性起点。一项进行中的作品训练GAN于音频文件的频谱图(spectrograms),生成更多频谱图再转回音频;该作品将探索网络内在的不精确性,如因卷积核(kernels)尺寸导致的网格状伪迹,在转回音频时成为规律性节奏模式,可用作作品节奏结构的基础。研究者期望此种d.i.y.(自己动手做)机器学习路径——使用小规模网络、训练于抽象数据(或至少与更广泛意义脱钩的数据)——能激励其他艺术家调整算法,将其视为可通过艺术评论的有趣数学对象,而非以统一方式应用的现成工具。这些算法本身保持迷人特质,尤其当使用者不局限于其市场营销的指南用途时更为如此。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号