音乐人工智能、计算机听觉及音乐科技-创泽

当前位置：首页 > > 音乐人工智能、计算机听觉及音乐科技

本文面向音乐科技、音乐人工智能与计算机听觉这一文理交融的新兴交叉学科，介绍其学科范畴、发展历史、研究领域、产业应用等。阐明音乐科技、声音与音乐计算、音乐人工智能、音乐信息检索MIR、计算机听觉、音乐声学等各个学科名词之间的相互关系。最后，总结学科发展面临的困难，展望其未来发展趋势。

1. 语音信息处理和声音与音乐计算

声音是人类获取信息的重要来源，可划分为语音（Speech）、音乐（Music）和一般音频/环境声（General Audio/Environmental Sound）三大类。人类的语言具有特定的词汇及语法结构，用于在人类中传递信息。语音是语言的声音载体，语音信号属于复合音，其基本要素是音高、强度、音长、音色等。音乐是人类创造的复杂的艺术形式，组成成分是各种乐音，包括歌声、各种管弦和弹拨类乐器发出的复合音、少量来自环境声的复合音以及一些来自打击乐器的噪乐音。其基本要素包括节奏（Rhythm）、旋律（Melody）、和声（Harmonic）、力度（Dynamic）、速度（Tempo）、调性（Tonality）、曲式（Form）、织体（Texture）、音色（Timbre）等。除了人类创造的语音和音乐，在自然界和日常生活中，还存在着其他数量巨大、种类繁多的声音，统称为一般音频或环境声。例如，自然界的风声、雷声、海浪声，机械设备的噪声，动物的叫声，人体的心跳、咳嗽、脉搏声，军事的枪声、炮声、爆炸声等等，不可尽数。

根据以上声音的三大种类，可以粗略地将听觉信息处理分成两块，如图1所示。专门处理语音的学科是语音信息处理，以语言声学为基础，历史悠久，发展相对成熟，已独立成为一门学科。包括计算语言学、语音识别、说话人/声纹识别、语种识别、语音增强/去噪/分离、语音合成、语音编码、语音情感计算、自然语言处理与口语对话等经典研究领域。面向音乐和一般音频信息处理的学科叫做声音与音乐计算SMC（Sound and Music Computing）[1]。该领域横跨文理，在国外已有50多年的历史，但是在国内仅有20几年历史。包含的研究领域随着时代变化也在不断扩展，而且由于涉及艺术创作，还具有一定的未知性。

2. 音乐科技概览

2.1 音乐科技

音乐与科技的融合具有悠久的历史。早在20世纪50年代，一些不同国家的作曲家、工程师和科学家已经开始探索利用新的数字技术来处理音乐，并逐渐形成了音乐科技/计算机音乐（Music Technology/Computer Music）这一交叉学科。20世纪70年代之后，欧美各国相继建立了多个大型计算机音乐研究机构，如1975年建立的美国斯坦福大学CCRMA（Center for Computer Research in Music and Acoustics）、1977年建立的法国巴黎IRCAM（Institute for Research and Coordination Acoustic/Music）、1994年成立的西班牙巴塞罗那UPF（Universitat Pompeu Fabra）大学MTG（Music Technology Group）、以及2001年成立的英国伦敦女王大学C4DM（Center for Digital Music）等。几十年的历史中，音乐科技在世界各地都逐渐发展起来，如美国的Carnegie Mellon University、Columbia University、New YorkUniversity、George Tech等大学，加拿大麦吉尔大学的CIRMMT（Centre for Interdisciplinary Research in Music Media and Technology），德国、日本、新加坡、台湾等等。欧洲由于其浓厚的人文和艺术气息，欧盟及各国政府的大力支持成为该领域的世界中心。

音乐科技在中国大陆发展较晚，大约20世纪80年代有人开始零星的研究，90年代一些音乐学院开始建立音乐科技或音乐工程专业，2000年左右在一些综合性和理工科大学开始出现一批来自计算机等信息学科的科研工作者。在中国文理分割的教育体制下，这两类人群之间横亘着巨大的学科鸿沟。艺术领域的相关人员只能运用国外的各种音乐科技软硬件产品进行音乐创作、表演、教育、理论研究，对其内在的科学技术原理知之甚少，更无法进行科技创新和产品研发。理工科领域的相关人员一般具有初级的音乐知识，但专业程度差距较大，研究集中于面向消费者的音乐科技，研发面向专业应用的音乐科技产品力不从心。

2013年12月，第一届中国声音与音乐计算研讨会CSMCW（China Sound and Music Computing Workshop）创建于复旦大学，为国内同行搭建了一个产学研交流的平台，该会议2016年更名为中国声音与音乐技术会议CSMT（Conference on Sound and Music Technology）。该会议至今已召开七届（复旦大学、清华大学、上海音乐学院、南京邮电大学、苏州大学与UCLA苏州研究院、厦门理工学院、哈尔滨工业大学），逐渐成为国内音乐科技全产业链的交流平台，为加强科技与艺术的融合，消除学科鸿沟做出了重要贡献。随着中国社会的整体发展，以及人工智能（AI）技术的持续火热，到2017年左右，音乐科技在国内开始呈现加速发展的趋势。2017年，音乐科技领域国内外的三大重要会议ISMIR（International Society for Music Information Retrieval Conference）、CSMT、ICMC（International Computer Music Conference）在上海和苏州连续举行。2018年，于中国音乐学院举办CSMT第一届音乐人工智能（Music AI）研讨会；深圳平安科技有限公司与中央民族大学建立AI作曲联合实验室；腾讯音乐娱乐集团（TME）在美国上市；大型中文综述“理解数字音乐-音乐信息检索技术综述”（CSMT 2017会议论文集，43页, 335篇文献）[3]正式发表。2019年，中央音乐学院建立音乐人工智能与音乐信息科技系，开始招收博士、硕士研究生，实行音乐与科技双导师培养制；AI科学前沿大会、北京国际电子音乐节等多个重要会议开设音乐人工智能特约报告专场；上海音乐学院开设音乐人工智能课程；本文作者在百度百科定义音乐科技、音乐人工智能、音乐信息检索MIR、计算机听觉、中国声音与音乐技术会议等五个学科词条；大型中文综述“理解数字声音-基于普通音频的计算机听觉综述”（CSMT 2018会议论文集，45页，399篇文献）[4]正式发表；第七届CSMT会议参会人数超过200人，来自70余个单位，投稿等各项指标均创历史纪录。2020年，四川音乐学院以音乐科技为突破口建立实验艺术学院；由本文作者主编55位作者联合编著的中文教材“音频音乐与计算机的交融-音频音乐技术” [5]由复旦大学出版社正式出版，全书468页，895千字。大陆的音乐科技历经坎坷，虽然进步巨大，但是在教育体制、科技评价、社会观念等各方面的制约下，至今仍然处于起步阶段。

音乐科技是音乐与科学技术的交叉学科，包含众多的研究和应用领域。在音乐方面，包括计算音乐学（Computational Musicology）、电子音乐创作与制作（Electronic Music Creation and Production）、计算机辅助的音乐教育（Computer-aided Music Education）、计算机辅助的音乐表演（Computer-aidedMusic Performance）、录音混音（Recording and Remixing）、音效及声音设计（Sound Effect and Sound Design）等。该方面的研究课题比较零散，不成理论体系，依赖于在音乐方面的具体应用，有些还涉及艺术创造。在科技方面，音乐科技指上述的声音与音乐计算，下边详细阐述，如图2右半部分所示。

2.2 声音与音乐计算

声音与音乐计算是一个庞大的研究领域，可细化为多个学科分支。其主要内容及分类在1995年的文献[1]中已有描述，本文所述内容是作者根据近年来的最新进展以及自己的理解对[1]进行补充完善而成。

（1）音乐生成（Music Generation）：包含歌声合成（Singing Synthesis）、自动作曲（AutomaticComposition）、自动编曲（Automatic Arrangement）等主要方向，需要较多的音乐知识，技术实现比较复杂。因近年来大量使用机器学习/深度学习技术，也可以通俗的称为人工智能音乐（AI Music）。歌声合成以语音合成为基础，但需考虑音乐旋律、节奏、强弱、音色、结构、情感、艺术技巧等多种音乐要素。自动作曲早期称为算法作曲，近年来进化为基于深度学习的AI作曲。自动编曲在已知主旋律的基础上编配和弦及各个声部，使其成为一首完整的作品。上述研究课题目前只能模仿音乐专业人员，尚无人类源自灵感的创作能力，且主观性较强，评价标准难以统一。

（2）声音与音乐的内容理解与分析：使用计算方法对数字化声音与音乐的内容进行理解和分析，例如音乐识谱（Music Transcription）、旋律提取（Melody Extraction）、节奏分析（Rhythm Analysis）、和弦识别（Chord Estimation）、音频检索（Audio Retrieval）、流派识别（Genre Identification）、音乐情感计算（Music Emotion Calculation）、歌手识别（Singer Identification）、歌唱评价（SingingEvaluation）、歌声分离（Vocal Separation）等。该分支在20世纪90年代末随着互联网上数字音频和音乐的急剧增加而发展起来，研究难度大，多项研究内容至今仍在持续进行中。与计算机视觉CV（Computer Vision）对应，该分支也可称为计算机听觉CA（Computer Audition）或机器听觉（Machine Listening）[2]。注意计算机听觉是用来理解分析而不是处理音频和音乐，狭义上讲不包括语音，广义上亦包括。CA若剔除一般声音而局限于音乐，则可称为音乐信息检索MIR（Music Information Retrieval）。

（3）声音与音乐信号处理：用于声音和音乐的信号分析、变换及合成，包括频谱分析（Spectral Analysis）、调幅（Magnitude Modulation）、调频（FrequencyModulation）、低通/高通/带通/带阻滤波（Low-pass/High-pass/Band-pass/Band-stop Filtering）、转码（Transcoding）、无损/有损压缩（Lossless/Lossy Compression）、重采样（Resampling）、回声（Echo）、混音（Remixing）、去噪（Denoising）、变调PS（Pitch Shifting）、保持音高不变的时间伸缩TSM（Time-scale Modification/Time Stretching）、时间缩放（TimeScaling）等。该分支相对比较成熟，已有多款商业软件如Gold Wave、Adobe Audition/Cool Edit、Cubase、Sonar/Cakewalk、EarMaster等。

（4）其它与音频音乐相关的科技领域：如声音与音乐的感知认知（Sound and Music Perception and Cognition）：研究音乐的大脑机制，对心理、情绪的影响等。一般音频/环境声的合成（Sound Synthesis）。声音与音乐的计算机接口：包括乐谱打印（MusicPrinting）、光学乐谱识别（Optical Music Recognition）、音响及多声道声音系统（Sound and Multi-channelSound System）、声音装置及多媒体技术（Sound Device and Multimedia Technology）等。音频信息安全：包括音频信息隐藏（Audio Information Hiding）、鲁棒音频水印（Robust Audio Watermarking）、音频认证（Audio Authentication）、音频取证（Audio Forensics）、声纹识别（VoiceprintRecognition）、声音伪造（Sound Forge）、音乐抄袭（Music Plagiarism）、AI音乐判别（AI Music Discrimination）等。音乐治疗（Music Therapy）：将音乐与医学、心理学、计算机相结合的典型范例。音乐机器人（Music Robot）：包括东西方各种风格的表演机器人、指挥机器人等。听觉与视觉/文本相结合的跨媒体应用（Cross-media Applications Combing Audition andVision/Text）等。

音乐科技具有众多应用，例如电声乐器、数字音源、音频工作站、计算机辅助的音乐教育、计算音乐学、音乐表演的量化分析、电子音乐创作与制作、音乐信息检索MIR、数字音乐图书馆、交互式多媒体、音频接口、辅助医学治疗、音乐机器人、音频数字水印等。

与音乐有关但是与SMC不同的另一个历史更悠久的学科是音乐声学（Music Acoustics）。音乐声学是研究在音乐这种声音振动中存在的物理问题的科学，是音乐学与物理学的交叉学科。音乐声学主要研究乐音与噪声的区别、音高音强和音色的物理本质、基于电磁振荡的电声学、听觉器官的声波感受机制、乐器声学、人类发声机制、音律学、与音乐有关的室内声学等。从学科的角度看，一部分音乐声学知识也是SMC的基础，但SMC研究更依赖于音频信号处理和人工智能-机器学习/深度学习这两门学科。同时，研究内容面向音频与音乐的信号处理、内容分析和理解，与更偏重于解决振动相关物理问题的音乐声学也有较大区别。

2.3 音乐人工智能

近年来，随着人工智能概念的火热并上升为国家战略，在音乐领域出现了音乐人工智能（Music AI）这一名词。音乐人工智能是一个通俗的略显模糊的概念，主要指以数字音乐为研究对象以AI为主要技术手段的计算机软硬件系统研发，可以看成是人工智能在音乐领域的垂直应用。音乐人工智能属于音乐科技的一部分，包括音乐生成、音乐信息检索MIR（含数十项应用）、以及所有其它涉及AI的音乐相关的技术，如图2中虚线框所示。

2.4 音乐信息检索MIR

音乐信息检索MIR是一个使用计算方法对数字音乐的内容进行理解和分析的交叉学科。它是音乐人工智能中体量最大的一个研究领域。

早期的MIR技术以符号音乐（Symbolic Music）如MIDI（Musical Instrument Digital Interface）为研究对象。由于其具有准确的音高、时间等信息，很快就发展的比较成熟。后续研究很快转为以音频信号为研究对象，研究难度急剧上升。随着该领域研究的不断深入，如今MIR技术已经不仅仅指早期狭义的音乐搜索，而从更广泛的角度上包含了音乐信息处理的所有子领域。我们根据自己的理解，将MIR领域的几十个研究课题归纳为核心层和应用层共9个部分（图3）。核心层包含与各大音乐要素（如音高与旋律、音乐节奏、音乐和声等）及歌声信息处理相关的子领域，应用层则包含在核心层基础上更偏向应用的子领域（如音乐搜索、音乐情感计算、音乐推荐等）。核心层属于高层音乐信号特性分析或低层音乐语义分析，对应于音乐心理学中的感知层次；应用层则属于高层音乐语义分析，对应于音乐心理学中的认知层次。

图3. 音乐信息检索（MIR）的研究领域

基于内容的音乐信息检索MIR有很多应用。在娱乐相关领域，典型应用包括听歌识曲、哼唱/歌唱检索、翻唱检索、曲风分类、音乐情感计算、音乐推荐、彩铃制作、卡拉OK应用、伴奏生成、自动配乐、音乐内容标注、歌手识别、模仿秀评价、歌唱评价、歌声合成及转换、智能作曲、数字乐器、音频/音乐编辑制作等。在音乐教育及科研领域，典型应用包括计算音乐学、视唱练耳及乐理辅助教学、声乐及各种乐器辅助教学、数字音频/音乐图书馆等。在日常生活、心理及医疗、知识产权等其他领域，还包括乐器音质评价及辅助购买、音乐理疗及辅助医疗、音乐版权保护及盗版追踪等应用。此外，在电影及很多视频中，音频及音乐都可以用来辅助视觉内容进行分析。以上应用均可以在电脑、智能手机、音乐机器人等各种平台上进行实现。

2.5 一般音频计算机听觉

计算机听觉是使用计算方法对数字化声音与音乐的内容进行理解和分析的交叉学科。面向音乐时称为音乐信息检索MIR，面向环境声时则称为基于一般音频的计算机听觉或AI声学。主要基础学科是各种声学、音频信号处理和人工智能-机器学习/深度学习。

（1）计算机听觉通用技术框架

从实际应用的角度出发，一个完整的CA算法系统应该包括如下几个步骤。

首先采用麦克风（Microphone）/声音传感器（Acoustic Sensor）采集声音数据；

之后进行预处理（例如将多声道音频转换为单声道、重采样、解压缩等）；

音频是长时间的流媒体，需要将有用的部分分割出来，即进行音频事件检测AED（Audio Event Detection）或端点检测ED（Endpoint Detection）；

采集的数据经常是多个声源混杂在一起，还需进行声源分离，将有用的信号分离提取出来。或至少消除部分噪声，进行有用信号增强；

然后根据具体声音的特性提取各种时域、频域、时频域音频特征，进行特征选择（Feature Selection）或特征抽取（Feature Extraction），或采用深度学习DL（Deep Learning）进行自动特征学习（Feature Learning）；

最后送入浅层统计分类器或深度学习模型进行声景（Sound Scape）分类，声音目标识别，或声音目标定位。

机器学习模型通常采用有监督学习（Supervised Learning），需要事先用标注好的已知数据进行训练。基于一般音频/环境声的CA算法设计与语音信息处理及音乐信息检索MIR技术高度类似，区别在于声音的本质不同，需要更有针对性的设计各个步骤的算法，另外需要某种特定声音的领域知识。

（2）音频事件检测与音频场景识别

音频事件（AudioEvent）指一段具有特定意义的连续声音，时间可长可短。例如笑声、鼓掌声、枪声、犬吠、警笛声等。也可称为音频镜头（Audio Shot）。音频事件检测AED，亦称声音事件检测SED（Sound Event Detection），环境声音识别ESR（Environmental Sound Recognition），旨在识别音频流中事件的起止时间（Event Onsets and Offsets）和类型，有时还包括其重要性（Saliency）。面向实际系统的AED需要在各种背景声音的干扰下在连续音频流中找到声音事件的边界再进行分类，比单纯的分类问题要更困难。

音频场景（AudioScenes）是一个保持语义相关或一致性（Semantic Consistency）的声音片段，通常由多个音频事件组成。例如，一段包含枪声、炮声、呐喊声、爆炸声等声音事件的音频很可能对应一个战争场景。对于实际应用中的连续音频流，音频场景识别ASR（Audio Scene Recognition）首先进行时间轴语义分割，得到音频场景的起止时间即边界（AudioScene Cut），再进行音频场景分类ASC（Audio Scene Classification）。ASR是提取音频结构和内容语义的重要手段，是基于内容的音频、视频检索和分析的基础。目前场景检测（Scene Detection）的研究，主要是基于图像和视频。音频同样具有丰富的场景信息，基于音频既可独立进行场景分析，也可以辅助视频场景分析，以获得更为准确的场景检测和分割。音频场景的类别并没有固定的定义，依赖于具体应用场景。例如在电影等视频中，可粗略分为语音、音乐、歌曲、环境音、带音乐伴奏的语音等几类。环境音还可以进行更细粒度的划分。基于音频分析的方法用户容易接受，计算量也比较少。

（3）基于一般音频/环境声的计算机听觉应用

基于一般音频的计算机听觉直接面向国民经济的各个领域，具有众多应用。例如：在医疗卫生领域，涉及呼吸系统疾病（咳嗽、打鼾、言语、喘息、呼吸等），心脏系统疾病，其它相关医疗（嗓音疾病、胎音和胎动、药剂吞服、血液流动、肌音）。在安防领域，涉及公共场所监控和私密场所监控。在交通运输、仓储领域，涉及铁路运输业，道路运输业（车型及车距识别、交通事故识别、交通流量检测、道路质量检测），水上运输业，航空运输业（航空飞行器识别、航空飞行数据分析），管道运输业，仓储业。在制造业领域，涉及铁路、船舶、航空航天和其他运输设备制造业，通用设备制造业（发动机、金属加工机械制造、轴承齿轮和传动部件制造、包装专用设备制造），电气机械和器材制造业，纺织业，黑色及有色金属冶炼和压延加工业，非金属矿物制品业，汽车制造业，农副食品加工业，机器人制造。在农、林、牧、渔业领域，涉及农业，林业，畜牧业。在水利、环境和公共设施管理业，涉及水利管理业，生态保护和环境治理业。在建筑业，涉及土木工程建筑业，房屋建筑业。在其它领域，涉及采矿业，日常生活，身份识别，军事目标识别等。

3. 总结与展望

音乐科技、音乐人工智能与计算机听觉以数字音乐和声音为研究对象，是声学、心理学、信号处理、人工智能、多媒体、音乐学及各行业领域知识相结合的重要交叉学科，具有重要的学术研究和产业开发价值。目前仍有大量几乎空白或没有得到充分研究的子领域。

与自然语言处理、计算机视觉、语音信息处理等相关领域相比，上述学科在国内外发展都比较缓慢。几个可能的原因包括：（1）数字音乐涉及版权问题无法公开，各种音频数据都源自特定场合和物体，难以全面搜集和标注。数据的获取及公开困难严重影响了基于机器学习/深度学习框架算法的研究及比较。（2）音乐和音频信号几乎都是多种声音混合在一起，很少有单独存在的情况。音乐中的各种乐器和歌声在音高上形成和声织体，在时间上形成节奏至曲式结构，耦合成多层次的复杂音频流，难以甚至无法分离处理。环境声音具有非平稳、强噪声、弱信号、多声源混合等特点，一个实际系统必须经过音频分割、声源分离或增强/去噪后，才能进行后续的内容分析理解。（3）该领域几乎都是交叉学科，进行音乐科技的研究需要了解最基本的音乐理论知识，进行基于一般音频的计算机听觉研究则经常需要了解相关各领域的专业知识和经验。（4）此外，作为新兴学科，还存在社会发展水平、科研环境、科技评价、人员储备等各种非技术类原因阻碍计算机听觉技术的发展。

随着中国社会经济的快速发展，年青一代受音乐教育的普及，国家对人工智能等前沿技术的重视，上述领域在近几年也出现了良好的发展势头。本文作为科普性文章，希望能使全社会更多的人有所了解，加速推动国内音频音乐技术领域在学术研究和产业应用的发展，走出一条具有中国特色的文理结合的道路，早日达到甚至超过世界先进水平。

参考文献

[1] A. Camurri, G. Depoli and D. Rocchesso, “Ataxonomy for sound and music computing”. Computer Music Journal (CMJ), 1995, 19(2):4-5.

[2] S. Dubnov, “Computer audition: An introductionand research survey”. ACM International Conference on Multimedia (ACM MM),2006, pp. 9-9.

[3] 李伟，李子晋，高永伟，“理解数字音乐-音乐信息检索技术综述”，第五届中国声音与音乐技术会议（CSMT 2017）特约报告，复旦学报（自然科学版），2018，57(3)：271-313.

[4] 李伟, 李硕, “理解数字声音-基于普通音频的计算机听觉综述”, 第六届全国声音与音乐技术会议（CSMT 2018）, 复旦学报（自然科学版）, 2019, 58(3)：269-313.

[5] 李伟，李子晋，邵曦主编，“音频音乐与计算机的交融-声音与音乐技术”，2020年1月，复旦大学出版社，89.5万字，468页。

【深度】未来5-10年计算机视觉发展趋势为何？

华南理工大学罗晶博士和杨辰光教授团队发文提出遥操作机器

实时识别卡扣成功装配的机器学习框架

基于多任务学习和负反馈的深度召回模型

张帆博士与Yiannis Demiris教授团队提出高

百度算法大牛35页PPT讲解基于EasyDL训练并部署