Scientific American (Chinese Edition) Interviews 环球科学采访

The Chinese edition of Scientific American,《环球科学》(“科学美国人”中文版) interviews Dr. Luwei Yang (杨璐威博士) on “Investigating the Mysteries of Music Using Quantum Physics Methods” (《用量子力学中的方法探索音乐的奥秘》)! The interview text is reproduced below.  Source: mp.weixin.qq.com/s/1qPJ01ILlX3OhsXqoVdcvA

 

专访 | 用量子力学中的方法探索音乐的奥秘?

Original 2017-04-11 紫苏 科研圈
杨璐威博士将原本用于量子物理的谐波(harmonics)分析的方法用于自动检测音乐中的颤音。

撰文 紫苏

可能平常人看来,音乐不过是将一堆乐谱中音符转换为音频信号。但是实际上,音乐有它自己的结构和形式。对于这些音乐的特征,人们不仅可以通过定性分析(如音乐评论等),也可以利用数学方法来进行定量分析。

音乐数学建模是通向计算音乐和大规模自动化分析音乐的第一步:它不仅能让我们理解乐曲中的不同模式,也让我们理解音乐中的总体趋势。

来自的伦敦玛丽女王大学数字音乐中心的杨璐威博士将原本用于量子物理里的谐波(harmonics)分析的方法——过滤对角方法(FDM),来自动检测音乐中的颤音。单论检测准确度来说,在帧水平上,提高了30%以上;在音符水平上,提高了一倍以上。论文发表于(论文信息见文末)。

杨璐威在演奏二胡

《环球科学》的记者就这篇论文采访了杨璐威博士:

您的这篇论文的主旨是克服音乐的颤音问题是么?那么什么是颤音呢?

璐威:颤音是指音高在一定频率范围内的周期变化。它是音乐演奏中常用的技法之一,常见于弦乐、声乐、管乐中等(弦乐中的颤音也叫揉弦)。颤音一般不在乐谱中标记,因此,音乐家更能自由地让颤音出现在乐曲中的任何位置和控制颤音的快慢和大小。它能反映不同音乐文化、音乐时期、甚至是不同演奏家的音乐风格。

我们先听一段包含较多颤音的音乐片段

颤音的频率一般是在4-8Hz之间。前人一般使用的方法是对基频时序信号运用短时傅里叶变换(STFT),在频谱中4-8Hz频段里找寻是否有极值的方法来判断颤音的存在。考虑到傅立叶变换的不确定性原理(uncertainty principle),如果要想在如此小的频段上寻找极值,最完美的方法就是得到一个频域分辨率很高的频谱图。并且一般情况下,需要增加窗的长度。如果窗的长度增加了,时域上的分辨率就会下降。

为什么您在研究中选择了二胡和小提琴,在二胡的颤音更为多见么?

璐威:在中国,二胡也被称为“中国的小提琴”。这两种来自不同文化的乐器有许多相似之处。比如,这两种乐器都是拉弦乐器;它们在各自的音乐文化中都占有重要的地位。但是这两种乐器也有不同的地方:二胡没有指板,小提琴没有蟒皮(蛇皮);二胡的把位多,小提琴的弦多 (见下图)。这些种种相同和不同都使得对比这两种乐器充满了奇妙之处。而且双方的乐器,都有演奏过对方的乐曲;比如小提琴版的《二泉映月》,二胡版的《流浪者之歌》。但是单从颤音上来说,是不能单纯地说二胡的颤音数量比小提琴多的。

二胡的构造(图片来自网络)
小提琴的构造(图片来自网络)

在我的另一篇论文(Luwei Yang, Elaine Chew and Khalid Z. Rajab. Vibrato Performance Style: A Case Study ComparingErhu and Violin. In Proc. of the 10th International Conference on ComputerMusic Multidisciplinary Research (CMMR), pp: 904-919, October 2013.)里,二胡的颤音幅度要比小提琴大很多。原因有可能是二胡没有指板,演奏员有更多的自由去发挥。

您是怎么想到这个方法的?听说这个方法最早用于量子物理?似乎只是因为试用?

璐威:当时我们在试了前人的方法后,就想能不能找到一个在时域和频域上都能获得很好分辨率的方法。在量子力学中,FDM(滤波器对角化)一般用于核磁共振来检测化学分子的场景中。在核磁共振中,通过分析分子的谐波来确定分子。这种情况下分子的谐波一般都很短,一般的短时傅里叶变换很难运用到这些很短的信号中。由此,FDM的方法应运而生。我的二导师是研究天线的,他们那边恰巧有把FDM用到天线阵列的优化中。就在我各种试用不同方法的时候,我的二导师就让我试试FDM的效果如何。后来发现FDM的方法,特别适用于颤音检测和分析中。其有两点:1. 只用建立一个频带很窄的矩阵,从而避免了很大的运算开销。如,2-20Hz的频带;2. 可以直接找到谐波的频率和幅度,从而去掉了频谱上找极值这一步。

颤音检测

 

FDM 频谱分析

你是怎么决定做这个课题的,听说您很喜欢演奏?

璐威:当时选择做这个项目也是机缘巧合。因为我从小业余学习二胡,对中国音乐略知一二。本科大四快毕业的时候得知我导师 Elaine Chew(周瑜年)在做一个中西方音乐对比的课题,我对这种交叉学科比较感兴趣,再加上自己拥有的工科和二胡背景,所以就决定试一试。在伦敦读博阶段,我也经常参加一些表演活动,如中国新年晚会和我们实验中心(伦敦玛丽女王大学数字音乐中心)的演奏会等。

研究团队简介

杨璐威  (Luwei Yang): 本科就读于北京邮电大学,后在英国伦敦玛丽女王大学获得博士学位,现就职于华为技术有限公司,高级研究工程师

Elaine Chew(周瑜年):作者导师,伦敦玛丽女王大学教授

Khalid Z. Rajab:作者合作导师,伦敦玛丽女王大学讲师

Elaine Chew
Khalid Z. Rajab

相关论文信息

标题 The filter diagonalisation method for music signal analysis: frame-wise vibrato detection and estimation
作者 Luwei Yang, Khalid Z. Rajab & Elaine Chew
期刊 Journal of Mathematics and Music
发表日期 Published online: 14 Mar
DOI: http://dx.doi.org/10.1080/17459737.2016.1263897
摘要 We present a novel approach to frame-wise vibrato detection and estimation in music signals using the Filter Diagonalisation Method (FDM). In contrast to conventional fast Fourier transform-based methods, the FDM’s output remains robust over short time frames, allowing frame sizes to be set at values small enough for accurately identifying local vibrato characteristics and pinpointing vibrato boundaries. FDM decomposes the local fundamental frequency into sinusoids and returns their frequencies and amplitudes, which the system uses to determine vibrato presence and vibrato parameter values. We test two decision mechanisms – the decision tree and Bayes’ Rule – for vibrato detection. The systems are tested against state-of-the-art techniques on monophonic datasets consisting of string, woodwind, brass, and voice excerpts. In addition to using existing datasets, we have created a new monophonic dataset consisting of performances of an entire music piece on erhu and violin, with annotations of vibrato presence and parameters. We show that FDM-based techniques consistently yield the best results in both frame-level and note-level evaluations. Furthermore, FDM with Bayes’ Rule leads to better F-measure results – 0.84 (frame-level), 0.41 (note-level) – than FDM with decision tree – 0.80 (frame-level), 0.31 (note-level). FDM’s accuracy for determining vibrato rates is above 92.5%, and for vibrato extents is about 85%.
链接 http://www.tandfonline.com/doi/abs/10.1080/17459737.2016.1263897

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s