十个人的电话会议,一个小时的录音。结束之后你需要整理成纪要,但录音里基本听不出谁是谁——有人电话接入、有人会议室扩音器接入、有人在外面声音断断续续,七八个声音混在一起。这篇讲多人会议录音的说话人区分,这是录音整理里最难也最常被问到的事情之一。

为什么多人会议说话人区分这么难?

说话人区分是个技术活,但根本原因在于录音本身就有天然限制:

电话和扩音器压缩了声音特征。人声的辨识依赖音色、音调、节奏等特征,但电话接入之后,很多声音特征在编码压缩过程中损失了。十个人通过电话接入,可能只剩下三四种听起来"可区分"的声音。

多人同时接入混成一轨。很多会议平台把所有人的声音混成一个音频流输出,各路声音的强弱由网络条件决定,声音大的盖掉声音小的,没有发言时的背景噪音也混进来。

发言之间的过渡不清晰。"说完一人说下一人"听起来很简单,实际上电话会议里两段发言之间的停顿可能不到一秒,有时候上一个人还没说完下一个人就插进来了,界限很模糊。

人名本身也是信息。知道"这段话是A说的",才知道这句话的分量和后续归属。如果分不清说话人,纪要里就只能写"某位与会者表示",这种纪要的参考价值大打折扣。

主持人可能不点名。会议主持人能点名的段落("请张总来说一下")是区分说话人的最好线索。但有些会议主持人不点名,就算来了线索,也要对上声纹和说话风格。

说话人区分能做到什么程度?

说清楚这件事,比给一个乐观承诺更有用:

发言活跃、声音特征明显的参与者通常可以区分。如果这个人全程说了很多话,声音特征有辨识度,在录音质量过得去的前提下,可以做到比较准确的归属。

只说了一两句话的参与者,难度很大。信息量太少,声纹参考不够,又没有主持人点名作为锚点。这种情况下通常标注"[发言人未确定]",不强行归属。

声音非常接近的两个人,可能真的分不清。有时候两个人说话音色、语速很接近,特别是电话音质下,只能如实标注"可能是A或B,待确认"。

提供与会名单+座位/接入顺序,能大幅提高准确率。整理开始前给一份与会名单(包括接入方式:电话/视频/现场),辅助在关键有声纹锚点的地方对应上人名,后续相对说话多的参与者就能延伸区分。

音质差的段落只能退而求其次。多人抢话、信号断续、噪音盖声的段落,无论用什么方法,都有无法区分的概率。遇到这种情况,会标注"该段落多人说话,无法确定归属",不会随机归属。

整理多人会议录音时的操作建议

准备工作比整理本身更重要。开始整理之前,给到这几样信息:与会名单(姓名或职位)、接入方式(电话/视频接入的各是谁)、大致的发言顺序或轮流规则(如果有的话)、会议里有没有点名的段落时间点。信息越完整,区分结果越准确。

决定说话人标注的粒度。可以区分到姓名,也可以区分到职位("财务"、"运营"),也可以区分到"甲方/乙方"或者"己方/客户"。根据纪要的用途选择合适的粒度,不必每场都精确到人名。

结合主持人发言找锚点。主持人说"请X来说一下",这是最可靠的锚点,整理时优先处理这些段落,以此为基础向前后延伸。

对不确定的归属用格式区分。能确定的发言用"A:……"标注,不确定的用"[可能是A/B]:……"标注,方便你后来自己核实。

能帮上什么

多人电话/视频会议录音的整理,可以做:按说话人区分的逐字稿或摘要、不确定归属的段落标注、时间轴辅助(方便核查原始录音)。提供与会名单后,区分准确率会有明显提升。最终交付格式按你的需求定,Word、TXT、Excel 都行。

需要说明:说话人区分不是百分百准确的,受录音条件约束,会有部分段落无法确认归属,这些段落会标注清楚。整理后你可以拿着时间轴去对应录音段落核实。

FAQ

Q:一场会议里有外国人,说的是英语,怎么处理?

A:如果是中英混说的会议,整理成对应语言的文字,不额外翻译。如果需要翻译成中文,是另一项工作,可以沟通需求。纯英语段落的说话人区分逻辑和中文相同,不受语言影响。

Q:会议里有人在外面开车,声音又小又嘈杂,这种能处理吗?

A:这是最难处理的情形之一。声音小+背景噪音的组合,能整理出多少取决于具体音质。建议先发一段样本试听,评估之后告诉你这段能不能做、做到什么程度,再决定是否接手整理。

Q:我有这场会议的参与者名单和她们签到的顺序,这个对整理有用吗?

A:非常有用。签到顺序辅助判断每个人接入的时间点,加上名单,可以在发言开始时做最初的声纹关联。请在提交录音时一起提供,整理效率会明显提升。