多人电话或视频会议录音里七八个人说话，怎么把每个人说的话分清楚？

十个人的电话会议，一个小时的录音。结束之后你需要整理成纪要，但录音里基本听不出谁是谁——有人电话接入、有人会议室扩音器接入、有人在外面声音断断续续，七八个声音混在一起。这篇讲多人会议录音的说话人区分，这是录音整理里最难也最常被问到的事情之一。

为什么多人会议说话人区分这么难？

说话人区分是个技术活，但根本原因在于录音本身就有天然限制：

电话和扩音器压缩了声音特征。人声的辨识依赖音色、音调、节奏等特征，但电话接入之后，很多声音特征在编码压缩过程中损失了。十个人通过电话接入，可能只剩下三四种听起来"可区分"的声音。

多人同时接入混成一轨。很多会议平台把所有人的声音混成一个音频流输出，各路声音的强弱由网络条件决定，声音大的盖掉声音小的，没有发言时的背景噪音也混进来。

发言之间的过渡不清晰。"说完一人说下一人"听起来很简单，实际上电话会议里两段发言之间的停顿可能不到一秒，有时候上一个人还没说完下一个人就插进来了，界限很模糊。

人名本身也是信息。知道"这段话是A说的"，才知道这句话的分量和后续归属。如果分不清说话人，纪要里就只能写"某位与会者表示"，这种纪要的参考价值大打折扣。

主持人可能不点名。会议主持人能点名的段落（"请张总来说一下"）是区分说话人的最好线索。但有些会议主持人不点名，就算来了线索，也要对上声纹和说话风格。

说清楚这件事，比给一个乐观承诺更有用：

发言活跃、声音特征明显的参与者通常可以区分。如果这个人全程说了很多话，声音特征有辨识度，在录音质量过得去的前提下，可以做到比较准确的归属。

只说了一两句话的参与者，难度很大。信息量太少，声纹参考不够，又没有主持人点名作为锚点。这种情况下通常标注"[发言人未确定]"，不强行归属。

声音非常接近的两个人，可能真的分不清。有时候两个人说话音色、语速很接近，特别是电话音质下，只能如实标注"可能是A或B，待确认"。

提供与会名单+座位/接入顺序，能大幅提高准确率。整理开始前给一份与会名单（包括接入方式：电话/视频/现场），辅助在关键有声纹锚点的地方对应上人名，后续相对说话多的参与者就能延伸区分。

音质差的段落只能退而求其次。多人抢话、信号断续、噪音盖声的段落，无论用什么方法，都有无法区分的概率。遇到这种情况，会标注"该段落多人说话，无法确定归属"，不会随机归属。

准备工作比整理本身更重要。开始整理之前，给到这几样信息：与会名单（姓名或职位）、接入方式（电话/视频接入的各是谁）、大致的发言顺序或轮流规则（如果有的话）、会议里有没有点名的段落时间点。信息越完整，区分结果越准确。

决定说话人标注的粒度。可以区分到姓名，也可以区分到职位（"财务"、"运营"），也可以区分到"甲方/乙方"或者"己方/客户"。根据纪要的用途选择合适的粒度，不必每场都精确到人名。

结合主持人发言找锚点。主持人说"请X来说一下"，这是最可靠的锚点，整理时优先处理这些段落，以此为基础向前后延伸。

对不确定的归属用格式区分。能确定的发言用"A：……"标注，不确定的用"[可能是A/B]：……"标注，方便你后来自己核实。

多人电话/视频会议录音的整理，可以做：按说话人区分的逐字稿或摘要、不确定归属的段落标注、时间轴辅助（方便核查原始录音）。提供与会名单后，区分准确率会有明显提升。最终交付格式按你的需求定，Word、TXT、Excel 都行。

需要说明：说话人区分不是百分百准确的，受录音条件约束，会有部分段落无法确认归属，这些段落会标注清楚。整理后你可以拿着时间轴去对应录音段落核实。

Q：一场会议里有外国人，说的是英语，怎么处理？

A：如果是中英混说的会议，整理成对应语言的文字，不额外翻译。如果需要翻译成中文，是另一项工作，可以沟通需求。纯英语段落的说话人区分逻辑和中文相同，不受语言影响。

Q：会议里有人在外面开车，声音又小又嘈杂，这种能处理吗？

A：这是最难处理的情形之一。声音小+背景噪音的组合，能整理出多少取决于具体音质。建议先发一段样本试听，评估之后告诉你这段能不能做、做到什么程度，再决定是否接手整理。

Q：我有这场会议的参与者名单和她们签到的顺序，这个对整理有用吗？

A：非常有用。签到顺序辅助判断每个人接入的时间点，加上名单，可以在发言开始时做最初的声纹关联。请在提交录音时一起提供，整理效率会明显提升。