作者在开发 BeMyEars 的时候在一些边界条件处理上走了一些弯路, 这里会开始慢慢记录一下经验, 欢迎后来者/竞品学习.

为什么静音识别很重要?

在开发 BeMyEars 的时候其中有一个细节: 在用户主动点击静音(也就是设置音量为零)的时候还要不要进行语音识别?
我最开始的时候是这样想的, 既然选择了静音, 那么直观上感受就是没有声音了, 那么没有声音自然就不需要识别了, 看起来很符合逻辑. 而且我还特别贴心地增加了在非常小声的时候也能正常识别的功能. 后面事实证明是我想多了, 为了让静音的时候不进行识别的很多代码白写了.

上线之后用户反馈告诉我他们其实想要在静音的时候识别.
其中有些比较重要的场景:

  1. 听力障碍人士他们其实非常担心自己设备的声音会对别人造成干扰, 所以他们倾向静音的时候能进行识别. 虽然 BeMyEars 支持在非常小声的时候也能正常识别, 但是这个是作为一个普通人平时无法体会到没有听力反馈的压力, 就算是很小声, 他们还是会有一种不安全感, 他们不确信这个音量是否会对别人造成干扰.
  2. 你在图书馆的时候你想要学习一个视频, 然后没有带耳机, 那么这时候你其实是希望能够在静音状态下识别出来的.

鉴于上面的 2 个无法拒绝的场景, BeMyEars 在用户反馈之后, 就马上进行了调整上线. 也希望越来越多的软件在实现的时候, 可以考虑到这个细节.