微软开发高性能声音辨识 AI 技术！从地震、婴儿哭声、狗吠声到呼吸都能辨识，可用于智慧家居和医疗保健

微软一直走在人工智慧开发的最尖端，并与 OpenAI 合作开发和改进人工智慧产品，例如具备图像辨识功能的 Copilot（当时称为 Bing Chat）。?

然而，这家总部位于雷德蒙的科技巨头正在开发高性能的声音辨识AI技术，使 Copilot（以及任何其他 AI 模型，例如 ChatGPT）能够检测即将发生的地震、风暴等自然灾害。?

根据最近公布的一份专利，微软的新技术可以辨识各种声音，从门铃声、婴儿哭声、狗吠声到咳嗽声或呼吸困难声，甚至包括打破玻璃等不寻常的噪音。?

更吸引人的是，它可以辨识和监控环境声音，并可以进一步处理，让使用者知道自然灾害是否即将发生。?

该系统会将声音信号分解成更小的部分或片段。每个片段都经过处理，以在时间域中创建声音的标準化表示。这就像是声音随时间变化的地图。?

然后将这张地图输入到经过训练的神经网路中，神经网路是一种人工智慧。神经网路会为每个片段中的每种类型声音事件判别分数和机率。这就像猜测每个片段是什么类型的声音，以及对这种猜测有多确定。?

之后，系统会对分数和概率进行平滑处理，以消除杂讯和提高準确性。系统还会根据分析声音的数据块的大小产生不同的窗口大小的可信度值。例如，系统可能会生成一个 0.8 的可信度值，表示该片段在 1 秒的窗口内是婴儿哭泣声的可能性为 80%。?

最终，这项技术可以用于各种应用程式。在智慧家居设备中，它可以透过辨识玻璃破碎的声音来检测有人闯入房屋，或者透过辨识婴儿哭泣的声音来检测新生儿是否饑饿或难受。?

它还可用于医疗保健领域，透过辨识心跳声、咳嗽或呼吸困难来準确检测肺部或心脏疾病。但其最重要的应用之一是透过辨识和检测与自然灾害相关的声音来防止一般使用者遭受即将发生的事故。?

原始音讯讯号可能包含环境或日常声音，这些声音会形成电脑系统检测到的音讯事件，例如警笛、警报、狗吠、婴儿哭泣、枪声、爆炸、掌声或笑声等等。?

由于该技术使用神经网路，因此可以轻鬆地将其整合到人工智慧模型中，例如 Windows 上的 Copilot、ChatGPT 或市场上的任何其他模型。?

然而，在Windows上，这将是最有用的，因为一般的使用者可以用Copilot来检测自然灾害并在他们处于危险时警告他们。它还可以充当安全系统，在有人闯入家中时发出警报。

延伸阅读：咖啡厅内部镜头加上演算法，连你喝了几分钟咖啡都搞的一清二楚：AI成本越低、你我越没有隐私延伸阅读：居家远端监控产品安心採购：无线摄影机、视讯门铃对讲机产品推荐、怎么挑选？

大V推广