چگونه کلام را از نویزها و صداهای دیگر تشخیص می دهیم
همشهری آنلاین؛ مطالعه جدید بومی سازی، صدای انسان را دوباره تعریف می کند. این شبکه نه تنها صداها را مشخص میکند، بلکه گفتار را هم از نویز پسزمینه جدا میکند و به این ترتیب مشکل تفکیک صدا در مهمانی های پر سر و صدا را که دستگاههای شنوایی و گوشیهای هوشمند با آن مواجه هستند، برطرف میکند.
این یافته ها می توانند در طراحی سمعک ها و دستیارهای دیجیتال متحول شوند و آنها را سازگارتر و کارآمدتر کنند.
تشخیص منبع صدا
تحقیقات نشان میدهد سمعکها و دستگاههای هوشمند را میتوان نه با تقلید از فرآیندهای پیچیده زبان انسان، بلکه با استفاده از تکنیکهای سادهتر و مستقیمتر پردازش صدا بهبود بخشید.
در دهه 1940، یک مدل مهندسی توسعه یافته نشان می دهد که چگونه انسان ها می توانند منبع صوتی را بر اساس تفاوت تنها چند ده میلیونم ثانیه در زمانی که صدا به گوش ما می رسد، مکان یابی کرد.
این مدل بر این تئوری کار می کرد که ما باید مجموعه ای از آشکارسازهای تخصصی داشته باشیم تابتوانیم تشخیص دهیم منبع صداهای مختلف از کجاست.
شبکه عصبی پراکنده حیوانات
مقاله تحقیقاتی جدیدی منتشر شده در Current Biology توسط محققان دانشگاه مک کواری در نهایت نشان داد که ایده یک شبکه عصبی اختصاص داده شده به شنوایی فضایی به تنهایی کفایت نمی کند.
نویسنده اصلی، استاد برجسته شنوایی دانشگاه Macquarie، دیوید مک آلپاین، 25 سال قبل ثابت کرده است حیوانات دیگر از شبکه عصبی بسیار پراکندهتری استفاده میکنند. اما نشان دادن آن در عمل در انسان دشوارتر بود.
چگونگی تشخیص صداها در انسان
دیوید مک آلپاین و تیمش برای اولین بار از طریق ترکیب یک آزمایش شنوایی تخصصی، تصویربرداری پیشرفته از مغز و مقایسه با مغز پستانداران دیگر از جمله میمونهای رزوس نشان دادند که انسانها هم می توانند از شبکههای سادهتری برای این کار استفاده کنند.
پروفسور مک آلپاین می گوید: ما دوست داریم فکر کنیم که مغز ما باید از هر نظر بسیار پیشرفته تر از حیوانات دیگر باشد، اما این درست به نظر نمی رسد.
در حال حاضر ما توانسته ایم نشان دهیم که ژربیل ها مانند خوکچه هندی هستند، خوکچه های هندی مانند میمون های رزوس هستند و میمون های رزوس هم از این نظر مانند انسان هستند.
شبکه عصبی تفکیک گفتار از صدا
این تیم تحقیقاتی همچنین ثابت کرد که همان شبکه عصبی، گفتار را از صداهای پسزمینه جدا میکند؛ یافتهای که هم برای طراحی دستگاههای شنوایی و هم برای دستیارهای الکترونیکی تلفنهای ما مهم به شمار می رود.
تشخیص یک صدا در فضای شلوغ برای ما دشوار است. پروفسور مک آلپاین میگوید آخرین یافتههای تیمش نشان میدهد که به جای تمرکز بر مدلهای زبان بزرگ (LLM) که در حال حاضر استفاده میشود، باید رویکردی بسیار سادهتری را در پیش گرفت.
همچنین مهم آن است که بتوانیم منبع صدا را تشخیص دهیم و برای انجام این کار، ما به مغز زبانی «عمیق ذهن» نیاز نداریم. اما حیوانات دیگر می توانند این کار را انجام دهند.
ضمن آنکه زمانی که ما در حال گوش دادن هستیم، مغز ما در تمام مدت صدا را ردیابی نمی کند؛ کاری که پردازنده های بزرگ زبان سعی در انجام آن دارند.
گام بعدی برای تیم، شناسایی حداقل اطلاعاتی است که می تواند در یک صدا منتقل شود.