داتا
منو موبایل

داتا

تعریف AGI با عدد؛ معرفی مدل امتیازدهی شناختی

سال‌هاست تعریف هوش مصنوعی عمومی میان پژوهشگران مانند سایه‌ای روی دیوار جابه‌جا می‌شود؛ نسل‌های تازه مدل‌ها می‌رسند و ادعا می‌کنند پیشرفتی رقم زده‌اند؛ اما هنوز روشن نیست دقیقاً از چه سخن می‌گوییم. در چنین فضایی توجه‌ها به سمت پژوهشگرانی می‌رود که از نزدیک با چالش‌های فنی این حوزه درگیر بوده‌اند. مقاله تازه‌ای از دن هندریکس و جمعی از محققان برجسته، از جمله داون سانگ، یوشوا بنجیو، گری مارکوس و اریک اشمیت، تلاشی است برای ارائه تعریفی روشن‌تر و قابل‌اتکا از AGI.

این پژوهش که در اکتبر ۲۰۲۵ در arXiv منتشر شده، می‌کوشد به‌جای تکیه بر برداشت‌های مبهم، یک چارچوب کمی برای سنجش هوش عمومی مصنوعی ارائه کند؛ چارچوبی که توانایی‌های شناختی سیستم‌ها را با توانایی‌های یک فرد بزرگسال تحصیل‌کرده مقایسه می‌کند. نویسندگان یادآور می‌شوند که AGI هدف نهایی بسیاری از پژوهش‌های هوش مصنوعی است؛ سیستمی که بتواند طیف گسترده‌ای از وظایف ذهنی را در سطح انسان انجام دهد. بااین‌حال، این عنوان تاکنون فاقد تعریفی واحد بوده است.

برای رفع این ابهام، مقاله به نظریه کتل-هورن-کارول (CHC) تکیه می‌کند. مدلی شناخته‌شده در روان‌شناسی که بر پایه بیش از یک قرن آزمون‌های شناختی شکل‌گرفته و ساختار هوش انسان را در قالب سلسله‌مراتب توانایی‌ها توضیح می‌دهد. از هوش عمومی در رأس تا مهارت‌های جزئی‌تر در سطوح پایین‌تر.

امتیاز AGI و تقسیم‌بندی به ده حوزه شناختی

این مقاله نظریه CHC را به یک «امتیاز ۱۰۰ نمره‌ای AGI» تبدیل می‌کند؛ به این معنا که کسب امتیاز کامل نشان می‌دهد یک مدل هوش مصنوعی در تمام حوزه‌های شناختی به سطح یک انسان بزرگسال تحصیل‌کرده رسیده است. ساختار ارزیابی شامل ده حوزه شناختی است و هر کدام دارای ۱۰ امتیاز که بر پایه آزمون‌های روان‌سنجی انسانی طراحی شده‌اند. آزمون‌هایی شبیه تست‌های IQ اما طراحی‌شده برای مدل‌های هوش مصنوعی. این سنجش چندوجهی است و ورودی‌های متنی، تصویری، شنیداری و حتی ویدئویی را در بر می‌گیرد.

نتایج اولیه قابل توجه‌اند. مدل GPT-4 (2023) تنها ۲۷٪ از امتیاز کل را کسب کرده است؛ درحالی‌که GPT-5  در سال ۲۰۲۵ به ۵۷٪ رسیده است. این جهش اما یکنواخت نیست؛ برخی توانایی‌ها رشد چشمگیر داشته‌اند و برخی همچنان عقب مانده‌اند؛ به‌ویژه حافظه بلندمدت که در هر دو مدل تقریباً صفر ارزیابی شده است.

در بخش‌های بعدی مقاله، هر ده حوزه شناختی همراه با مثال‌ها، روش‌های سنجش و عملکرد مدل‌ها توضیح داده می‌شود؛ حوزه‌هایی که هر کدام ۱۰ درصد از کل امتیاز AGI را تشکیل می‌دهند.

حوزه‌های ده‌گانه شناختی

۱. دانش عمومی (K)

این حوزه شامل دانش عمومی موردانتظار از یک فرد تحصیل‌کرده است؛ از جمله عقل سلیم؛ علوم؛ علوم اجتماعی؛ تاریخ و فرهنگ. هر زیرشاخه ۲ امتیاز ارزش دارد.

نمونه پرسش‌ها اینگونه هستند: «اگر یک بطری شیشه‌ای روی بتن بیفتد چه می‌شود؟» یا «پنج ویژگی شخصیتی بزرگ چیست؟»  برای سنجش هم از معیارهایی مانند PIQA برای عقل سلیم و آزمون‌های AP برای علوم استفاده می‌شود. حد مطلوب عملکرد ۸۵٪ یا بیشتر است.

مدل GPT-4 در این حوزه امتیاز ۸٪ گرفته و در موضوعات فرهنگی عملکرد ضعیفی داشته است؛ GPT-5 به ۹٪ رسیده؛ اما همچنان در تشخیص ارجاعات فرهنگی مشکل دارد. نتایج نشان می‌دهد این مدل‌ها در حوزه‌هایی شبیه دانش دایرةالمعارفی قوی‌اند؛ اما هنوز در تشخیص ظرایف فرهنگی که از تجربه زیسته انسان می‌آید ضعف دارند.

ModelCommonsense (2%)Science (2%)Social Science (2%)History (2%)Culture (2%)Total
GPT-42%2%2%2%0%8%
GPT-52%2%2%2%1%9%

۲. خواندن و نوشتن (RW)

این حوزه شامل تخشیص حروف و واژه‌ها، درک متن، توانایی نوشتن و تسلط بر کاربرد زبان (انگلیسی) است. مثال‌ها شامل تشخیص حرف افتاده در یک واژه یا نگارش یک پاراگراف ساده است. برای سنجش درک مطلب از WinoGrande  استفاه شده و برای ارزیابی توانایی نگارش از استانداردهای GRE استفاده می‌شود.

مدل GPT-4 در این حوزه ۶٪ گرفته که این عملکرد ضعیف ناشی از مشکلاتی در پردازش جزئیات در سطح توکن (Token) و همچنین دشواری در پردازش و درک متن‌های بلند بود. اما GPT-5 به دلیل بهبود پنجره زمینه (Context Window) و دقت بالاتر ۱۰٪ را کامل دریافت کرده است. در این حوزه نویسندگان به پدیده «کوری زیررشته‌ای» (Sub-string Blindness) اشاره می‌کنند. این مشکل از آنجا ناشی می‌شود که مدل، متن را به‌صورت قطعه‌قطعه پردازش می‌کند و قادر نیست تغییرات کوچک را در کل ساختار متن به‌خوبی لحاظ و ارزیابی کند.

ModelLetters (1%)Reading (3%)Writing (3%)Usage (3%)Total
GPT-40%2%3%1%6%
GPT-51%3%3%3%10%

۳. فهم ریاضی (M)

این حوزه شامل حساب، جبر، هندسه، احتمال و حسابان است که هر بخش ۲ درصد امتیاز دارند. آزمون‌ها شامل GSM8K برای مبانی و MATH برای مسائل پیشرفته است.

مدل GPT-4 در این حوزه تنها ۴٪ گرفته؛ GPT-5 تمام امتیاز ۱۰٪ را کسب کرده است. مقاله اشاره دارد که مدل‌ها غالباً با تطبیق الگوها در ریاضیات عمل می‌کنند؛ به همین دلیل در مسائل تکراری قوی‌اند اما در مسائل جدید یا هندسه‌های غیرعادی ضعیف‌تر ظاهر می‌شوند.

ModelArithmetic (2%)Algebra (2%)Geometry (2%)Probability (2%)Calculus (2%)Total
GPT-42%1%0%1%0%4%
GPT-52%2%2%2%2%10%

۴. استدلال در لحظه (R)

مربوط به حل مسائل جدید بدون اتکا به الگوهای از پیش آموخته. زیرمهارت‌ها: قیاس ۲٪؛ استقرا ۴٪؛ نظریه ذهن ۲٪؛ برنامه‌ریزی ۱٪؛ انطباق ۱٪. مثال‌ها شامل پازل‌های منطقی؛ ماتریس‌های ریون و برنامه‌ریزی سفر است.

امتیاز GPT-4 در این بخش صفر درصد بوده است. البته GPT-5 به ۷٪ رسیده اما هنوز در انطباق امتیازش صفر است. آزمون‌های نظریه ذهن بررسی می‌کنند که آیا مدل می‌تواند باورهای متفاوت افراد را تشخیص دهد. GPT-5 برخی از این موارد را حل می‌کند.

ModelDeduction (2%)Induction (4%)Theory of Mind  (2%)Planning (1%)Adaptation (1%)Total
GPT-40%0%0%0%0%0%
GPT-52%2%2%1%0%7%

۵. حافظه کاری (WM)

حفظ و پردازش اطلاعات در لحظه. شامل حافظه متنی ۱٪؛ شنیداری ۲٪؛ بصری ۴٪؛ چندوجهی ۲٪. مثال‌ها: حفظ رشته اعداد؛ تغییر عبارات؛ پاسخ به سؤالات از یک فیلم کامل.

مدل GPT-4 در این حوزه ۲٪ و GPT-5 ۴٪ گرفته است. آزمون‌های ویدئویی یکی از سخت‌ترین بخش‌ها هستند؛ مدل‌ها توانایی «تماشای» یک فیلم کامل را ندارند و این محدودیت باعث خطای زیاد می‌شود. این حوزه ضعف مدل‌ها در نگه‌داری زمینه در گفتگو را توضیح می‌دهد.

ModelTextual (2%)Auditory (2%)Visual (4%)Cross-Modal (2%)Total
GPT-42%0%0%0%2%
GPT-52%0%1%1%4%

۶. حافظه بلندمدت؛ ذخیره‌سازی (MS)

توانایی یادگیری پایدار و تثبیت اطلاعات. شامل مهارت‌های تداعی‌گر ۴٪؛ معنادار ۳٪؛ و کلمه‌به‌کلمه ۳٪. آزمون‌ها شامل بازآوری پس از ۴۸ ساعت یا یک هفته است.

هر دو مدل در این بخش امتیاز صفر گرفته‌اند؛ مقاله آن را یک «نقص حیاتی» توصیف می‌کند. مدل‌های کنونی اطلاعات را تثبیت نمی‌کنند و یادگیری واقعی ندارند؛ به همین دلیل پس از فاصله زمانی طولانی عملکرد مشابه قبل و بدون تغییر دارند.

ModelAssociative (4%)Meaningful (3%)Verbatim (3%)Total
GPT-40%0%0%0%
GPT-50%0%0%0%

۷. حافظه بلندمدت؛ بازیابی (MR)

توانایی بیرون‌کشیدن دانش به شکل روان و دقیق. شامل روانی و سادگی بازیابی اطلاعات ۶٪ و مدیریت توهمات یا همان دقت دسترسی به اطلاعات ۴٪. مثال‌ها: تولید ایده در ۶۰ ثانیه یا تشخیص اطلاعات جعلی.

مدل GPT-4 و GPT-5 هر دو ۴٪ گرفته‌اند؛ روان بودن قابل‌قبول است اما میزان توهمات بالا باقی مانده است. این حوزه بادقت و راست‌گویی مدل مرتبط است.

ModelFluency (6%)Hallucinations (4%)Total
GPT-44%0%4%
GPT-54%0%4%

۸. پردازش بصری (V)

کار با تصاویر و ویدئو. شامل ادراک ۴٪؛ تولید ۳٪؛ استدلال ۲٪؛ اسکن ۱٪. مثال‌ها: کپشن‌نویسی؛ تشخیص ناهنجاری ویدئو.

 مدل GPT-4 صفر و GPT-5 تنها 4درصد کسب کرده است. برخی آزمون‌های تولید، ضعف در خلاقیت یا نقشه‌برداری فضایی را نشان می‌دهند.

ModelPerception (4%)Generation (3%)Reasoning (2%)Spatial Scanning (1%)Total
GPT-40%0%0%0%0%
GPT-52%2%0%0%4%

۹. پردازش شنیداری (A)

تشخیص؛ ترکیب و تحلیل صدا. شامل آوایی ۲٪؛ تشخیص گفتار ۲٪؛ صدا ۲٪؛ ریتم ۲٪؛ قضاوت موسیقی ۲٪.

GPT-4 صفر و  GPT-5 توانسته 6%  امتیاز کسب کند. آزمون‌های ریتم و زمان‌بندی همچنان یک چالش بزرگ برای مدل‌های هوش مصنوعی محسوب می‌شوند  و هر دو مدل ۰٪ کسب کرده‌اند. این ضعف به دلیل فاقد بودن حس زمان درونی (Intrinsic Sense of Time) در ساختار این مدل‌ها است. مدل‌ها در پردازش داده‌های متوالی قوی هستند، اما در درک ظرایف زمان‌بندی دقیق و ریتمیک مانند آنچه در موسیقی یا تشخیص سرعت صحبت وجود دارد، دچار مشکل می‌شوند.

ModelPhonetic (1%)Speech Recognition (4%)Voice (3%)Rhythmic (1%)Musical (1%)Total
GPT-40%0%0%0%0%0%
GPT-50%4%2%0%0%6%

۱۰. سرعت شناختی (S)

توانایی انجام سریع وظایف ساده شناختی شامل: PS-S: جستجوی ساده، PS-C: جستجوی پیچیده، Re: خواندن، Wr: نوشتن، Num: اعداد، SRT : زمان واکنش ساده، CRT: زمان واکنش انتخابی، IT: زمان استنتاج، CS: سرعت محاسبه و PF: یافتن الگو.

مدل‌های GPT-4 و GPT-5 هر دو ۳٪ گرفته‌اند؛ زمان‌های استنتاج (Inference Times) که مدت زمانی است که مدل برای تولید یک پاسخ صرف می‌کند، مانع اصلی افزایش امتیاز این مدل‌ها شده است. در نتیجه، در این حوزه که سرعت فاکتور حیاتی است، انسان‌ها همچنان برتری قاطعی نسبت به هوش مصنوعی دارند.

ModelPS-SPS-CReWrNumSRTCRTITCSPFTotal
GPT-40%0%1%1%1%0%0%0%0%0%3%
GPT-50%0%1%1%1%0%0%0%0%0%3%

این چارچوب روشی ساختارمند و قابل‌اندازه‌گیری برای ارزیابی هوش مصنوعی عمومی ارائه می‌دهد که به‌جای استفاده از معیارهای تخصصی محدود، توانایی‌های شناختی در زمینه‌های مختلف را از نظر گستردگی (تنوع) و عمق (مهارت) بررسی می‌کند.

هوش مصنوعی کنونی؛ یک ذهن نامتقارن

یکی از یافته‌های کلیدی این است که سیستم‌های هوش مصنوعی امروزی دارای پروفایل شناختی «نامتقارن» یا «پرتلاطم» هستند، به‌طوری‌که در برخی زمینه‌ها مانند دانش عمومی و ریاضیات قوی هستند، اما در جنبه‌هایی مانند حافظه بلندمدت ضعف‌های جدی دارند که باعث محدودیت‌های اساسی در عملکرد آن‌ها می‌شود.

برای مثال، حافظه بلندمدت تقریباً برای مدل‌های فعلی نزدیک به صفر است و این منجر به «فراموشی» در تعاملات می‌شود که سیستم را مجبور به یادگیری مجدد اطلاعات می‌کند. همچنین، نقص‌هایی در تفکر بصری وجود دارد که باعث می‌شود تعامل با محیط‌های دیجیتال پیچیده دشوار شود.

این عدم تعادل در توسعه باعث ایجاد «انعطاف‌پذیری‌های شناختی» می‌شود، به‌طوری‌که نقاط قوت در برخی زمینه‌ها برای جبران ضعف‌های شدید در دیگر حوزه‌ها استفاده می‌شود. این امر می‌تواند تصویر غلطی از توانایی‌های عمومی هوش مصنوعی ایجاد کند. به‌عنوان‌مثال، مدل‌ها برای جبران عارضه توهم‌زایی مرتبط با بازیابی حافظه بلندمدت از ابزارهای جستجوی خارجی (RAG) استفاده می‌کنند که نوعی تقلب است. RAG دو ضعف مدل را می‌پوشاند: ناتوانی در دسترسی قابل‌اعتماد به دانش ایستا، و مهم‌تر از آن، فقدان حافظه تجربی پویا (حافظه قابل به‌روزرسانی برای تعاملات خصوصی و درازمدت). این وابستگی، جایگزین حافظه یکپارچه لازم برای یادگیری و شخصی‌سازی واقعی نیست.

جمع‌بندی

به زبان دیگر هوش مصنوعی مانند یک موتور عمل می‌کند که عملکرد کلی آن توسط ضعیف‌ترین اجزای آن محدود می‌شود. نمره کلی بالا می‌تواند گمراه‌کننده باشد؛ یک مدل با نمره ۹۰٪ اما ۰٪ در حافظه بلندمدت عملاً یک مدل «فراموش‌کار» خواهد بود؛ بنابراین، گزارش پروفایل شناختی کامل به‌جای صرفاً نمره نهایی، ضروری است.

به طور خلاصه پس می‌توان گفت که AGI به هوش مصنوعی گفته می‌شود که با جامعیت و مهارت یک فرد بزرگسال خوب تحصیل‌کرده برابر باشد یا فراتر برود. این تعریف با مفاهیمی چون «هوش مصنوعی باارزش اقتصادی» یا «هوش مصنوعی جایگزین» که شامل وظایف فیزیکی و تولید ارزش اقتصادی هستند، تفاوت دارد.

در نهایت باید گفت باوجود همه این چالش‌ها، این چارچوب به شناسایی گلوگاه‌ها و راهنمایی در ارزیابی پیشرفت هوش مصنوعی به سمت AGI کمک می‌کند. بااین‌حال، دستیابی به نمره 100% در AGI در آینده نزدیک بعید است، چرا که مسائل اساسی مانند یادگیری مداوم، توهم‌زایی و حافظه بلندمدت هنوز حل نشده‌اند.

مطالب مرتبط

پیشنهاد IBM برای طراحی استراتژی داده در ۶ گام

در عصر هوش مصنوعی، داده دیگر صرفاً یک دارایی نیست؛ بلکه زیربنای تصمیم‌گیری هوشمند، نوآوری و رقابت‌پذیری سازمان‌هاست. همه کاربردهای […]

5 دقیقه مطالعه مشاهده

واژه‌نامه هوش مصنوعی

این واژه‌نامه با هدف ارائه‌ی تعاریف دقیق، به‌روز و قابل‌درک از مفاهیم کلیدی حوزه‌ی هوش مصنوعی تهیه شده است. در […]

17 دقیقه مطالعه مشاهده

از «انباشت داده» تا «محرّک تصمیم»؛ چگونه داشبوردها به ابزار اقدام تبدیل می‌شوند

در بسیاری از سازمان‌ها، ابزارهایی وجود دارد که داده‌ها را در قالب یک صفحه‌ی خلاصه‌شده با نمودارها و شاخص‌ها نشان […]

5 دقیقه مطالعه مشاهده

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *