Laurence T Kell ، Rishi Sharma ، Toshihide Kitakado ، Henning Winker ، Iago Mosqueira ، Massimiliano Cardinale ، Dan Fu ، اعتبار سنجی روش های ارزیابی سهام: آیا من هستم یا مدل من صحبت می کنم؟2021 ، صفحات 2244-2255 ، https://doi. org/10. 1093/icesjms/fsab104
چکیده
اتخاذ رویکرد احتیاط مستلزم ارائه مشاوره ای است که در برابر عدم اطمینان است. بنابراین ، هنگام انجام جایگزین ارزیابی سهام ، ساختارهای مدل و مجموعه داده ها معمولاً در نظر گرفته می شوند. تشخیص اصلی مورد استفاده برای مقایسه مدل ها ، بررسی الگوهای باقیمانده برای بررسی خوب بودن و انجام تجزیه و تحلیل گذشته نگر برای بررسی ثبات تخمین ها است. با این حال ، الگوهای باقیمانده را می توان با افزودن پارامترهای بیشتر از داده های توجیه شده توسط داده ها ، و الگوهای گذشته نگر برداشته شده با نادیده گرفتن داده ها حذف کرد. بنابراین ، نه به تنهایی نمی تواند برای اعتبار سنجی مورد استفاده قرار گیرد ، که نیاز به ارزیابی این دارد که آیا یک سیستم یکسان با مدل داده ها را تولید می کند. بنابراین ، ما برای برآورد مهارت پیش بینی ، اندازه گیری صحت یک مقدار پیش بینی شده ناشناخته توسط مدل نسبت به مقدار مشاهده شده آن ، برای کشف اشتباه غلط مدل و درگیری داده ها از Hindcasting استفاده می کنیم. ما ساختارهای مدل جایگزین را بر اساس مدل های دینامیکی یکپارچه آماری آماری و حالت بیزی با استفاده از ، با استفاده از ، به عنوان نمونه ، ماهی زرد رنگ اقیانوس هند مقایسه می کنیم. اعتبار سنجی یک فرآیند باینری نیست (یعنی پاس یا شکست) بلکه یک پیوستار است. بنابراین ، ما در مورد استفاده از مهارت پیش بینی برای شناسایی فرضیه های جایگزین ، مدل های گروه های وزنه برداری و توافق در مورد مجموعه های مرجع مدل های عملیاتی هنگام انجام ارزیابی استراتژی مدیریت بحث می کنیم.
مقدمه
مدیریت شیلات برای ارائه مشاوره به ارزیابی سهام متکی است. تعاریف مختلفی از ارزیابی سهام وجود دارد (به عنوان مثال ، هیلبورن ، 2003 ؛ کادرین و دیکی-کولس ، 2014) ، و ترجیح ما برای "توصیف ویژگی های یک سهام" است به طوری که می توان واکنش بیولوژیکی آن به سوءاستفاده را پیش بینی کرد. و پیش بینی های آزمایش شده "(Sidney Holt ، Pers. Comm.). استدلال برای این امر به این دلیل است که صریحاً تشخیص می دهد که هدف اصلی ارزیابی سهام فراهم کردن مبنای مدیریت پایدار طولانی مدت است. بنابراین ، ارزیابی سهام نیاز به تهیه و اعتبار سنجی برآوردهای احتمالی وضعیت سهام و پیش بینی پیامدهای اقدامات عملکردهای مختلف دارد.
اتخاذ رویکرد احتیاطی برای مدیریت شیلات (PA؛ فائو، 1996) مستلزم در نظر گرفتن رسمی عدم قطعیت است که به طور فزاینده ای با انجام ارزیابی موجودی با استفاده از چارچوب های مدل سازی جایگزین مشروط به انواع فرضیات و مجموعه داده ها مورد توجه قرار می گیرد. این نیاز به اقداماتی برای کاهش ذهنیت هنگام تصمیم گیری در مورد پذیرش ارزیابی دارد (پانت و همکاران، 2020). ادبیات کنونی در مورد مقایسه روشهای ارزیابی موجودی در درجه اول بر روی میزان مناسب بودن مدلها با دادههای مشاهدهای متمرکز است (مثلاً Deroba و همکاران، 2015)، و آزمونهای تشخیصی برای توضیح تعصب در تخمین مدل پارامترها و مقادیر مشتقشده (Carvalho et al., 2021)..
با این حال، استفاده از تشخیص های سنتی بر اساس باقیمانده های مدل و احتمالاتی مانند معیارهای اطلاعات آکایک (AIC؛ Akaike، 1998) برای مقایسه مدل ها می تواند چالش برانگیز باشد. به عنوان مثال، شاخصهای فراوانی عامل اصلی احتمال کلی در هنگام تطبیق مدلهای ارزیابی سهام با دادهها هستند (Whitten et al., 2013) و مجموع مجذور خطاها (SSE) بین شاخصهای مشاهدهشده و پیشبینیشده در فضای log-space است. اغلب به عنوان یک معیار تناسب اندام استفاده می شود. SSE مشکل ساز است زیرا مدل های پیچیده تمایل دارند پارامترهای زیادی داشته باشند تا انعطاف پذیری را فراهم کنند و در نتیجه با اضافه کردن پارامترهای بیشتر از آنچه که داده ها قابل توجیه هستند، SSE پایین به دلیل برازش بیش از حد ایجاد می شود. بنابراین، معیارهایی مانند AIC برای کمک به انتخاب مدل ایجاد شده است. با این حال، AIC باید روی مدلهایی با تابع درستنمایی و دادههای یکسان انجام شود، که اگر فرضیههای مختلف با ساختارهای مدل و مجموعه دادههای جایگزین مدلسازی شوند، اینطور نیست.
عملکرد تاریخی همچنین هیچ شاخصی در مورد چگونگی عملکرد یک مدل در آینده نیست ، که در صورت ارائه یک مدل مشاوره معتبر و قوی ، باید ارزیابی شود. این از اهمیت ویژه ای برای مدلهای ارزیابی سهام برخوردار است که در آن مقادیر مورد علاقه (یعنی مرگ و میر ماهیگیری و زیست توده سهام تخم ریزی) بر خلاف پیش بینی آب و هوا به طور مستقیم قابل مشاهده نیست و اغلب داده های کافی وجود ندارد که اجازه می دهد برخی از آن ها را برای آزمایش مانند گذشته نگه دارند. برنامه های یادگیری ماشین. یک ابزار تشخیصی برای بررسی ثبات احتمالی آینده مدلهای ارزیابی سهام ، تجزیه و تحلیل گذشته نگر است (محسن ، 1999). این روش شامل حذف پی در پی تمام داده ها از جدیدترین دوره (یعنی لایه برداری) ، اصلاح مدل و سپس مقایسه برآورد سال ترمینال زیست توده سهام تخم ریزی (SSB) و مرگ و میر ماهیگیری (F) با مدل کامل است. تجزیه و تحلیل گذشته نگر به طور گسترده ای برای ارزیابی ثبات خروجی های مدل استفاده می شود ، و در اروپا اغلب تشخیص اصلی برای پذیرش یا رد یک مدل است (ICES ، 2019). تجزیه و تحلیل گذشته نگر شامل پیش بینی سهام است ، جایی که تخمین های سال ترمینال برای فرضیات مربوط به صید آینده ، استخدام ، پارامترهای بیولوژیکی و آسیب پذیری سهام در برابر ماهیگیری پیش بینی شده است (به عنوان مثال بروکس و Legault ، 2016). با این حال ، پایداری و کاهش واریانس با کاهش تخمین های ترمینال به سمت مقادیر تاریخی اخیر می تواند با هزینه تعصب حاصل شود. اعتبار سنجی یک مدل در صورت ناشناخته بودن غیرممکن است ، همانطور که در مورد مقادیر غیرقابل کنترل مانند SSB و F وجود دارد (Hodges and Dewar ، 1992). از آنجا که در چنین مواردی ، ساده ترین راه برای حذف یک الگوی گذشته نگر ، نادیده گرفتن داده ها است.
یک روش جایگزین برای مقایسه برآوردهای مدل با مشاهدات است. این معمولاً در بسیاری از زمینه ها مورد استفاده قرار می گیرد که مقادیر شناخته شده یا از نزدیک برای رویدادهای گذشته برای ارزیابی چگونگی عملکرد خوب مدل با نتایج شناخته شده استفاده می شود (Balmaseda et al. ، 1995 ؛ Jin et al. ، 2008 ؛ Weigel et al. ، 2008). مقایسه خروجی های مدل با مشاهداتی که در اتصالات استفاده نشده است به عنوان "اعتبار سنجی پیش بینی کننده" یا "اعتبارسنجی متقابل" گفته می شود ، و هنگامی که مشاهدات از سال ترمینال برگرفته می شوند ، این به عنوان "Hindcasting" شناخته می شود. از بین بردن مشاهدات اجازه می دهد تا مدل ها با استفاده از مهارت پیش بینی مقایسه شوند (گلیکمن و Zenk ، 2000) ، اندازه گیری دقت یک پیش بینی کننده در مقایسه با مقدار مشاهده شده آن که توسط مدل ناشناخته است ، با استفاده از معیارهایی مانند همبستگی ، خطای نسبی ، میانگین خطای مقیاس مطلق (MASE)، و تعصب
اعتبار سنجی مدل باعث افزایش اعتماد به نفس در خروجی های یک مدل می شود ، منجر به افزایش اعتماد در بین عموم ، سهامداران و دارایی و سیاست گذاران می شود (ساللی و همکاران ، 2020) ، و می تواند محدودیت های مدل را که باید در تحقیقات آینده مورد بررسی قرار گیرد ، شناسایی کند. در این مقاله ، ما مدل ها را با استفاده از مهارت پیش بینی با لایه برداری از مشاهدات سال آخر در ارزیابی و پیش بینی مقادیر حذف شده با استفاده از یک روش Hindcast تأیید می کنیم. ما مهارت های پیش بینی و پیش بینی را به عنوان تنها ابزار تشخیصی مورد استفاده در ارزیابی سهام بلکه به عنوان ابزاری اصلی برای جعبه ابزار ارزیابی پیشنهاد نمی کنیم (Carvalho و همکاران ، 2021). روش Hindcast می تواند در بسیاری از زمینه ها اعمال شود ، به عنوان مثالمدل سازی آب و هوا و انرژی (کل و همکاران ، 2020).
مواد و روش ها
به عنوان یک نمونه کار شده ، ما سه خانواده مدل مورد استفاده برای ارزیابی سهام تن ماهی زرد رنگ اقیانوس هند (IOTC ، 2019) ، یعنی یک مدل آماری کامل یکپارچه (SS ؛ Methot and Wetzel ، 2013) ، یک مدل تولیدی ساختار یافته سن (ASPM ؛Maunder and Piner ، 2015) ، و یک مدل دینامیکی زیست توده حالت Bayesian-Space (Jabba ؛ Winker et al. ، 2018). هر دو مدل SS و ASPM بر اساس یک ساختار فصلی با چهار منطقه ، Jabba در مقایسه ، یک مرحله زمانی سالانه و بدون ساختار مکانی داشتند.
پس از توافق ساختار مدل ، اعتبارسنجی مدل بسیار مهم است که آیا این امکان پذیر است که یک سیستم یکسان با مدل داده ها را تولید کند (Thygesen et al. ، 2017). جاه طلبی اعتبارسنجی اثبات این نیست که یک مدل صحیح است ، بلکه برای بررسی اینکه با داده های موجود نمی توان جعل کرد. این یک سؤال متفاوت از پرسیدن اینکه آیا مدل برای یک هدف معین مناسب است ، که بستگی به استفاده در نظر گرفته شده مدل دارد یا خیر. به عنوان مثال ، برای ارزیابی اینکه آیا یک مدل ارزیابی علیرغم اشتباه اشتباه است ، ارزیابی استراتژی مدیریت (MSE ؛ Punt and Donovan ، 2007) انجام می شود. برای بررسی شیوه فعلی در سازمان های مدیریت شیلات منطقه ای Tuna (TRFMOS) به شارما و همکاران ، (2020) مراجعه کنید. اعتبار سنجی یک فرآیند باینری نیست ، یعنی مشخص کردن اینکه آیا یک مدل معتبر است یا نامعتبر است ، زیرا یک پیوستار بین این دو افراط وجود دارد. بنابراین ، یک هدف اصلی اعتبارسنجی انتخاب "بهترین ارزیابی" نیست بلکه شناسایی اینکه آیا مدل ها بیش از حد افزایش یافته اند و چگونه می توان آنها را گسترش داد یا اصلاح کرد تا بهتر توصیف پویایی شود.
اعتبار سنجی مدل ، بنابراین ، یک هدف تعریف برای مدل انتخاب و آزمایش فرضیه است. جستجوی مدل برای مناسب ترین مدل در یک خانواده مشخص است. آزمایش فرضیه نحوه کاهش ساختار مدل را بررسی می کند ، در حالی که اعتبار سنجی مدل بررسی می کند که آیا باید اصلاح شود یا گسترش یابد. برای اینکه مدل ها معتبر باشند ، آنها باید چهار پیش نیاز را برآورده کنند (هاجز و دیوار ، 1992). یعنی ، وضعیت مدل شده باید: (i) قابل مشاهده و قابل اندازه گیری باشد.(ب) برای جمع آوری داده های آموزنده کافی در مورد آن امکان پذیر است.(iii) ثبات ساختار را در زمان نشان می دهد ، و (IV) در شرایطی که در مدل مشخص نشده است ، ثبات را در بین تغییرات نشان می دهد.
دو پیش نیاز اول باید مستقیم به جلو باشند. با این حال ، بسیاری از ارزیابی های سهام ، به ویژه برای سهام بسیار مهاجر مانند تن های زرد رنگ که در مناطقی فراتر از صلاحیت ملی صید شده اند ، به جای مشاهدات علمی مستقیم به داده های وابسته به شیلات متکی هستند. استفاده از داده های وابسته به شیلات یک نگرانی است زیرا شواهدی وجود دارد که نشان می دهد صید تجاری در هر واحد تلاش (CPUE) در حالی که به وفور کاهش می یابد ، زیاد خواهد بود (هارلی و همکاران ، 2001). پیش نیاز (III) تضمین می کند که مدل دارای مهارت پیش بینی برای همان شرایطی است که تحت آن تست های اعتبار سنجی انجام شده است. پیش نیاز (IV) تضمین می کند که این مدل هنوز در شرایطی که در آزمون های اعتبار سنجی متفاوت است ، معتبر باشد.
مادی
Yellowfin Tuna از یکی از بزرگترین شیلات ماهی تن در اقیانوس هند پشتیبانی می کند ، در حال حاضر صید سالانه بیش از 400000 تن است. این سهام توسط چرخ دنده های مختلف ، از شیلات صنعتگر در مقیاس کوچک گرفته تا شبکه های بزرگ آبشش ، لانگرهای صنعتی و سینرهای کیف پول برداشت می شود (Fiorellato و همکاران ، 2019). تفاوت های منطقه ای در سهام و شیلات وجود دارد (شکل 1). و منطقه گرمسیری غربی (منطقه 1) منطقه اصلی توزیع سهام در نظر گرفته می شود.
طبقه بندی مکانی اقیانوس هند برای مدل ارزیابی چهار منطقه (R1A و R1B به عنوان یک مدل مدل R1 واحد درمان شدند ، اما برای تعریف ناوگان حفظ شدند). فلش های سیاه پیکربندی پارامتر سازی حرکت را نشان می دهد. کانتورهای چگالی نمایانگر پراکندگی نسخه های TAG و بازپرداخت های بعدی از برنامه برچسب زدن ماهیگیری منطقه ای اقیانوس هند است. دایره های سبز نشان دهنده توزیع صیدها از ماهیگیری های طولانی است که توسط طول 5 درجه و عرض جغرافیایی برای سال های 1980-2017 جمع شده است (حداکثر = 133770 تن).
اکثر داده های موجود برای ارزیابی سهام وابسته به شیلات است. این موارد شامل سری زمانی از کل صید ، CPUE فصلی بر اساس شیلات طولانی (Hoyle and Langley ، 2020) ، نمونه هایی از ترکیبات طول ، برچسب زدن به بازپرداخت ها و داده های محیطی است. CPUE منبع اصلی اطلاعات در مورد فراوانی است و مبتنی بر یک شاخص خط بلند کامپوزیت ، مکانی که بر اساس منطقه طبقه بندی شده است ، از ناوگان اصلی آب دور است.
شاخص های موجود در هر منطقه با استفاده از مدلهای خطی عمومی که تفاوت در شیوه های هدفمند و قابلیت جذب در بین ناوگان ها را بر اساس تنظیمات دنده و ترکیب گونه ها به خود اختصاص داده اند (Hoyle and Langley ، 2020). دلیل این امر به این دلیل است که استراتژی های ماهیگیری طولانی مدت تن با گذشت زمان تغییر کرده است. در ارزیابی ، شاخص های CPUE در سراسر مناطق با ضریب قابلیت جذب مشترک مرتبط بودند ، بنابراین توانایی مدل در تخمین توزیع زیست توده منطقه ای را بهبود می بخشد. این امر به محاسبه عوامل مقیاس بندی منطقه ای دلخواه مربوط به نرخ صید ناوگان مرجع نیاز داشت.
دادههای ترکیب طول برای ارائه تخمینهای منطقی از روندهای انتخابی شیلات و جذب، اما نه روند فراوانی موجودی کافی در نظر گرفته میشوند. شاخص های محیطی منطقه ای (دمای فعلی و دریا) اجازه می دهد تا تغییرات فصلی و زمانی در تخمین حرکت ماهی گنجانده شود. دادههای انتشار و بازیابی برچسب جمعآوریشده از مرحله اصلی برنامه برچسبگذاری ماهی تن در مقیاس بزرگ اقیانوس هند، تخمینهای مرگومیر، فراوانی و حرکت را ارائه میدهد.
مدل های ارزیابی
توسعه مدل بر ساختار فضایی متمرکز شده است تا تفاوتها در الگوهای بهرهبرداری منطقهای را در نظر بگیرد. و عدم ایستایی در گزینش پذیری و قابلیت جذب و حرکات فصلی برای حل تعارضات داده ها یافت شده است (Urtizberea et al., 2019). اگرچه یک مدل آماری کاملاً یکپارچه برای توسعه حالت پایه استفاده میشود، مدلهای دیگری نیز استفاده میشوند. اینها شامل یک ASPM-R (Maunder و Piner، 2015) و یک مدل پویای زیست توده فضای حالت بیزی (JABBA؛ Winker et al., 2018) است.
Stock Synthesis (SS؛ Methot و Wetzel، 2013) برای انجام ارزیابی موردی پایه استفاده می شود و یک مدل سن و ساختار فضایی را اجرا می کند که جمعیت پیچیده و پویایی ماهیگیری را منعکس می کند. جدیدترین ارزیابی یک مورد پایه را به عنوان یک مدل مرجع برای تشخیص و سناریوها برای ثبت عدم قطعیت های مختلف ایجاد کرد (فو و همکاران، 2018). ارزیابی نشان می دهد که سهام از سال 2012 به طور قابل توجهی کاهش یافته است. و SSB در سال 2017 در حال حاضر نزدیک به پایین ترین سطح تاریخی تخمین زده می شود. تخمین زده می شود که ماهی بیش از حد صید شود. و IOTC یک طرح بازسازی را برای کاهش فشار کلی ماهیگیری اجرا کرده است.
SS یک چارچوب انعطاف پذیر برای انجام ارزیابی سهام و Maunder و Piner (2015) ارائه داد که یک اجرای قطعی در SS از ASPM را به عنوان تشخیصی از فرآیندهایی که کنترل پویایی مورد انتظار را از طریق یک عملکرد تولید ارائه می دهد ، پیشنهاد کرد (Carvalho et al. ، 2017). انتخاب در ASPM بر اساس آنچه که توسط یک مدل SS "کامل" تخمین زده می شود ، پارامتر می شود. سپس این مدل بدون اینکه ترکیب اندازه به احتمال کمک کند ، به شاخص های فراوانی بازپرداخت می شود. انحرافات استخدام یا می تواند (مانند مثال ما) تخمین زده شود یا روی صفر تنظیم شود. این امکان ارزیابی این را فراهم می کند که آیا صید های مشاهده شده به تنهایی نمی توانند روند شاخص فراوانی را توضیح دهند. اگر ASPM بتواند شاخص های فراوانی را به خوبی متناسب کند ، احتمالاً یک عملکرد تولید وجود دارد (یعنی دینامیک توسط فرآیندهای وابسته به چگالی هدایت می شود) ، و شاخص ها اطلاعاتی در مورد فراوانی مطلق ارائه می دهند. اگر تناسب ضعیف باشد ، تولید مازاد مورد انتظار و صید مشاهده شده به تنهایی نمی تواند روند شاخص ها را توضیح دهد. این می تواند چندین دلیل داشته باشد ، یعنی (i) پویایی سهام ، استخدام محور است ، (ب) سهام هنوز تا جایی کاهش نیافته است که گرفتن یک عامل اصلی بر فراوانی است.(iii) شاخص های فراوانی نسبی متناسب با فراوانی نیست.(IV) مدل به طور نادرست مشخص شده است ، یا (v) داده ها مغرضانه هستند. در حالی که یک عملکرد تولید در تناسب مشهود بود ، تناسب کلی شاخص های فراوانی در 3 از 4 منطقه ضعیف بود ، و از این رو ، ما از انحرافات استخدام برای کمک به گرفتن روند فراوانی در منطقه استفاده کردیم (به Minte-Vera و همکاران مراجعه کنید. ، 2017). در این مطالعه ، ما ASPM را با انحرافات استخدام تخمین زده شده (ASPM-R) اجرا کردیم.
جایگزینی برای ارزیابی یکپارچه استفاده از یک مدل پویا زیست توده بر اساس یک عملکرد تولید صریح است. این نیاز به برآورد و رفع پارامترهای کمتری دارد و از ترکیب طول استفاده نمی کند. ما از بسته R JABBA استفاده کردیم زیرا یک چارچوب متحد و انعطاف پذیر برای مدل سازی دینامیکی زیست توده حالت را فراهم می کند ، به سرعت اجرا می شود و برآورد وضعیت سهام قابل تکرار را تولید می کند (Winker et al. ، 2018). یک عملکرد تولید Pella Tomlinson (Pella and Tomlinson ، 1969) فرض بر این بود که این اجازه می دهد تا شکل عملکرد تولید متفاوت باشد. اجازه می دهد فرضیات جایگزین در مورد بهره وری ، وضعیت سهام و نقاط مرجع ارزیابی شود. JABBA برای پویایی فضایی حساب نمی کند ، و در این تجزیه و تحلیل ، Priors of Parameters Parameters Parameters بر اساس مورد پایه SS بود.
فرضیه های ارزیابی
مورد پایه به صورت مکانی در دو منطقه گرمسیری (R1 و R4) و دو منطقه نیمه گرمسیری استرالیا (R2 و R3) تفکیک شده است. مناطق استوایی شامل ماهیگیری اصلی در طول سال است ، در حالی که شیلات طولانی در مناطق استرالیا به صورت فصلی اتفاق می افتد (لانگلی ، 2015) ، فرض بر این است که حرکت متقابل بین مناطق مجاور رخ می دهد. پرونده پایه یک مرحله زمانی سه ماهه برای تقریب استخدام مداوم و رشد سریع مشاهده شده در سهام Yellowfin فرض می کند. جمعیت شامل 28 کلاس سنی سه ماهه با حالت اولیه تعادل غیر قابل استفاده در هر منطقه بود. بیست و پنج شیلات بر اساس تجهیزات ماهیگیری ، منطقه ، دوره زمانی ، حالت ماهیگیری و نوع کشتی تعریف می شوند. شیلات مدل سازی شدند و امکان انعطاف پذیری در انتخاب (به عنوان مثال مکعب مکعب یا دو برابر طبیعی) را فراهم کردند ، در حالی که انتخاب خط طولانی برای سنین بالاتر کاملاً انتخابی بود.
استخدام در دو منطقه استوایی با انحرافات زمانی در توزیع منطقه ای رخ می دهد و فرض بر این است که از یک رابطه بورس و هولت بازپرداخت سهام پیروی می کند. رشد با استفاده از انحرافات خاص سن در پارامتر رشد K پارامتر می شود تا از رشد غیر Vertalanffy نوجوانان و رشد تقریباً خطی بزرگسالان تقلید شود. مرگ و میر طبیعی با توجه به سن متفاوت است ، با روند نسبی در مرگ و میر طبیعی خاص سن مبتنی بر رنگ زرد اقیانوس آرام (Maunder and Aires-da Silva ، 2012).
درز
اعتبار سنجی مستلزم آن است که سیستم قابل مشاهده و قابل اندازه گیری باشد. بنابراین باید از مشاهدات استفاده شود مگر اینکه تخمین های مدل بسیار نزدیک به مقادیر واقعی آنها باشند. به عنوان مثال ، هنگام انجام یک تجزیه و تحلیل گذشته نگر ، کاهش خطای میانگین مربع (اندازه گیری واریانس) تخمین های مدل می تواند با کوچک شدن حاصل شود. با این حال ، کمیت تعصب در مقادیر مبتنی بر مدل دشوار است ، بنابراین عدم وجود الگوهای گذشته نگر در حالی که اطمینان خاطر برای اعتبار سنجی کافی نیست. به همین دلیل ، اعتبارسنجی باید با استفاده از مهارت پیش بینی بر اساس مشاهدات انجام شود. بنابراین ، ما از یک روش حصیری استفاده کردیم که شاخص های فراوانی به طور متوالی از سال ترمینال حذف می شود ، یعنی از مدل به عقب لایه برداری می شود. در مقابل ، در یک تجزیه و تحلیل گذشته نگر ، تمام مشاهدات به مدت یک سال به عقب برگشته می شوند ، به این معنی که مقادیر را نمی توان برای سالهای گذشته پیش بینی کرد ، مگر اینکه فرضیات اضافی انجام شود.
Hindcast نوعی اعتبار متقابل است که در آن، مانند تجزیه و تحلیل گذشته نگر، داده های اخیر حذف می شوند و مدل با داده های باقیمانده مجدداً تطبیق داده می شود. سپس مقادیر شناخته شده (مشاهدات) یا مقادیر تاریخی به خوبی تخمین زده شده با برآوردهای مدل مقایسه می شوند. هنگامی که از مشاهدات برای مقایسه استفاده می شود، به آن اعتبار سنجی بدون مدل نیز گفته می شود (Kell et al., 2016). در یک پسوند، مشاهدات از سال پایانی و تا n سال قبل حذف میشوند و سپس مشاهدات گمشده با برازش دادههای باقیمانده برای 1، 2، پیشبینی میشوند. n قدم جلوترمشاهدات ممکن است توسط سری یا ناوگان برای ارزیابی تضادهای دادهها، بلوکهای زمانی برای غلبه بر همبستگیهای سریالی، یا بهصورت جداگانه برای تخمین سوگیری مانند jackknife حذف شوند. هیچ پیشبینی یا پیشبینی موجودی نیازی به انجام نیست، و بنابراین نیازی به فرضیات در مورد پارامترهای آینده نیست زیرا تمام پارامترهای مورد نیاز در مدل تخمین زده میشوند. ممکن است برای سری دادههای جداگانه یا ترکیبی از سریها و انواع دادهها، ارسال مجدد انجام شود، برای مثال، توسط ناوگانی که در آن دادههای CPUE و طول هر دو حذف میشوند. این اجازه می دهد تا تضادهای داده کاوش شود. از نظر تئوری، دوره طرح ریزی تا پایان دوره زمانی تاریخی است (بروکز و لگاولت، 2016). با این حال، در عمل، هنگام حذف مشاهدات حذف شده از تناسب مدل، اندازه گام یک یا چند سال جلوتر (افق h ) برای نمایش عقبی انتخاب می شود. این باید افق زمانی مورد نیاز برای مشاوره مدیریت قوی را منعکس کند، با در نظر گرفتن تصادفی فرآیند معمولی در پویایی جمعیت شیلات و عدم قطعیت مشاهده. چرخههای ارزیابی معمولاً برای سه سال در بیشتر سازمانهای مدیریت شیلات منطقهای ماهی تن است و بنابراین از افق سه ساله نیز استفاده شد.
در این مطالعه ، فقط مشاهدات CPUE برداشته شد ، ترکیب و طول در مدل باقی مانده است. بنابراین ، تمام متناسب با مدل یک سال ترمینال داشتند و فقط در طول سری زمان CPUE متفاوت بودند. بنابراین ، روش اجرا شده شبیه به یک جککین است زیرا ما با استفاده از پوست نقاط را حذف می کنیم و سپس مقادیر گمشده را به عنوان بخشی از فرآیند اتصالات "پیش بینی می کنیم". سری زمانی از داده های شبه (به عنوان مثال داده هایی که برای آزمایش یک برنامه یا رویه به صورت مصنوعی تولید می شوند) از برآوردهای زیست توده آسیب پذیر و قابلیت جذب (Q) تولید شدند. سپس باقیمانده های پیش بینی (E) به عنوان تفاوت بین پیش بینی ها و مشاهدات محاسبه شدند. با لایه برداری از داده های دیگر ، به عنوان مثال ، می توان با استفاده از سایر داده ها ، حصار را انجام داد. طول یا ترکیب سنی (به Carvalho و همکاران ، 2021 مراجعه کنید).
خطای مربوطه
در یک تجزیه و تحلیل گذشته نگر ، ρ Mohn (Mohn ، 1999) ، معمولاً به عنوان معیار خطای نسبی برای برآوردهای مبتنی بر مدل استفاده می شود. ما از یک نوع استفاده کردیم ، که در آن میانگین مقیاس داشتیم ، بنابراین متریک تحت تأثیر طول پوست یا تعداد مراحل پیش رو قرار نمی گیرد.
جایی که n تعداد مراحل زمانی است که پوست برای آن انجام می شود ، T زمانی است که ارزش از دست رفته را تخمین می زند ، t سال ترمینال در سری CPUE است ، و | $ \ hat $ |یک مقدار مبتنی بر مدل را نشان می دهد ، که در این حالت SSB بود. مقدار با پسوند | $ \ hat_<(1:T)|t>$ |به معنای مقداری است که در زمان t از سری کامل که از زمان 1 تا T اجرا می شود ، و | $ \ hat_ $ |مقدار تخمین زده شده با استفاده از پنجره داده از 1 تا T (≤ t) است. پنجره داده فقط برای پنجره CPUE Data قابل اجرا است ، زیرا داده های ترکیب Catch و طول بدون تغییر باقی می مانند.
ρMبه طور متوسط تفاوت های نسبی در زمان نهایی هر پنجره است و اندازه گیری "تعصب" گذشته نگر (بدون مقیاس) به معنای آماری است. متریک تمایل دارد نه در سیاهه بلکه در مقیاس اصلی اعمال شود زیرا هر دو جهت مثبت و منفی معادل هستند. ρ را می توان برای افق های مختلف تخمین زد
هیچ حد بالایی برای مقادیر مرجع وجود ندارد که نسبت به گزینه جایگزین کم باشد ، در حالی که در حالت معکوس ، خطا نمی تواند از 1. 0 تجاوز کند. بنابراین ، معمول است که از حد پایین تر از 0. 15 and و حد بالایی از 0. 20 استفاده کنید تا عملکرد قابل قبول برای گونه های طولانی مدت (Hurtado-Ferro و همکاران ، 2015) را در عمل شناسایی کنید. برای مقادیر نزدیک یا برابر با 0 ، به عنوان مثالسهام که در آن بهره برداری یا اندازه سهام کم است ، اختلافات مطلق کوچک می تواند منجر به تفاوت نسبی بزرگ شود. این ممکن است منجر به رد ارزیابی در صورت نیاز بیشترین ، به عنوان مثال شود. در طول تهیه برنامه های بازیابی ، هنگامی که زیست توده سهام و مرگ و میر ماهیگیری ممکن است کم باشد.
مهارت پیش بینی
مهارت پیش بینی یک مشاهده را در زمان t مقایسه می کند (yt) به پیش بینی آن مشاهده که قبلاً مراحل زمان را انجام داده است ( | $ \ hat_