تصميم وكلاء LLM غير المتجانسين لتحليل المشاعر المالية Designing Heterogeneous LLM Agents for Financial Sentiment Analysis

المجلة: ACM Transactions on Management Information Systems
DOI: https://doi.org/10.1145/3688399
تاريخ النشر: 2024-08-13

تصميم وكلاء LLM غير المتجانسين لتحليل المشاعر المالية

فرانك شينغمدرسة الحوسبةالجامعة الوطنية في سنغافورةxing@nus.edu.sg

الملخص

لقد غيرت نماذج اللغة الكبيرة (LLMs) بشكل جذري الطرق الممكنة لتصميم الأنظمة الذكية، حيث انتقلت التركيزات من جمع البيانات الضخمة وتدريب النماذج الجديدة إلى التوافق البشري والاستنباط الاستراتيجي للإمكانات الكاملة للنماذج المدربة مسبقًا الموجودة. ومع ذلك، لم يتم تحقيق هذا التحول في النموذج بالكامل في تحليل المشاعر المالية (FSA)، بسبب الطبيعة التمييزية لهذه المهمة ونقص المعرفة الإرشادية حول كيفية الاستفادة من النماذج التوليدية في مثل هذا السياق. تبحث هذه الدراسة في فعالية النموذج الجديد، أي استخدام LLMs دون ضبط دقيق لـ FSA. مستندة إلى نظرية مينسكي للعقل والعواطف، يتم اقتراح إطار تصميم مع وكلاء LLM غير المتجانسين. يقوم الإطار بتجسيد وكلاء متخصصين باستخدام المعرفة السابقة في المجال حول أنواع أخطاء FSA والأسباب المتعلقة بمناقشات الوكلاء المجمعة. تظهر التقييمات الشاملة على مجموعات بيانات FSA أن الإطار يحقق دقة أفضل، خاصة عندما تكون المناقشات كبيرة. تسهم هذه الدراسة في أسس التصميم وتفتح آفاق جديدة لتحليل المشاعر المالية المعتمد على LLMs. كما يتم مناقشة الآثار على الأعمال والإدارة.

1 المقدمة

منذ أن أصبح ChatGPT من OpenAI شائعًا قبل عام، مرت نماذج اللغة الكبيرة (LLMs) بتحسينات سريعة، مما أظهر مجموعة متنوعة من القدرات. تتسارع التكيفات الذكية للعديد من الخدمات المالية، ولا يُستثنى من ذلك اتخاذ القرارات المالية المدعومة بالبيانات الضخمة. يعد تحليل المشاعر المالية (FSA) مهمة نموذجية في تلك الفئة ويصبح أكثر أهمية مع رقمنة عمليات الخدمات المالية وسلوكنا الاجتماعي: تكشف الشركات عن نسخ إلكترونية من تقاريرها السنوية، ومكالمات الأرباح، والإعلانات، وينضم المستثمرون إلى المجتمعات عبر الإنترنت، والمنتديات النقاشية، ووسائل التواصل الاجتماعي للتفاعل مع الآخرين. أظهرت ملحمة GameStop الأخيرة [8] وشعبية مجموعة من مؤشرات مشاعر السوق (مثل MarketPsych [30]) دليلًا واضحًا على أن المشاعر هي أداة تحليل مفيدة لاتخاذ القرارات المالية، وتوقع العوائد والتقلبات قصيرة الأجل [38]، واكتشاف الأخبار المزيفة والاحتيال [11]، وتوقع المخاطر [41]. كما تدعم أهمية FSA الدقيقة سلسلة طويلة من الأبحاث [1، 37، 9، 5]. لخص هندرشوت وآخرون [16] أن البحث في تطبيق الذكاء الاصطناعي على البيانات الإخبارية ووسائل التواصل الاجتماعي وبيانات الكلام الشفهي هو فئة رئيسية من استغلال الذكاء الاصطناعي في المالية. بالنظر إلى هذه العوامل، فإن FSA الدقيقة مطلوبة لمجموعة متنوعة من أصحاب المصلحة.
تم تطوير غالبية أنظمة FSA في العقد الماضي ومرت أفكار تصميمها وهندستها بعدة تكرارات مع التقدم في معالجة اللغة الطبيعية. تعتمد الأنظمة المبكرة على قواميس كلمات المشاعر وقواعد بسيطة أو إحصائيات لاستنتاج القطبية على مستوى الجملة أو الرسالة. تم بذل جهود لاكتشاف الكلمات/العبارات المحددة بمجال المالية [24، 40]. تم تطوير عدد كبير من الأنظمة المعتمدة على التعلم لاحقًا. على وجه التحديد، تم إجراء مهمتين مرجعيتين (SemEval 2017 Task 5 [6] وFiQA 2018 Task 1 [7])، و
تم تحقيق أفضل النتائج بواسطة نماذج التجميع الانحداري (RE) والشبكات العصبية التلافيفية (CNN) ونماذج الانحدار باستخدام دعم المتجهات (SVR) بناءً على ميزات مجمعة من قواميس المشاعر وتمثيلات الكلمات الكثيفة. كانت الموجة التالية من التصاميم تعتمد على ضبط دقيق لنماذج اللغة المدربة مسبقًا ذات الأغراض العامة، مثل BERT (تمثيلات الترميز ثنائية الاتجاه من المحولات). على سبيل المثال، حقق FinBERT [23] نتائج جيدة في FSA وكانت الحالة الرائدة من دمج مصادر المعرفة المساعدة المتعددة إلى متغير BERT [12]. من حيث استغلال LLMs لـ FSA، اعتمد التقدم الحالي بشكل رئيسي على نوع الترميز من المحولات، مثل BERT. ومع ذلك، فإن أقوى LLMs الآن تعتمد على الجزء الخاص بفك الترميز من المحول. هيكل فك الترميز طبيعي للمهام التوليدية مثل إكمال المحادثات/الدردشة والإجابة على الأسئلة، ولكن يمكن أيضًا تكييفه للمهام التمييزية والتصنيف. تدرك هذه الدراسة المرحلة المبكرة والدراسات المتعمقة القليلة في هذا الاتجاه وبالتالي تستكشف طرق استغلال LLMs التوليدية لـ FSA.
مختلف عن العديد من التصاميم العشوائية التي تم تطويرها من سلسلة الأفكار (CoT) [10]، وشجرة الأفكار (ToT) [42]، والتحقق، وقيود الاتساق الذاتي، والألواح المتوسطة، وإعدادات متعددة الوكلاء متعددة الأدوار، يتبع إطار التصميم المقدم هنا إرشادات علم التصميم من قبل هيفنر وآخرون [18] ويساهم في المعرفة الإرشادية كـ “نظرية تصميم” [15]. بناءً على نظرية مينسكي للعقل والعواطف، فإن “الحالات العاطفية” هي طرقنا للتفكير مع مجموعة محددة من الموارد المفعلة وأخرى غير مفعلة نظرًا لظروف بيئية معينة [27]. لذلك، فإن أحد أساليب FSA هو محاكاة العمليات العقلية الكامنة وراء النصوص، مما يتطلب وكلاء LLM متخصصين للعب أدوار “الموارد”، أي الأجزاء الوظيفية من دماغنا التي تجعلنا نتفاعل مع البيئة. في سياق التحليل المالي، يتم تعلم العديد من الموارد كمعرفة مهنية وليست أجزاء فطرية من أدمغتنا. يختار إطار التصميم (مناقشة متعددة الوكلاء غير المتجانسة) تطوير وكلاء LLM متخصصين من خلال التحفيز، والوظيفة الرئيسية هي الانتباه إلى نوع من الأخطاء التي تميل LLMs إلى ارتكابها لمهمة FSA المعطاة. وبالتالي، يحتوي المنتج التصميمي على خمسة وكلاء مختلفين وتستند نتيجة FSA إلى مناقشة مشتركة تأخذ في الاعتبار المخرجات من جميع الوكلاء. أقوم بتقييم المنتج باستخدام طرق متعددة، وتخلص النتائج عمومًا إلى أن الإطار فعال.
الشكل 1: أطر LLM متعددة الوكلاء المختلفة للوصول إلى توافق: (أ) مناظرة متعددة الوكلاء المتجانسة [13]، (ب) تفاوض متعدد الأدوار متعدد الوكلاء [35]، (ج) مناقشة متعددة الوكلاء غير المتجانسة (HAD: الإطار المقترح). تشير الألوان إلى أدوار مختلفة والأشكال تشير إلى وكلاء غير متجانسين.
التحدي الرئيسي في تجسيد هذا التصميم هو نقص نظرية التصميم حول ما يجب أن تكون عليه وظيفة كل وكيل. لهذا السبب، تستخدم العديد من إعدادات الوكلاء المتعددين LLMs متجانسة. على سبيل المثال، في إطار مناظرة الوكلاء المتعددين، يقوم دو وآخرون [13] ببساطة بنشر نفس المدخلات إلى عدة وكلاء LLM. بسبب بعض العشوائية والاضطراب، لن تكون استجابة كل وكيل متطابقة. لاحقًا، سيأخذ كل وكيل المخرجات من الوكلاء الآخرين (باستثناء مخرجاته الخاصة) كمعلومات إضافية لتحديث استجابته الأصلية (الشكل 1 (أ)). قد يمر عبر عدة جولات على الرغم من أن النتائج التجريبية تظهر أن التوافق سيتم تحقيقه بسرعة. إطار آخر هو تعيين أدوار مختلفة لوكلاء LLM. وصف صن وآخرون [35] إجراء تفاوض حيث
يُطلب من “LLM المميز” الحكم على ما إذا كان يتفق مع مخرجات “LLM المولد”. يتم إرسال بيان الحكم مرة أخرى إلى المولد إذا لم يتم التوصل إلى توافق. يتطلب الإطار LLM ثالث للتفاوض والتصويت على النتيجة النهائية إذا استمرت التباينات (الشكل 1 (ب)). على الرغم من أن وكلاء LLM في هذا الإطار يلعبون أدوارًا مختلفة، إلا أن افتراضات قدرتهم تظل كما هي. من هذا المنظور، لا تزال هذه الوكلاء غير متخصصة ومتجانسة. في الإطار المقترح (الشكل 1 (ج))، لكل وكيل نفس الدور، ويمر عبر سير عمل مناقشة متماثل (على عكس [35])، ولكنه مصمم عمدًا لمحاكاة الوظائف العقلية لموارد مختلفة. يتم تجميع استجاباتهم لـ FSA تمامًا كما يتم تنشيط الموارد لتوليد حالات عاطفية مختلفة.
لذلك، أحد أهداف هذه الدراسة هو اختبار ما إذا كانت أنواع الأخطاء [46، 39] يمكن أن تكون دليلًا مفيدًا لتطوير وكلاء غير متجانسين. على وجه التحديد، أنا مهتم بالأسئلة البحثية التالية:
  • RQ1: ما مدى فعالية HAD مقارنة بالتحفيز الساذج ونموذج الضبط الدقيق؟
  • RQ2: كيف يمكن تحفيز وكلاء LLM للتصرف بشكل متنوع في تحليل المشاعر في المالية؟
  • RQ3: ما هي المساهمات الكمية لكل وكيل LLM وأهميتها النسبية؟
للإجابة على هذه الأسئلة، يتم تقييم HAD باستخدام طرق متعددة تشمل التحليل التجريبي لمقاييس الأداء على خمسة مجموعات بيانات FSA، وتحليل الإزالة مع مجموعات مختلفة من الوكلاء، ودراسات حالة للمخرجات والتمثيلات الوسيطة. تظهر النتائج التجريبية أن HAD يمكن أن يحسن بشكل عام أداء FSA وأن التحسينات ثابتة لوكلاء LLM المعتمدين على GPT. لقد لوحظ أن قالبًا بسيطًا “يرجى إيلاء اهتمام خاص لـ [نوع الخطأ]” يمكن أن يغير انتباه وكلاء LLM ويدفعهم للتصرف بشكل مختلف. يبدو أن وكلاء المزاج، والبلاغة، والإشارة هم المحركات الرئيسية للأداء وهم أكثر أهمية من وكلاء LLM الآخرين، على الرغم من أن المساهمات غير خطية ولها تفاعلات معقدة.
تساهم هذه الدراسة في أدبيات علم تصميم العلوم من خلال تقديم عنصر تصميم مستند إلى نظرية أساسية. تم تقديم عدد من النظريات الأساسية من العلوم الطبيعية أو الاجتماعية في تصميم نظم المعلومات، بينما تعتبر النظريات الأساسية من الذكاء الاصطناعي نادرة بالمقارنة. لهذه الدراسة آثار على نظرية العواطف، وأبحاث التعاون بين نماذج اللغة الكبيرة، وممارسات اتخاذ القرار المالي. أولاً، تدعم هذه الدراسة مجتمع العقل وآلات العواطف لتكون نظريات قابلة للتطبيق تفسر كيف تظهر العواطف كنوع مهم من الذكاء البشري؛ ثانياً، تطبق هذه الدراسة نماذج اللغة الكبيرة متعددة الوكلاء في أنظمة التحليل المالي. تم استخدام هذا الإطار للتحقق من الحقائق، والتفكير الحسابي/الرياضي، والتحسين، وتحليل المشاعر العام، ولكن لم يتم استخدامه بعد في أنظمة التحليل المالي حسب علمي. وبالتالي، توفر هذه الدراسة مواد جديدة للتعاون بين نماذج اللغة الكبيرة، وتعزز أيضاً النهج القائم على علم التصميم في تطوير الإطارات؛ وأخيراً، تساهم النتائج في المعرفة التوجيهية لتصميم أنظمة التحليل المالي. قد يقوم المستثمرون والمتداولون بتكرار وتحسين أنظمة التحليل المالي الخاصة بهم بناءً على إطار HAD أو أن يكونوا أكثر اطلاعاً عند اتخاذ قرار اختيار أو شراء حلول تقنية من نوع مشابه.
في هذا القسم، يتم تنظيم الأدبيات ذات الصلة في خطين: (أي نوع من) استخدام نماذج اللغة الكبيرة لـ FSA، وطرق تصميم المطالبات (غير محدودة بـ FSA). كما أتناول الأسس النظرية لاستخدام الوكلاء المتنوعين لـ FSA.

2.1 استخدام نماذج اللغة الكبيرة لتحليل المشاعر المالية

تحليل المشاعر المالية (FSA) هو تطبيق موجه للأعمال ومحدد المجال مرتبط ارتباطًا وثيقًا بمهمة تحليل المشاعر العامة في معالجة اللغة الطبيعية. نظرًا لاستخدامه المكثف للمصطلحات وميزات لغوية أخرى، فإن أداء تحليل المشاعر العامة عادةً ما لا يكون تمثيليًا وسينخفض في مجال المالية. تم تضمين FSA لتقييم نماذج اللغة الكبيرة (LLMs) بشكل شامل في مجال المالية، جنبًا إلى جنب مع مهام أخرى مثل التعرف على الكيانات المسماة (NER)، واسترجاع المعرفة، والإجابة على الأسئلة، وفهم القراءة من بين أمور أخرى.
فيما يتعلق باستخدام نموذج لغوي كبير واحد، يتم أحيانًا صياغة مهمة تحليل المشاعر مع اكتشاف الهدف أو الجانب، ويمكن استخدام المعلومات الإضافية لتحسين أداء تحليل المشاعر. على سبيل المثال، استخدم لينكيك وآخرون [20] الهيكل الهرمي لأنظمة الجوانب لتقييد تحليل المشاعر.
النتائج، على الرغم من أن هذه المعلومات نادراً ما تكون متاحة في بيئات الإنتاج الواقعية. لاحظ زانغ وآخرون [44] أن الأخبار المالية غالباً ما تكون مختصرة بشكل مفرط. وبالتالي، تم تطوير نموذج يسترجع سياقاً إضافياً من مصادر خارجية موثوقة لتشكيل تعليمات أكثر تفصيلاً. وجد دينغ وآخرون [10] أن إجبار النموذج اللغوي الكبير على اتباع عدة مسارات تفكير باستخدام طريقة سلسلة التفكير يساعد في توليد تسميات أكثر استقراراً ودقة. كما أن التسميات التي يولدها النموذج اللغوي الكبير مفيدة وتلبي الجودة اللازمة لتكملة التوصيفات البشرية لطرق التعلم الخاضع للإشراف التقليدية. وبالمثل، طور فاي وآخرون [14] إطار عمل للتفكير ثلاثي القفز مستوحى من طريقة سلسلة التفكير التي تستنتج أولاً الجانب الضمني، وثانياً الرأي الضمني، وأخيراً قطبية المشاعر. ومع ذلك، تم الإشارة [35] إلى أن نموذج لغوي كبير واحد يواجه صعوبات في استغلال الإمكانات الكاملة لمعارف النموذج اللغوي الكبير. وهذا صحيح بشكل خاص بالنسبة للأنظمة المعقدة، حيث تتضمن قدرات متعددة للنموذج اللغوي الكبير، مثل التفكير، والتحقق من الحقائق، والتحليل النحوي/الدلالي، وأكثر من ذلك. ألاحظ ظاهرة مشابهة كما تم الإبلاغ عنها في [45] أن أداء النموذج اللغوي الكبير في المهام الأكثر تعقيداً ليس مرضياً كما هو الحال في مهمة التصنيف الثنائي. علاوة على ذلك، فإن التصاميم المذكورة أعلاه (استرجاع التخزين وطريقة سلسلة التفكير) وتصاميم أخرى لم يتم تطبيقها بعد على الأنظمة المعقدة، مثل التحقق، وقيود الاتساق الذاتي، أو دفاتر الملاحظات الوسيطة، هي أيضاً في الغالب تجريبية، في أحسن الأحوال تعتمد على التجارب، وتفتقر إلى أساس نظري قوي.
الإطار المقترح يعتمد على التعلم في السياق (ICL) ويستفيد من تجسيدات متعددة لنماذج اللغة الكبيرة (LLM) (وكلاء)، والذي يُشار إليه أيضًا بتعاون نماذج اللغة الكبيرة. تشمل استراتيجيات التعاون المهام المساعدة (مثل التحقق) [4]، والنقاش [13]، وتوزيع الأدوار المتنوعة [35] بما في ذلك المولد، والمميز، والمبرمج، والمدير، والمتحكم الفوقي، إلخ. مرة أخرى، يبدو أن تصميم المهام المساعدة والأدوار عشوائي ويفتقر إلى أسس نظرية قوية. كما تم التحقيق في تعاون نماذج اللغة الكبيرة بشكل أكبر في العديد من مهام معالجة اللغة الطبيعية العامة بما في ذلك تحليل المشاعر، ولكن تطبيقها على FSA يفتقر إلى الأدلة المباشرة. ربما الأكثر ارتباطًا بإطار تصميم HAD المقترح هو MedPrompt [29]. يستخدم مجموعة من تسلسلات التفكير (CoT) الم shuffled عشوائيًا من وكلاء متجانسين. التصميم أيضًا أكثر استهلاكًا للموارد الحاسوبية وصعب النقل إلى مجال المالية حيث أن مجموعات بيانات الأسئلة والأجوبة المالية الحالية أكثر ندرة.

2.2 هندسة المطالبات

قبل ظهور نماذج اللغة التوليدية الكبيرة، كانت الطريقة المقبولة جيدًا لتطبيق نموذج اللغة على المهام اللاحقة هي من خلال التخصيص الدقيق: إزالة آخر طبقة من الشبكة العصبية (المعروفة باسم طبقة “الرأس”) وترك أخطاء التدريب تتراجع مع تثبيت معلمات الطبقات السفلية. هناك مشكلتان رئيسيتان في ذلك: (1) لا يزال من الضروري وجود مجموعة تدريب ليست صغيرة جدًا وعلامات، و(2) يمكن أن تكون عملية التدريب مكثفة من الناحية الحسابية. مع الملاحظة أن نماذج اللغة التوليدية الكبيرة قوية جدًا، يجادل التعلم في السياق بأنه من الممكن الحصول على المخرجات المرغوبة دون تخصيص دقيق واستنباط قدرة النموذج باستخدام “تحفيز” مناسب. عادةً ما ينطوي هندسة التحفيز على تطوير قوالب تحفيز محددة للمهام، والتي تصف كيفية صياغة التحفيز لتمكين النموذج المدرب مسبقًا من أداء المهمة اللاحقة المعنية. قدم ليو وآخرون [21] مسحًا حول التقدمات الأخيرة في هندسة التحفيز وقارنوا بشكل منهجي بين تحفيزات الكلوز وتحفيزات البادئة.
فيما يتعلق بالبحث التلقائي عن نموذج الطلب، يتم مناقشة الطرق المعتمدة على التحسين العشوائي. على سبيل المثال، اكتشف سورنسن وآخرون [34] أن النموذج الجيد هو الذي يعظم المعلومات المتبادلة بين المدخلات والمخرجات الناتجة.
فيما يتعلق بتصميم المطالبات، درس ليو وتشيلتون [22] نماذج توليد النص إلى صورة وقالب المطالبة “الموضوع بأسلوب الأسلوب”. وقد وجدوا أن وضوح وبارز الكلمات الرئيسية مهمان لجودة التوليد. قدم يو وآخرون [43] فكرة استخدام المعرفة المتخصصة لتوجيه تصميم المطالبات. وقد تم الإبلاغ عن أنه بالنسبة لمهمة استنتاج المعلومات القانونية، يتم الحصول على أفضل النتائج عندما يتم اشتقاق المطالبات من تقنيات التفكير القانوني المحددة، مثل تقنية القضية-القاعدة-التطبيق-الاستنتاج (IRAC) كما يتم تدريسها في كليات الحقوق. ومع ذلك، بالنسبة لـ FSA، فإن إرشادات التصميم غير واضحة ومعظم الدراسات استخدمت مطالبات بسيطة. على سبيل المثال، استخدم تشين وشينغ [3] “أنت مساعد تحليل المشاعر المفيد – [رسالة مثال]:[المشاعر]. المستخدم: [رسالة اختبار].” وقالب FSA الخاص بـ BloombergGPT [36] هو ببساطة “[رسالة اختبار] سؤال: ما هي المشاعر؟ أجب بالسلبية/الحيادية/الإيجابية”.

2.3 نظرية النواة: المشاعر ومجتمع العقل

نظرية النواة هي عنصر أساسي في عملية تصميم نظام المعلومات وفقًا لنظرية تصميم نظام المعلومات لوولز (ISDT). إنها تشرح كيف/لماذا سيعمل النظام المتوقع
الشكل 2: توضيح توليد الحالات العاطفية من تفعيل مجموعة من الموارد، انظر ص. 4 في [27].
وتسلط الضوء على المتطلبات الميتا. في سياق FSA، يجب أن تكون النظرية هي التي تشرح الآلية التكوينية للعاطفة. لهذا السبب، تُفضل نظرية مينسكي للعقل والمشاعر على النظريات الوصفية/التباينية الأخرى للمشاعر، مثل عجلة المشاعر لبلوتشيك أو نموذج الدائرة لراسل.
مجتمع العقل هو منظور اختزالي للذكاء البشري أثر بشكل كبير على الذكاء الاصطناعي ويجادل بأن أي وظيفة لا تنتج الذكاء مباشرة. بدلاً من ذلك، يأتي الذكاء من التفاعل المدبر لمجموعة متنوعة من الوكلاء القادرين ولكن الأبسط وغير الذكيين. على سبيل المثال، عند شرب كوب من الشاي، يتم تفعيل وكيل حركي يمسك الكوب، وموازن يمنع انتشار الشاي، ومستشعر حرارة يؤكد أن حلقنا لن يتأذى. ترى هذه النظرية الحالات العاطفية كنماذج من التفعيل. على سبيل المثال، الحالة التي نسميها “غاضب” قد تكون ما يحدث عندما يتم تفعيل سحابة من الموارد التي تساعدك على التفاعل بسرعة وقوة غير عادية – بينما يتم قمع بعض الموارد الأخرى التي تجعلك تتصرف بحذر (الشكل 2).
تفترض نظرية مينسكي للعاطفة أنك تشعر “بالغضب” عندما يُسرق كعكتك من قبل أطفال آخرين، لأن قواعد IF-THEN-DO تُفعّل الموارد لمساعدتك في استعادتها. التفعيل تكيفي حيث نتعلم وننمو. بالنسبة لـ FSA، فإن إجراء حاسم هو تحديد الموارد المرشحة التي تحتاج إلى تصميم: لن يتطلب الأمر المجموعة الكاملة من الموارد في دماغنا والتي ستكون أكثر تحديًا للبناء. في بقية هذا القسم، أصف دوافع التصميم باستخدام إطار عمل علم تصميم قائم على نظرية النواة (الجدول 1).

2.4 المتطلبات الميتا، التصاميم الميتا، والفرضيات

على الرغم من أن مجتمع العقل يعتمد بشكل كبير على البناء المفاهيمي لـ “المورد”، إلا أنه يُحتفظ به عمدًا بطريقة غامضة (ص. 25 في [27])، مشيرًا إلى جميع أنواع الأجزاء الوظيفية التي تتراوح من الإدراك والفعل إلى التفكير التأملي. لذلك، يبدو من المناسب محاكاة الموارد باستخدام وكلاء LLM ذوي القدرات المتعددة التخصصات، وتخصص وظائفهم عبر المطالبات. هذه الاختيار يجعل أيضًا تفعيل الموارد معقولًا، لأن الوكلاء المتخصصين لن يولدوا استجابات ذات مغزى للسياق خارج النطاق. وبالتالي، تم تصميمه بحيث تتلقى جميع وكلاء LLM الرسالة الأصلية من المستخدم. لتجميع المعلومات، فإن تقنية مستخدمة على نطاق واسع هي دمجها في مطالبة أطول [35، 13، 17، 21]. من خلال ترجمة المتطلبات الميتا إلى تصاميم ميتا أكثر تفصيلًا، يمكن تمثيل إطار HAD رسميًا على النحو التالي:
الجدول 1: تصميم قائم على نظرية النواة: إطار ميتا
نظرية النواة
مجتمع العقل وآلات المشاعر.
تفترض النظريات أن المشاعر تأتي من تفعيل موارد مختلفة.
المتطلبات الميتا
1. لمحاكاة الموارد، يجب علينا تعريف الوكلاء ووظائفهم.
2. لتفعيل الوكلاء، يجب علينا تقديم معلومات حول الذاتية.
3. لتحقيق قرار مستنير جيدًا، يجب علينا تجميع المعلومات من وكلاء مختلفين.
التصاميم الميتا
1. تُستخدم أنواع الأخطاء كمعرفة مجال لتوجيه بناء قدرات الوكلاء المتنوعين.
2. يتم توزيع رسالة المستخدم على كل وكيل LLM.
3. يتم دمج مخرجات الوكلاء المتخصصين لتشكيل المطالبة التراكمية.
الفرضيات القابلة للاختبار
تقييم فعالية التصاميم الميتا. الفرضيات القابلة للاختبار المحددة هي كما يلي:
الفرضية 1: يمكن أن يحسن إطار HAD دقة المطالبات الساذجة الحالية لـ FSA.
الفرضية 2: لدى الوكلاء أهمية مختلفة ولكن جميعهم يساهمون بشكل إيجابي في التحليل.
  1. تعريف الوكلاء المتنوعين وقوالب مطالباتهم .
  2. الحصول على تحليل وسيط (User_Message)
  3. الحصول على نتيجة تحليل تراكمية User_Message,
يمكن تنفيذ الخطوة الثانية لعدة جولات قبل الإرسال للحصول على ملخص اعتمادًا على حالة الإجماع. يتم تقديم توضيح لسير العمل في الشكل 3
لتقييم ما إذا كان الإطار المقترح فعالًا، تم تطوير فرضيتين قابلتين للاختبار. إذا كانت أنواع الأخطاء مفيدة لتوجيه تصميم الوكيل، نتوقع أن تتحسن مقاييس الأداء (H1). بسبب مشكلة عدم توازن البيانات الملحوظة في FSA، يجب أيضًا التحقيق في درجة F-1 بالإضافة إلى الدقة. ملاحظة أخرى هي أن حدوث كل نوع من الأخطاء ليس متساويًا ويختلف عبر مجالات اللغة المختلفة [46، 39]. وبالتالي، يُفترض أن الوكلاء سيكون لديهم أهمية مختلفة ولكن جميعهم يساهمون بشكل إيجابي في مهمة FSA (H2).

3 قطعة تصميم: مناقشة الوكيل المتنوع (HAD)

لتجسيد قطعة تصميم بناءً على إطار HAD، يجب تحديد عدد الوكلاء ( ) .
حقق زيمبرا وآخرون [46] قائمة شاملة من طرق تحليل المشاعر على تويتر واستنتجوا ثلاثة تحديات رئيسية: (1) قصر اللغة، (2) الفئات غير المتوازنة، و(3) الاعتماد الزمني. بسبب هذه التحديات، تم تحديد 13 فئة من الأخطاء التصنيف الشائعة. يمكن تلخيص الفئات الرئيسية التي تستند إلى الميزات اللغوية على النحو التالي: (1) الفكاهة، (2) الدقة أو مزيج من المشاعر، (3) عدم الصلة (مثل عدم تطابق الجوانب)، (4) معلومات تسويقية تُعتبر إيجابية، و(5) استخدام سياقي غير نمطي. حقق شينغ وآخرون [39] الأخطاء الشائعة في نطاق مختلف قليلاً: تحديدًا لـ FSA بما في ذلك مصادر النصوص الأخرى غير تويتر تم تحديد 6 فئات من الأخطاء، أي: (1) المزاج غير الواقعي، (2) البلاغة، (3) الرأي المعتمد، (4) الجوانب غير المحددة، (5) الكلمات غير المعترف بها، و(6) المرجع الخارجي، لها تداخل كبير مع تلك المبلغ عنها من [46].
مع هذا الخلفية، تم تصميم خمسة وكلاء بناءً على [39] لأن (1) هذه الفئات أكثر ارتباطًا بـ FSA بشكل مباشر و(2) هذه الفئات أقل عددًا (6 مقارنة بـ 13) وأكثر عملية. نظرًا لأن LLMs لوحظ أنها قوية ضد الكلمات غير المعترف بها والأخطاء الإملائية من الويب، لم يتم تصميم وكيل خاص وفقًا لهذا الخطأ. الوكلاء الخمسة ومطالباتهم المميزة هي:
  • A1 (وكيل المزاج): يرجى الانتباه بشكل خاص إلى أي مزاج غير واقعي مستخدم.
  • A2 (وكيل البلاغة): يرجى الانتباه بشكل خاص إلى أي بلاغة (سخرية، تأكيد سلبي، إلخ) مستخدمة.
  • A3 (وكيل الاعتماد): يرجى التركيز على مشاعر المتحدث، وليس طرف ثالث.
  • A4 (وكيل الجانب): يرجى التركيز على رمز السهم/العلامة/الموضوع، وليس الكيانات الأخرى.
  • A5 (وكيل المرجع): يرجى الانتباه بشكل خاص إلى تعبيرات الوقت، والأسعار، والحقائق الأخرى غير المعلنة.
تأخذ المطالبة التراكمية شكل “بالنظر إلى هذه الرسالة: [رسالة الاختبار] وآراء إضافية من الخبراء [الآراء]، ما هو الشعور، إيجابي/سلبي/محايد؟”. يتم ضبط بعض الفروق الدقيقة وفقًا لما إذا كانت تصنيف اختبار السرير ثنائية أو ثلاثية.

4 التقييم

وصف هيفنر وآخرون [18] خمسة أنواع من طرق تقييم التصميم. تستفيد هذه الدراسة من ثلاثة منها: (1) الاختبار التجريبي على مجموعات البيانات الحالية ومقاييس الأداء المنتجة، (2) تحليل الإزالة مع مكونات الوحدة المعدلة، و(3) التقييم الملاحظ بناءً على دراسات الحالة.
الشكل 3: مقارنة توضيحية بين المطالبة الساذجة (المثال العلوي) وإطار HAD المقترح (المثال السفلي) مع 3 وكلاء متنوعين مستوحاة من أنواع أخطاء FSA.

4.1 تحسين الأداء

تم تقييم إطار التصميم المقترح على خمسة مجموعات بيانات موجودة، وهي: Financial PhraseBank [26]، StockSen [39]، CMC [3]، FiQA Task 1 [25]، وSEntFiN 1.0 [33]. المجموعتان الأخيرتان هما مجموعات بيانات تحليل المشاعر المالية ذات الدقة الأعلى مع درجات شدة المشاعر أو تسميات متعددة للأهداف/الكيانات، على الرغم من أنني قمت بتطبيق التكميم والترشيح لتناسب التقييمات ضمن مشكلة تصنيف متسقة. على سبيل المثال، تحتوي مجموعة بيانات FiQA الأصلية [25] على 1173 رسالة مع درجات مشاعر تتراوح من -1 إلى +1. من خلال تصفية تلك الدرجات بقيمة مطلقة أكبر من 0.3، تبقى فقط 771 رسالة ويتم تصنيفها إلى الفئات الإيجابية/السلبية. يتم الإبلاغ عن الإحصائيات التفصيلية في الجدول 2. من حيث نوع النص، فإن Financial PhraseBank (FPB) يأتي من الأخبار وSEntFiN يأتي من عناوين الأخبار. StockSen وCMC يأتيان من وسائل التواصل الاجتماعي (StockTwits وكوين ماركت كاب.كومعلى التوالي)، وتم تجميع FiQA بالكامل من الزحف على مزيج من StackExchange وReddit وStockTwits.
تم اختبار إطار HAD على نموذجين لغويين تم تحسينهما بواسطة التعليمات: GPT-3.5 كممثل لـ restrictaccess، وBLOOMZ (الإصدار 560 م [28]) كممثل للوصول المفتوح. تم الحصول على مقاييس الأداء على GPT-3.5 من خلال واجهة برمجة التطبيقات الخاصة بـ OpenAI، وتم حساب المقاييس على BLOOMZ باستخدام لابتوب مزود بشريحة Apple M1 ذات 8 أنوية وذاكرة 16 جيجابايت. بالنسبة لكلا النموذجين اللغويين الكبيرين، يستغرق تنفيذ تجربة واحدة من دقائق إلى ساعات. يتم الإبلاغ عن مقاييس الأداء في الجدول 3. بالنسبة للتصنيفات الثلاثية (FPB و SEntFiN)، يتم استخدام درجات F-1 الكلية. تم تضمين بعض المقاييس (باللون الرمادي) من BloombergGPT [36] و (Fin-)BERT [39، 32، 12، 3، 33] للمساعدة في تقييم الفجوات تقريبًا مقارنة بالنتائج المعتمدة على التخصيص. من الجدير بالذكر أن هذه المقاييس مستشهد بها من دراسات أخرى و BloombergGPT هو نموذج ملكي، لذا قد يتم الحصول على المقاييس من إعدادات تقييم مختلفة (مثل، 3/5 فئات أو تقسيمات بيانات مختلفة).
الملاحظة الأولى هي السلوكيات المختلفة لنموذجي GPT-3.5 وBLOOMZ كنماذج أساسية. تم تدريب GPT-3.5 بشكل رئيسي على مجموعة بيانات Common Crawl [2]، التي أرشفت الويب. بينما تم تدريب BLOOMZ على مجموعة بيانات أكبر من مصادر النصوص المفتوحة في العلوم والتعاون المفتوح [19]، والتي تتكون بشكل رئيسي من مجموعات بيانات علمية تم جمعها من قبل الجمهور. جميع مجموعات البيانات الخمس المستخدمة للاختبار تأتي من الويب: وهذا قد يكون أقرب إلى مجال اللغة الذي تم تدريب GPT-3.5 عليه. لوحظ أن GPT-3.5 يتمتع بتدريب أفضل على التعليمات من خلال التغذية الراجعة البشرية الخاصة به. في المقابل، يميل BLOOMZ إلى مهمة إكمال اللغة. على سبيل المثال، قد تؤدي العبارة “ترجم إلى الإنجليزية: Je t’aime” بدون نقطة (.) في النهاية إلى محاولة النموذج مواصلة الجملة الفرنسية بدلاً من ترجمتها. يميل BLOOMZ إلى الإكمال/الإجابة بلغة مختصرة. بالنسبة للأسئلة المفتوحة المتعلقة بالعواطف تجاه وكلاء متنوعين، غالبًا ما يقدم BLOOMZ حكمًا نهائيًا إيجابيًا/سلبيًا دون الكثير من التبرير، وليس جيدًا في توقع الرسائل “المحايدة”. بالنسبة للعوامل التي تم مناقشتها سابقًا،
الجدول 2: إحصائيات ملخصية لمجموعات بيانات FSA الخمس (بعد المعالجة).
مجموعة بيانات FPB ستوك سين سي إم سي في كيو إيه SEntFiN
إيجابي 570 4542 12022 ٥٠٧ ٢٨٣٢
سلبي ٣٠٣ 1676 1523 264 ٢٣٧٣
محايد 1391 ٢٧٠١
الحجم الكلي 2264 6218 13545 ٧٧١ 7906
الجدول 3: آثار تطبيق إطار تصميم HAD على نماذج اللغة الكبيرة المختلفة.
مجموعة البيانات النموذجية FPB ستوك سين سي إم سي في كيو إيه SEntFiN
حساب فورمولا 1 حساب فورمولا 1 حساب فورمولا 1 حساب فورمولا 1 حساب فورمولا 1
(فين-)بيرت 91.69 ٨٩.٧٠ ٧٦.٩٠ ٨٤.٥٠ 93.50 94.29 93.27
بلومبرغ جي بي تي ٥١.٠٧ 75.07
جي بي تي-3.5 78.58 81.06 67.64 73.93 85.31 91.05 90.53 92.41 67.99 63.21
جي بي تي-3.5 (هاد) 80.48 81.41 70.44 ٧٦.٥٥ ٨٧.٥٥ 92.50 93.91 95.22 77.45 ٧٦.٩٣
بلومز ٣٤.٦٣ ٣٢.٩٠ 63.65 72.47 ٨٧.١٦ 92.62 78.33 ٨٣.٦٤ ٥١.٣٢ 41.87
بلومز (هاد) ٣٤.١٩ ٣٢.٩٣ 72.80 ٨٣.٩٧ ٨٧.٦٧ 92.95 ٧٦.٧٨ ٨٣.٠٣ 50.16 ٤٠.٦٩
تكون مقاييس أداء BLOOMZ عمومًا أدنى باستثناء مجموعة بيانات CMC، وتكون الفروق أكثر وضوحًا بالنسبة لـ FPB و SEntFiN، اللتين تحتويان على فئات محايدة.
الملاحظة الثانية هي أن HAD عمومًا يحسن الدقة ودرجات F-1 على النماذج الأساسية (الجدول 3). التحسينات (من إلى للدقة ومن إلى لـ F1-score) متسقة جدًا على GPT-3.5، ربما بسبب التحليل الوسيط الأكثر ثراءً الذي تم إنتاجه. تأثير HAD على BLOOMZ ضئيل باستثناء مجموعة بيانات StockSen، حيث أن… التحسينات ملحوظة. ومن الجدير بالذكر أن StockSen هو مجموعة البيانات التي تم اشتقاق أنواع الأخطاء لتصميم الوكلاء منها.
الملاحظة الأخيرة تتعلق بتقييم أهمية التحسينات. نظريًا، فإن ضبط نماذج اللغة الكبيرة (LLMs) لمهمة تالية سيؤدي إلى أداء أفضل من إعدادات التعلم القائم على التعليمات/التعلم الصفري، تمامًا كما هو الحال في الفروق بين التعلم المراقب وغير المراقب. تكلفة الضبط في سياق FSA هي مضاعفة: عليك أن تطلب من الخبراء جمع وتصنيف الآلاف من الأمثلة؛ وسيكون الأداء هشًا أمام تغيرات توزيع البيانات ويعتمد على تقنيات التحسين المطبقة. من خلال مقارنة التحسينات بالفروق العامة بين GPT-3.5 و(Fin)-BERT على FPB وStockSen وCMC وSEntFiN، فإن التقدير العادل هو أن إطار HAD يمكنه إصلاح فجوة بين ICL والتعديل الدقيق.

4.2 تحليل الاستئصال

لاختبار أهمية كل وكيل LLM، تتم إزالة ردودهم الوسيطة بشكل فردي ويتم الإبلاغ عن انخفاض الأداء مقارنةً بـ GPT-3.5 (HAD) في الجدول 4. بسبب قيود الوقت، تم استخدام ثلاثة مجموعات بيانات فقط والنتائج المتوسطة: FPB وFiQA هما الأصغر حجماً، وتأثير HAD هو الأكثر وضوحاً على SEntFiN.
يلاحظ أن وكيل المزاج (A1) ووكيل البلاغة (A2) ووكيل الجانب (A4) هم الأكثر أهمية: إزالة أي منهم سيكون لها تأثير سلبي بشكل عام على الأداء. وكيل المرجع (A5) أقل أهمية: تأثير إزالته غير مؤكد عبر مجموعات بيانات مختلفة. يبدو أن وكيل الاعتماد (A3) غير فعال: إزالة A3 ستزيد من تحسين الأداء. قد تشير عدم فعالية A3 إلى أن اعتبار هذا النوع من الأخطاء غير ضروري، أو يمكن أن يُعزى إلى تصميم غير فعال للمطالبة. في كلتا الحالتين، تشير الأداءات الملحوظة إلى أن الوكلاء المتنوعين لديهم تفاعلات غير خطية معقدة، ويمكن تحسين التصميم المقدم بشكل أكبر مع مزيد من الأدلة التجريبية.

4.3 دراسة حالة

تم تقديم خمس حالات لتوضيح جودة مخرجات HAD وكيف تتنبأ تلك المخرجات بقطبية مختلفة عن التحفيز الساذج.
الجدول 4: آثار إزالة أحد الوكلاء (باستخدام gpt-3.5-turbo-1106 كنموذج أساسي)
مجموعة بيانات النموذج FPB في كيو إيه SEntFiN متوسط
حساب فورمولا 1 حساب فورمولا 1 حساب فورمولا 1 حساب فورمولا 1
جي بي تي-3.5 (هاد) 80.48 81.41 93.91 95.22 ٧٧.٤٥ ٧٦.٩٣
جي بي تي-3.5 -1.90 -0.35 -3.38 -2.81 -9.46 -13.72
بدون A1 -0.71 +0.64 -0.01 +0.02 -0.58 -0.61 -0.43 +0.02
بدون A2 -2.12 -0.39 +0.64 +0.52 -0.80 -0.99 -0.76 -0.29
بدون A3 +3.00 +3.56 +0.51 +0.42 +0.01 +0.03 +1.17 +1.34
بدون A4 +0.04 +0.97 +0.25 +0.22 -0.66 -0.69 -0.12 +0.16
بدون A5 +4.32 +4.29 -0.01 -0.00 -0.52 -0.43 +1.26 +1.28
في الحالة 1، يتم ذكر عدة شركات ويؤدي التحفيز الساذج إلى توقع سلبي دون الكثير من الشرح. مع HAD، يعتقد A1 و A2 أن هذه الرسالة محايدة وفقًا لوجهات نظرهم. حجة A1 معقولة حيث أن الإيجابية مرتبطة بشكل مباشر أكثر بـ Wells Fargo منها بـ Berkshire. مع اعتبار A3 و A4 و A5 الرسالة إيجابية، يلخص الإطار في النهاية قطبية صحيحة على أنها إيجابية.
الحالة 2 صعبة ويمكن بسهولة أن تُعتبر إيجابية من خلال التوجيه الساذج باستخدام عبارة رئيسية مثل “رفع … أعلى”. لفهم السياق بشكل صحيح، يجب أن يعرف المرء أن تايلور ويمبي وآشتياد هما شركتان في مجال بناء المنازل وتأجير معدات البناء. لذا، فإن “رفع الأسواق أعلى” قد يشير إلى المؤشر أو أسواق العقارات ويضع سيناريو اقتصادي. له تداعيات معقدة على الشركتين وليس مباشرًا مثل “انخفاض باركليز”. A1 و A4 و A5 صحيحة بشأن المشاعر المختلطة. مع كون حكم A3 محايدًا و A2 يتنبأ بالسلبية، تلخص الإطار في النهاية قطبية صحيحة على أنها سلبية.
تنبأت الحالة 3 بأنها إيجابية من خلال التحفيز الساذج. على الرغم من أن A1 أوضح أن تقليل التهريب جيد للمجتمع، إلا أن الرسالة تبدو وكأنها تعلق على الذهب نفسه كسلعة. على الرغم من عدم وجود مزاج غير واقعي أو أي بلاغة، فإن A1 و A2 و A5 يتنبؤون بشكل صحيح بأن الرسالة سلبية. مع رؤية A3 و A4 لها على أنها محايدة، فإن القرار النهائي هو سلبي وفقًا للأغلبية.

الحالة 1: بيركشاير تسعى لزيادة حصتها في ويلز فارجو فوق 10٪ (إيجابية)

(A1) محايد. لا توجد مؤشرات على مشاعر إيجابية أو سلبية. استخدام “تسعى إلى” يشير إلى مزاج غير واقعي، مما يعني أن بيركشاير تسعى لزيادة حصتها ولكن العمل لم يكتمل بعد. (A2) محايد. لا توجد مؤشرات على السخرية أو التأكيد السلبي في الرسالة. (A3) من المحتمل أن تكون مشاعر المتحدث في هذه الرسالة إيجابية، حيث يعبرون عن نيتهم لزيادة حصتهم، مما يشير إلى الثقة. (A4) المشاعر إيجابية بالنسبة لـ “ويلز فارجو” حيث تشير طلبات بيركشاير هاثاوي إلى الثقة والتفاؤل في إمكانيات الشركة. (A5) مشاعر الرسالة بشكل عام إيجابية. قرار بيركشاير هاثاوي قد يؤثر إيجابيًا على سعر سهم ويلز فارجو وسمعته العامة. توقيت الزيادة يشير إلى إمكانية النجاح على المدى الطويل على الرغم من أي تحديات حالية تواجه ويلز فارجو.

الحالة 2: افتتاح لندن: تايلور ويمبي وآشتيد يدفعان الأسواق للأعلى، باركليز ينخفض (سلبية)

(A1) مشاعر مختلطة. دفع الأسواق للأعلى يشير إلى مشاعر إيجابية، بينما انخفاض باركليز يشير إلى مشاعر سلبية. لا يوجد استخدام لمزاج غير واقعي. (A2) سلبية. يبرز حقيقة أن باركليز ينخفض، بينما يعطي أقل أهمية للأداء الإيجابي لتايلور ويمبي وآشتيد. لا توجد بلاغة محددة مستخدمة. (A3) محايد. هم ببساطة يبلّغون عن تحركات السوق وأداء بعض الشركات. (A4) إيجابية لتايلور ويمبي وآشتيد حيث إنهم يدفعون الأسواق للأعلى، بينما المشاعر سلبية بالنسبة لباركليز حيث إنه ينخفض. (A5) بشكل عام مشاعر مختلطة. بعض الشركات تؤدي بشكل جيد وتدفع السوق للأعلى، بينما الأخرى، مثل باركليز، لا تسير على ما يرام.

الحالة 3: تهريب الذهب يشهد انخفاضًا مع تراجع الطلب عليه (سلبي)

(A1) المشاعر سلبية. كلمة “انخفاض” تشير إلى تراجع في نشاط التهريب، والذي يمكن أن يُعتبر إيجابيًا، لكن تراجع الطلب على الذهب يعني تأثيرًا سلبيًا على السوق العامة للذهب. لا يوجد مزاج غير واقعي مستخدم في هذه الرسالة. (A2) المشاعر سلبية. انخفاض وتراجع يشيران إلى تراجع في الطلب على الذهب، مما قد يكون له آثار سلبية على المعنيين بتهريب الذهب. لا توجد أدوات بلاغية محددة موجودة. (A3) المتحدث محايد. (A4) محايد. (A5) المشاعر سلبية. الانخفاض في الطلب يشير إلى تراجع في السوق، مما يؤدي إلى انخفاض في أنشطة التهريب. وهذا يشير إلى ضعف سوق الذهب، مما قد يؤثر على الأسعار والتجارة داخل الصناعة.

الحالة 4: خطة العقارات لبورافانكارا ليست CIS: سيبي (سلبي)

(A1) المشاعر سلبية. استخدام كلمة “ليست” يشير إلى نفي نتيجة إيجابية، وذكر سيبي يشير إلى أنه قد تكون هناك قضايا تنظيمية أو قانونية مرتبطة بخطة العقارات لبورافانكارا. لا يبدو أن هناك أي مزاج غير واقعي مستخدم في هذه الرسالة. (A2) المشاعر سلبية. “ليست CIS” قد تعني الشك في أن خطة العقارات لبورافانكارا كانت CIS (خطة استثمار جماعي)، والتي تنظمها SEBI (هيئة الأوراق المالية والبورصات في الهند). استخدام مصطلح “خطة” يحمل أيضًا دلالة سلبية، حيث يمكن أن يعني خطة مشبوهة أو خادعة. بشكل عام، الرسالة تنقل وجهة نظر سلبية عن أنشطة بورافانكارا العقارية فيما يتعلق بتنظيمات SEBI. (A3) محايد. البيان يقدم فقط معلومات واقعية. (A4) محايد. (A5) يبدو أن المشاعر سلبية، كما يتضح من ذكر سيبي عدم اعتبار خطة العقارات لبورافانكارا كخطة استثمار جماعي (CIS). قد تكون هناك بعض القضايا التنظيمية أو الامتثال مع الخطة، مما قد يكون له آثار سلبية على الشركة ومستثمريها. بالإضافة إلى ذلك، فإن حقيقة أن الخطة تخضع للتدقيق من قبل هيئة تنظيمية تشير إلى خطر أو قلق محتمل. ومع ذلك، دون مزيد من التفاصيل حول الطبيعة المحددة للخطة أو أسباب قرار سيبي، من الصعب تقييم المشاعر بشكل كامل.

الحالة 5: ويرلبول قد تصل إلى حوالي 450-475: ديفانغ فيساريا (محايد)

(A1) المشاعر محايدة. استخدام “قد” يشير إلى مزاج غير واقعي، مما يعني أن البيان افتراضي أو غير مؤكد. (A2) يبدو أن المشاعر محايدة. لا توجد بلاغة واضحة أو لغة عاطفية. البيان يقدم ببساطة نطاقًا متوقعًا للحركة المحتملة لويرلبول. (A3) يبدو أن مشاعر المتحدث إيجابية إلى حد ما حيث يذكرون زيادة محتملة في سعر سهم ويرلبول، مما يشير إلى شعور بالتفاؤل أو الترقب. (A4) محايد. (A5) المشاعر محايدة. يقدم ببساطة توقعًا بشأن الحركة المحتملة للسعر دون التعبير عن إيجابية أو سلبية. يعتمد على التحليل ولا ينقل أي عاطفة أو تحيز.
الحالة 4 صعبة الفهم وتنبأت بأنها إيجابية من خلال التحفيز الساذج. المصطلحات والمراجع الخارجية هي التحديات الرئيسية. من ردود A1 و A2 و A5، يمكن ملاحظة أن “بورافانكارا هي شركة عقارية”، “CIS تعني خطة استثمار جماعي” و”سيبي هي هيئة تنظيمية للأوراق المالية” هي معرفة مشتركة. من المدهش أن A2 يظهر تفكيرًا زمنيًا وعكسيًا، مما يساعد في فهم هذه الرسالة.
الحالة الأخيرة 5 تم التنبؤ بها بشكل خاطئ على أنها إيجابية من خلال التحفيز الساذج، ربما بسبب اللون الإيجابي الطفيف لعبارة “تصل إلى”. A1 و A2 حددوا بشكل صحيح عدم اليقين المرتبط بالمزاج غير الواقعي. A3 اكتشف نفس الإيجابية كما في التحفيز الساذج، بينما جميع الوكلاء الأربعة الآخرين يتنبؤون بأن الرسالة محايدة. مع العدد الغالب من التنبؤات المحايدة ( )، تلخص الإطار بشكل صحيح القطبية على أنها محايدة. وهذا يظهر قدرة HAD على تصحيح المشاعر الطفيفة وغير المؤكدة من خلال آلية النقاش.

5 المناقشة، الاستنتاج، والعمل المستقبلي

تمت دراسة تصميم تعاون LLM المستند إلى نظرية جديدة لـ FSA، يسمى HAD. يتضمن التصميم وكلاء LLM غير المتجانسين ويخصصهم لأنواع أخطاء FSA المكتشفة في الأدبيات السابقة. هذا التصميم أكثر كثافة حسابية من التحفيز الساذج، ولكنه أقل تعقيدًا بكثير مقارنة بالعديد من أطر تعاون LLM الأخرى والأساليب المعتمدة على الضبط الدقيق. في ضوء أسئلة البحث والفرضيات، تم العثور على أن HAD يحسن بدقة FSA عبر عدد من مجموعات البيانات الحالية، خاصة عندما يمكن لوكلاء LLM إنتاج مناقشات كبيرة. إطار التصميم يغلق حوالي من فجوة الأداء بين التحفيز والضبط الدقيق. مع مطالبات قائمة على نوع الخطأ، يتصرف وكلاء LLM بشكل غير متجانس مع تركيزات مختلفة. المزاج والبلاغة وعوامل الجانب أكثر أهمية من عامل المرجع. تدعم نتائج التقييم الفرضية 1 (H1)، ولكن ترفض الفرضية 2 (H2) مع الملاحظة أن الأداء يمكن تحسينه أكثر إذا تمت إزالة عامل الاعتماد.
تقنيًا، تساهم هذه الدراسة في مجالين ضمن إطار مساهمة المعرفة (KCF) في التعلم العميق في أبحاث نظم المعلومات [31]. تم صياغة إطار HAD وتطبيقه في مجال تطبيقات عالية التأثير في FSA، حيث لا يزال التعديل الدقيق هو النموذج السائد ونادرًا ما يتم تطبيق التعاون بين LLM. الإطار خالي من التدريب ولا يتطلب تدريبًا، لذلك يجب أن يكون تحسين الأداء قادرًا على التعميم على مجموعات بيانات FSA الأخرى. عمليًا، يمكن للمستشارين الماليين، والمتداولين، ومديري الصناديق، وأنواع أخرى من المستثمرين استخدام هذا الإطار لبناء أدوات تحليل المشاعر الداخلية الخاصة بهم، أو توسيع معرفتهم بتصميمات النظام المحتملة لـ FSA.
تحتوي هذه الدراسة الأولية على بعض القيود، التي قد تلهم الأبحاث المستقبلية. القيد الأول هو قابلية التوسع. التنبؤ أو المناقشة مع وكلاء LLM أبطأ مقارنةً بالتحليل الإحصائي ويتطلب تكاليف. لهذا السبب، من الممكن وجود نظام كبير، أي مع المزيد من الوكلاء، لكنه غير مفضل أثناء التصميم والتقييم. القيد الثاني هو سرية مجموعات بيانات التقييم. StockSen و CMC و SEntFiN جديدة نسبيًا، لكن FPB و FiQA موجودتان منذ عدة سنوات. نظرًا لأن المواد التدريبية لـ LLMs عادةً ما تكون غير شفافة تمامًا وبعض LLMs تستمر في التحديث باستخدام التعلم المعزز وتعليقات البشر، لا يمكن استبعاد احتمال تعرض مجموعات بيانات التقييم لـ LLMs من قبل، مما يتسبب في تسرب بعض المعلومات. أخيرًا، تظهر دراسات الحالة أن أنواع الأخطاء المحددة يمكن حلها تقريبًا. لذلك، من المثير للاهتمام استكشاف أسباب الأخطاء الجديدة/المتبقية التي ارتكبتها LLMs وتقييم ما هي الأداءات على مستوى البشر/الخبراء على هذه المجموعات من بيانات FSA.
بعض التحديات الفريدة في FSA، مثل المراجع الخارجية للحقائق والمعرفة العالمية، كانت تُعتبر مستحيلة الحل في المستقبل القريب قبل ظهور نماذج بنية المحولات. مع الأمل في الذكاء العام الاصطناعي (AGI) على الأبواب، تعرض هذه الدراسة القدرات المتنوعة لـ LLM التي تكون مفيدة لـ FSA، وتدعو إلى مزيد من البحث في هذه المهمة المهمة.

References

[1] J. Bollen, H. Mao, and X. Zeng. Twitter mood predicts the stock market. Journal of Computational Science, 2(1):1-8, 2011. doi:10.1016/j.jocs.2010.12.007.
[2] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei. Language models are few-shot learners. In Proceedings of NeuIPS’20, pages 1877-1901, 2020. doi:10.48550/arXiv.2005.14165
[3] S. Chen and F. Xing. Understanding emojis for financial sentiment analysis. In Proceedings of ICIS’23, pages 1-16, 2023. URL https://aisel.aisnet.org/icis2023/socmedia_ digcollab/socmedia_digcollab/3/
[4] X. Chen, M. Lin, N. Schärli, and D. Zhou. Teaching large language models to self-debug, 2023. doi,10.48550/ARXIV.2304.05128.
[5] L. Chu, X.-Z. He, K. Li, and J. Tu. Investor sentiment and paradigm shifts in equity return forecasting. Management Science, 68(6):4301-4325, 2022. doi
[6] K. Cortis, A. Freitas, T. Daudert, M. Huerlimann, M. Zarrouk, S. Handschuh, and B. Davis. Semeval-2017 task 5: Fine-grained sentiment analysis on financial microblogs and news. In SemEval Workshop, 2017. doi 10.18653/v1/S17-2089
[7] D. de França Costa and N. F. F. da Silva. Inf-ufg at fiqa 2018 task 1: predicting sentiments and aspects on financial tweets and news headlines. In Companion Proceedings of the The Web Conference 2018, pages 1967-1971, 2018. doi
[8] J. Deng, M. Yang, M. Pelster, and Y. Tan. Social trading, communication, and networks. Information Systems Research, 2023. doi:10.1287/isre.2021.0143
[9] S. Deng, Z. J. Huang, A. P. Sinha, and H. Zhao. The interaction between microblog sentiment and stock returns: An empirical examination. MIS Quarterly, 42(3):895-918, 2018. doi .
[10] X. Deng, V. Bashlovkina, F. Han, S. Baumgartner, and M. Bendersky. What do llms know about financial markets? a case study on reddit market sentiment analysis. In Companion Proceedings of the ACM Web Conference 2023, 2023. doi .
[11] W. Dong, S. Liao, and Z. Zhang. Leveraging financial social media data for corporate fraud detection. Journal of Management Information Systems, 35(2):461-487, 2018. doi, 10.1080/07421222.2018.1451954
[12] K. Du, F. Xing, and E. Cambria. Incorporating multiple knowledge sources for targeted aspectbased financial sentiment analysis. ACM Transactions on Management Information Systems, 14(3):1-24, 2023. doi
[13] Y. Du, S. Li, A. Torralba, J. B. Tenenbaum, and I. Mordatch. Improving factuality and reasoning in language models through multiagent debate, 2023. doi 10.48550/ARXIV.2305.14325.
[14] H. Fei, B. Li, Q. Liu, L. Bing, F. Li, and T.-S. Chua. Reasoning implicit sentiment with chain-of-thought prompting. In Proceedings of ACL’23, pages 1171-1182, 2023. doi -short. 101
[15] S. Gregor and A. R. Hevner. Positioning and presenting design science research for maximum impact. MIS Quarterly, 37(2):337-355, 2013. doi .
[16] T. Hendershott, X. M. Zhang, J. L. Zhao, and Z. E. Zheng. Fintech as a game changer: Overview of research frontiers. Information Systems Research, 32(1):1-17, 2021. doi 10.1287/isre.2021.0997
[17] D. Hendrycks, C. Burns, S. Basart, A. Zou, M. Mazeika, D. Song, and J. Steinhardt. Measuring massive multitask language understanding. In Proceedings of ICLR’21, 2021. doi:10.48550/arXiv.2009.03300
[18] A. R. Hevner, S. T. March, J. Park, and S. Ram. Design science in information systems research. MIS Quarterly, 28(1):75-105, 2004. doi.10.2307/25148625.
[19] H. Laurençon, L. Saulnier, T. Wang, C. Akiki, A. V. del Moral, T. L. Scao, L. von Werra, C. Mou, E. G. Ponferrada, H. Nguyen, J. Frohberg, M. Sasko, Q. Lhoest, A. McMillan-Major, G. Dupont, S. Biderman, A. Rogers, L. B. Allal, F. D. Toni, G. Pistilli, O. Nguyen, S. Nikpoor, M. Masoud, P. Colombo, J. de la Rosa, P. Villegas, T. Thrush, S. Longpre, S. Nagel, L. Weber, M. Muñoz, J. Zhu, D. van Strien, Z. Alyafeai, K. Almubarak, M. C. Vu, I. Gonzalez-Dios, A. Soroa, K. Lo, M. Dey, P. O. Suarez, A. Gokaslan, S. Bose, D. I. Adelani, L. Phan, H. Tran, I. Yu, S. Pai, J. Chim, V. Lepercq, S. Ilic, M. Mitchell, A. S. Luccioni, and Y. Jernite. The bigscience ROOTS corpus: A 1.6tb composite multilingual dataset. In Proceedings of NeurIPS’22, 2022. doi:10.48550/arXiv.2303.03915
[20] M. Lengkeek, F. van der Knaap, and F. Frasincar. Leveraging hierarchical language models for aspect-based sentiment analysis on financial data. Information Processing & Management, 60(5):103435, 2023. doi. https://doi.org/10.1016/j.ipm.2023.103435.
[21] P. Liu, W. Yuan, J. Fu, Z. Jiang, H. Hayashi, and G. Neubig. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. ACM Computing Surveys, 55(9):1-35, 2023. doi .
[22] V. Liu and L. B. Chilton. Design guidelines for prompt engineering text-to-image generative models. In Proceedings of CHI ’22, 2022. doi:10.1145/3491102.3501825.
[23] Z. Liu, D. Huang, K. Huang, Z. Li, and J. Zhao. Finbert: A pre-trained financial language representation model for financial text mining. In Proceedings of IJCAI’20, pages 4513-4519, 2020. doi:10.24963/ijcai.2020/622.
[24] T. Loughran and B. McDonald. When is a liability not a liability? textual analysis, dictionaries, and 10-ks. Journal of Finance, 66(1):35-65, 2011. doi:10.1111/j.1540-6261.2010.01625.x.
[25] M. Maia, S. Handschuh, A. Freitas, B. Davis, R. McDermott, M. Zarrouk, and A. Balahur. WWW’18 open challenge: financial opinion mining and question answering. In Proceedings of WWW’18, pages 1941-1942, 2018. doi .
[26] P. Malo, A. Sinha, P. Korhonen, J. Wallenius, and P. Takala. Good debt or bad debt: Detecting semantic orientations in economic texts. Journal of the Association for Information Science and Technology, 65(4):782-796, 2014. doi.10.1002/asi.23062
[27] M. Minsky. The Emotion Machine: Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind. Simon & Schuster, 2006.
[28] N. Muennighoff, T. Wang, L. Sutawika, A. Roberts, S. Biderman, T. Le Scao, M. S. Bari, S. Shen, Z. X. Yong, H. Schoelkopf, X. Tang, D. Radev, A. F. Aji, K. Almubarak, S. Albanie, Z. Alyafeai, A. Webson, E. Raff, and C. Raffel. Crosslingual generalization through multitask finetuning. In Proceedings of ACL’23, pages 15991-16111, 2023. doi. long. 891
[29] H. Nori, Y. T. Lee, S. Zhang, D. Carignan, R. Edgar, N. Fusi, N. King, J. Larson, Y. Li, W. Liu, R. Luo, S. M. McKinney, R. O. Ness, H. Poon, T. Qin, N. Usuyama, C. White, and E. Horvitz. Can generalist foundation models outcompete special-purpose tuning? case study in medicine, 2023. doi,10.48550/ARXIV.2311.16452
[30] R. L. Peterson. Trading on Sentiment: The Power of Minds Over Markets. Wiley, 2016. doi:10.1002/9781119219149
[31] S. Samtani, H. Zhu, B. Padmanabhan, Y. Chai, H. Chen, and J. F. Nunamaker. Deep learning for information systems research. Journal of Management Information Systems, 40(1):271-301, 2023. doi,10.1080/07421222.2023.2172772.
[32] R. Shah, K. Chawla, D. Eidnani, A. Shah, W. Du, S. Chava, N. Raman, C. Smiley, J. Chen, and D. Yang. When FLUE meets FLANG: Benchmarks and large pretrained language model for financial domain. In Proceedings of EMNLP’22, 2022. doi 10.18653/v1/2022.emnlp-main. 148.
[33] A. Sinha, S. Kedas, R. Kumar, and P. Malo. SEntFiN 1.0: Entity-aware sentiment analysis for financial news. Journal of the Association for Information Science and Technology, 73(9):1314-1335, 2022. doi 10.1002/asi.24634.
[34] T. Sorensen, J. Robinson, C. Rytting, A. Shaw, K. Rogers, A. Delorey, M. Khalil, N. Fulda, and D. Wingate. An information-theoretic approach to prompt engineering without ground truth labels. In Proceedings of ACL’22, 2022. doi. -long. 60
[35] X. Sun, X. Li, S. Zhang, S. Wang, F. Wu, J. Li, T. Zhang, and G. Wang. Sentiment analysis through 1 lm negotiations, 2023. doi: 10.48550/ARXIV.2311.01876
[36] S. Wu, O. Irsoy, S. Lu, V. Dabravolski, M. Dredze, S. Gehrmann, P. Kambadur, D. Rosenberg, and G. Mann. Bloomberggpt: A large language model for finance, 2023. doi,10.48550/ARXIV.2303.17564.
[37] F. Xing, E. Cambria, and R. Welsch. Intelligent asset allocation via market sentiment views. IEEE Computational Intelligence Magazine, 13(4):25-34, 2018. doi .
[38] F. Xing, E. Cambria, and Y. Zhang. Sentiment-aware volatility forecasting. Knowledge Based Systems, 176:68-76, 2019. doi. 10.1016/j.knosys.2019.03.029.
[39] F. Xing, L. Malandri, Y. Zhang, and E. Cambria. Financial sentiment analysis: An investigation into common mistakes and silver bullets. In Proceedings of COLING’20, pages 978-987, 2020. doi: 10.18653/v1/2020.coling-main.85.
[40] F. Xing, F. Pallucchini, and E. Cambria. Cognitive-inspired domain adaptation of sentiment lexicons. Information Processing & Management, 56(3):554-564, 2019. doi:10.1016/j.jpm.2018.11.002
[41] Y. Yang, Y. Qin, Y. Fan, and Z. Zhang. Unlocking the power of voice for financial risk prediction: A theory-driven deep learning design approach. MIS Quarterly, 47(1):63-96, 2023. doi .
[42] S. Yao, D. Yu, J. Zhao, I. Shafran, T. Griffiths, Y. Cao, and K. Narasimhan. Tree of thoughts: Deliberate problem solving with large language models. In Proceedings of NeuIPS’23, pages 1-14, 2023.
[43] F. Yu, L. Quartey, and F. Schilder. Exploring the effectiveness of prompt engineering for legal reasoning tasks. In Findings of the Association for Computational Linguistics, 2023. doi: . findings-acl. 858 .
[44] B. Zhang, H. Yang, T. Zhou, M. Ali Babar, and X.-Y. Liu. Enhancing financial sentiment analysis via retrieval augmented large language models. In Proceedings of ICAIF’23, 2023. doi:10.1145/3604237.3626866
[45] W. Zhang, Y. Deng, B. Liu, S. J. Pan, and L. Bing. Sentiment analysis in the era of large language models: A reality check, 2023. doi 10.48550/ARXIV.2305.15005.
[46] D. Zimbra, A. Abbasi, D. Zeng, and H. Chen. The state-of-the-art in twitter sentiment analysis: A review and benchmark evaluation. ACM Transactions on Management Information Systems, 9(2):5:1-5:29, 2018. doi

  1. There is no strict definition of “how large” a language model has to be to qualify for the name of LLM. It seems that LLMs are usually far larger than the word2vec models (around 1 million parameters). This definition includes BERT (110-340 M parameters), GPT-3 (around 175 B parameters), and more.
  2. Now has been re-branded as ” X “.

Journal: ACM Transactions on Management Information Systems
DOI: https://doi.org/10.1145/3688399
Publication Date: 2024-08-13

Designing Heterogeneous LLM Agents for Financial Sentiment Analysis

Frank XingSchool of ComputingNational University of Singaporexing@nus.edu.sg

Abstract

Large language models (LLMs) have drastically changed the possible ways to design intelligent systems, shifting the focuses from massive data acquisition and new modeling training to human alignment and strategical elicitation of the full potential of existing pre-trained models. This paradigm shift, however, is not fully realized in financial sentiment analysis (FSA), due to the discriminative nature of this task and a lack of prescriptive knowledge of how to leverage generative models in such a context. This study investigates the effectiveness of the new paradigm, i.e., using LLMs without fine-tuning for FSA. Rooted in Minsky’s theory of mind and emotions, a design framework with heterogeneous LLM agents is proposed. The framework instantiates specialized agents using prior domain knowledge of the types of FSA errors and reasons on the aggregated agent discussions. Comprehensive evaluation on FSA datasets show that the framework yields better accuracies, especially when the discussions are substantial. This study contributes to the design foundations and paves new avenues for LLMs-based FSA. Implications on business and management are also discussed.

1 Introduction

Since OpenAI’s ChatGPT went viral one year ago, large language models (LLMs) have gone through fast improvements, showing a variety of capabilities. The AI adaptation for many financial services is accelerating, and big data-supported financial decision-making is no exception. Financial sentiment analysis (FSA) is a prototypical task in that category and is becoming increasingly important as financial service processes and our social behavior digitalize: companies disclose electronic versions of their annual reports, earning calls, and announcements, and investors join online communities, discussion forums, and social media to interact with others. The recent GameStop Saga [8] and the popularity of a spectrum of market sentiment indexes (e.g., MarketPsych [30]) have shown clear evidence that sentiment is a useful analytics tool for financial decision-making, forecasting short-term returns and volatilities [38], detecting fake news and fraud [11], and predicting risk [41]. The usefulness and the importance of accurate FSA are also underpinned by a long thread of research [1, 37, 9, 5]. Hendershott et al. [16] summarized that research on the application of AI on news, social media, and word-of-mouth data is a major category of leveraging AI in finance. Considering these factors, accurate FSA is desired for multiple stakeholders.
The majority of FSA systems were developed in the past decade and their architecture and design ideas have gone through several iterations along with the advances in natural language processing. Early systems rely on sentiment word dictionaries and simple rules or statistics to derive sentencelevel or message-level polarities. Efforts were made to discover words/phrases specific to the finance domain [24, 40]. A great amount of learning-based systems were later developed. Specifically, two benchmark tasks (SemEval 2017 Task 5 [6] and FiQA 2018 Task 1 [7]) were conducted, and the
best results were achieved by regression ensemble (RE), convolutional neural network (CNN), and support vector regression (SVR) models based on combined features of sentiment lexica and dense word representations. The following wave of designs were based on fine-tuning general-purpose pretrained language models, e.g., BERT (Bidirectional Encoder Representations from Transformers). For example, FinBERT [23] achieved good FSA results and the state-of-the-art is from integrating multiple auxiliary knowledge sources to a BERT variant [12]. In terms of leveraging LLMs for FSA, the current progress mainly employed the encoder type of transformer, e.g., BERT. However, the most powerful LLMs now are based on the decoder part of a transformer. The decoder architecture is natural for generative tasks such as discourse/chat completion and question answering, but can also be fitted for discriminative tasks and classification. This study is aware of the early stage and scant in-depth studies in this direction and thus explores ways of leveraging generative LLMs for FSA.
Different from many ad hoc designs developed from chain of thought (CoT) [10], tree of thoughts (ToT) [42], verification, self-consistency constraints, intermediate scratchpads, and multi-agent multirole settings, the design framework presented here follows the design science guidelines by Hevner et al. [18] and contributes to the prescriptive knowledge as a “design theory” [15]. Based on Minsky’s theory of mind and emotions, “emotional states” are our Ways to Think with a specific collection of resources turned on and others turned off given certain environment conditions [27]. Therefore, one FSA approach is to simulate the mental processes underlying the texts, requiring specialized LLM agents to play the roles of “resources”, i.e., functional parts of our brain that make us react to the environment. In the context of financial analysis, many resources are learned as professional knowledge and not innate parts of our brains. The design framework (Heterogeneous multi-Agent Discussion) chooses to develop specialized LLM agents by prompting, and the main function is to pay attention to a type of error that LLMs are prone to make for the given FSA task. The design artifact thus has five different agents and the FSA result is based on a shared discussion considering output from all the agents. I evaluate the artifact using multiple methods, and the results generally conclude the framework to be effective.
Figure 1: Different multi-agent LLM frameworks for reaching a consensus: (a) homogenous multiagent debate [13], (b) multi-role multi-agent negotiation [35], (c) heterogeneous multi-agent discussion (HAD: the proposed framework). Colors denote different roles and shapes denote heterogeneous agents.
The major challenge in instantiating this design is the lack of design theory on what each agent’s function should be. For this reason, many LLM multi-agent settings employ homogeneous agents. For example in the multi-agent debate framework, Du et al. [13] simply disseminate the same input to multiple LLM agents. Because of some randomness and perturbation, each agent’s response will not be identical. Later each agent will take outputs from other agents (excluding its own output) as additional information to update its original response (Fig. 1 (a)). It may go through multiple rounds though empirical results show that consensus will be achieved fast. Another framework is to assign different roles to LLM agents. Sun et al. [35] described a negotiation procedure where
a “discriminator LLM” is asked to judge whether it agrees with the output of a “generator LLM”. The judgment statement is sent back to the generator if consensus is not made. The framework requires a third LLM to negotiate and vote for the final result if discrepancies persist (Fig. 1(b)). Although the LLM agents in this framework play different roles, their capability assumptions remain the same. In such a sense, these agents are still non-specialized and homogeneous. In the proposed framework (Fig. 1 (c)), each agent has the same role, goes through a symmetric discussion workflow (unlike [35]), but is purposely designed to simulate the mental functions of different resources. Their responses are aggregated for FSA just like resources are activated to generate different emotional states.
Therefore, one objective of this study is to test whether error types [46, 39] can be a useful guideline for developing heterogeneous agents. Specifically, I am interested in the following research questions:
  • RQ1: How effective is HAD compared to naive prompting and to the fine-tuning paradigm?
  • RQ2: How to prompt LLM agents to behave heterogeneously for sentiment analysis in finance?
  • RQ3: What are the quantitative contributions of each LLM agent and their relative importance?
To address these questions, HAD is evaluated using multiple methods including empirical analysis of performance metrics on five FSA datasets, ablation analysis with different sets of agents, and case studies of outputs and intermediary representations. The experimental results show that HAD can in general improve the FSA performance and the improvements are constant for GPT-based LLM agents. It has been observed that a simple template “please pay special attention to [error type]” can change LLM agents’ attention and prompt them to behave differently. Mood, rhetoric, and reference agents seem to be the main performance drivers and are more critical than other LLM agents, though the contributions are non-linear and have complicated interactions.
This study contributes to the design science literature by presenting a kernel theory-informed design artifact. A number of kernel theories from the natural or social sciences were introduced to information system design, whereas kernel theories from AI are comparatively rare. This study has implications for the emotion theory, LLM collaboration research, and financial decision-making practices. Firstly, it supports the society of mind and emotion machines [27] to be actionable theories that explain how emotions emerge as an important type of human intelligence; Secondly, this study applies multi-agent LLMs in FSA. This framework has been used for factuality checking, arithmetic/mathematical reasoning, optimization, general-purpose sentiment analysis, but not yet on FSA to the best of my knowledge. This study thus provides new materials for LLM collaboration, and also reinforces the design science-based approach to framework development; Lastly, the findings contribute to the prescriptive knowledge of FSA system design. Investors and traders may iterate and improve their own FSA systems based on the HAD framework or be more informed when they decide to select or purchase technical solutions of a similar kind.
In this section, related literature is organized into two lines: (any type of) use of LLMs for FSA, and ways of prompt design (not limited to FSA). I also elaborate on the theoretical foundations of employing heterogeneous agents for FSA.

2.1 Using LLMs for Financial Sentiment Analysis

Financial sentiment analysis (FSA) is a domain-specific business-oriented application closely related to the general natural language processing task of sentiment analysis. Because of its heavy use of terminologies and other linguistic features [39, 32], general sentiment analysis performances are usually not representative and will drop in the finance domain. FSA has been included to comprehensively evaluate LLMs for finance, together with other tasks such as Name Entity Recognition (NER), knowledge recall, question answering, and reading comprehension among others [32, 36].
In terms of using a singular LLM, the FSA task is sometimes formulated together with target or aspect detection, and the additional information may be used to improve FSA performances. For example, Lengkeek et al. [20] used the hierarchical structure of aspect systems to constrain FSA
results, though this information is rarely available in real-world production environments. Zhang et al. [44] observed that financial news is often overly succinct. A model that retrieves additional context from reliable external sources to form a more detailed instruction is consequently developed. Deng et al. [10] found that forcing the LLM through several reasoning paths with CoT helps generate more stable and accurate labels. The LLM generated labels are also useful and meet the quality for complementing human annotations for conventional supervised learning methods. Similarly, Fei et al. [14] developed a three-hop reasoning framework inspired by CoT that infers firstly the implicit aspect, secondly the implicit opinion, and finally the sentiment polarity. However, it has been pointed out [35] that a singular LLM has difficulties in fully exploiting the potential of LLM knowledge. This is especially true for FSA as it involves multiple LLM capabilities, such as reasoning, fact-checking, syntactic/semantic parsing, and more. I observe a similar phenomenon as reported in [45] that LLM performances on more complicated tasks are not as satisfactory as on the binary classification task. Moreover, the aforementioned designs (storage retrieval and CoT ) and more designs that are not yet applied to FSA, such as verification, self-consistency constraints, or intermediate scratchpads, are also largely heuristic, at most based on experiences, and lack solid theoretical foundation.
The proposed framework adopts in-context learning (ICL) and leverages multiple LLM instantiations (agents), which is also referred to as LLM collaboration. Strategies of collaboration include auxiliary tasks (e.g., verification) [4], debate [13], and various role-assignment [35] including generator, discriminator, programmer, manager, meta-controller, etc. Again, the design of auxiliary tasks and roles appears arbitrary and lacks solid theoretical foundations. LLM collaboration is also more investigated on many general natural language processing tasks including sentiment analysis, but their applicability on FSA lacks direct evidence. Perhaps most related to the proposed HAD design framework is MedPrompt [29]. It uses an ensemble of randomly shuffled CoT from homogeneous agents. The design is also more computationally heavy and difficult to transfer to the finance domain as existing financial question-answering datasets are more sparse.

2.2 Prompt Engineering

Before the emergence of generative LLMs, a well-accepted way of applying a language model to downstream tasks is through fine-tuning: remove the last neural network layer (referred to as the “head” layer) and let the training errors back-propagate with the bottom layers parameters fixed. Two major problems with it are: (1) a not-too-small training set and labels are still needed, and (2) the training process can be computationally intensive. With the observation that generative LLMs are very powerful, in-context learning contends it possible to get the desired output without fine-tuning and elicit the model capability with an appropriate “prompt”. Typically, prompt engineering involves the development of task-specific prompt templates, which describe how a prompt should be formulated to enable the pre-trained model to perform the downstream task at hand. Liu et al. [21] provided a survey on recent advances in prompt engineering and systematically compared cloze prompts and prefix prompts.
In terms of automatically searching for the prompt template, stochastic optimization-based methods are discussed. Sorensen et al. [34], for example, discovered that a good template is the one that maximizes the mutual information between input and the generated output.
In terms of designing prompts, Liu and Chilton [22] studied text-to-image generative models and the prompt template “SUBJECT in the style of STYLE”. They found the clarity and salience of keywords are important to the generation quality. Yu et al. [43] presented the idea of using domain knowledge to guide prompt design. It was reported that for the legal information entailment task, the best results are obtained when prompts are derived from specific legal reasoning techniques, such as Issue-Rule-Application-Conclusion (IRAC) as taught at law schools. For FSA, however, the design guidelines are unclear and most studies used naive prompts. For example, Chen and Xing [3] used “You are a helpful sentiment analysis assistant – [example message]:[sentiment]. User: [test message].” and BloombergGPT’s FSA template [36] is simply “[test message] Question: what is the sentiment? Answer with negative/neutral/positive”.

2.3 Kernel Theory: Emotions and the Society of Mind

Kernel theory is a key component of the information system design process according to Walls’ information system design theory (ISDT). It explains how/why the anticipated system would work
Figure 2: Illustration of the generation of emotional states from activating a collection of resources, cf. pg. 4 in [27].
and sheds light on the meta-requirements. In the context of FSA, the theory has to be one that explains the formative mechanism of emotion. For this reason, Minsky’s theory of mind and emotions is preferred over other descriptive/contrastive theories of emotions, such as Plutchik’s wheel of emotions or Russell’s circumplex model.
Society of mind is a reductionistic perspective of human intelligence that influenced AI greatly and argues no function directly produces intelligence. Instead, intelligence comes from the managed interaction of a variety of resourceful but simpler and non-intelligent agents. For example, when drinking a cup of tea, there activates a motor agent that grasps the cup, a balancer that keeps the tea from spreading, and a temperature sensor that confirms our throat will not be hurt. This theory sees emotional states as patterns of activation. For example, the state we call “angry” could be what happens when a cloud of resources that help you react with unusual speed and strength are activated – while some other resources that make you act prudently are suppressed (Fig. 2).
Minsky’s theory of emotion posits that you feel “angry” when your cake is stolen by other kids, because the IF-THEN-DO rules activate resources to help you take it back. The activation is adaptive as we learn and grow. For FSA, a crucial procedure is to decide what candidate resources need to be designed: it will not require the full set of resources in our brain which will be more challenging to build. In the remainder of this section, I describe the design rationales using a kernel theory-based design science framework (Table 1 ).

2.4 Meta-requirements, Meta-designs, and Hypotheses

Although the society of mind relies heavily on the conceptual construct of “resource”, it is purposefully kept in a hazy way (pg. 25 in [27]), referring to all sorts of functional parts that range from perception and action to reflective thinking. Therefore, it seems appropriate to simulate the resources using LLM agents with polymathic capabilities, and specialize their functions via prompts. This choice also makes resource activation plausible, because specialized agents will not generate meaningful responses to the out-of-scope context. It is thus designed such that all the LLM agents will receive the original user message. To aggregate information, a widely used technique is to concatenate them into a longer prompt [35, 13, 17, 21]. By translating the meta-requirements into more detailed meta-designs, the HAD framework can be formally represented as:
Table 1: Kernel Theory-Based Design: A Meta-Framework
Kernel theory
Society of mind and emotion machines.
The theories posit that emotions come from activation of different resources.
Meta-requirements
1. To simulate the resources, we should define agents and their functions.
2. To activate the agents, we should provide information about the subjectivity.
3. To achieve a well-informed decision, we should aggregate information from different agents.
Meta-designs
1. Types of error are used as domain knowledge to guide building heterogeneous agent capabilities.
2. The user message is distributed to each LLM agent.
3. Specialized agent outputs are concatenated to form the summative prompt.
Testable hypotheses
Evaluate the effectiveness of the metadesigns. Specific testable hypotheses are as follows:
Hypothesis 1: The HAD framework can improve the accuracy of existing naive prompts for FSA.
Hypothesis 2: The agents have different importance but all contribute positively to the analysis.
  1. Define heterogeneous agents and their prompt templates .
  2. Obtain intermediary analysis (User_Message)
  3. Obtain summative analysis Result User_Message,
The second step can be carried out for multi-rounds before sending for a summary depending on the consensus situation. An illustration of the workflow is presented in Fig. 3
To assess whether the proposed framework is effective, two testable hypotheses are developed. If types of error are useful for guiding agent design, we would expect the performance metrics to improve (H1). Because of the noted data imbalance issue in FSA, F-1 score should also be investigated on top of accuracy. Another observation is that the occurrences of each type of error are not equal and vary across different language domains [46, 39]. It is thus hypothesized that the agents will have different importance but all contribute positively to the FSA task (H2).

3 Design Artifact: Heterogeneous Agent Discussion (HAD)

To instantiate a design artifact based on the HAD framework, the number of agents ( ) has to be decided.
Zimbra et al. [46] had investigated a comprehensive list of Twitter sentiment analysis methods and concluded three major challenges: (1) language brevity, (2) imbalanced classes, and (3) temporal dependency. Because of these challenges, 13 categories of commonly occurring classification errors were identified. The main categories that ground to linguistic features can be summarized as: (1) humor, (2) subtlety or a mixture of sentiment, (3) irrelevance (e.g., aspect mismatch), (4) marketing information mistaken as positive, and (5) atypical contextual usage. Xing et al. [39] investigated the common errors in a slightly different scope: specifically for FSA and including text sources other than Twitter The 6 categories of errors identified, i.e., (1) irrealis mood, (2) rhetoric, (3) dependent opinion, (4) unspecified aspects, (5) unrecognized words, and (6) external reference, have significant overlap with those reported from [46].
With this background, five agents are designed based on [39] because (1) these categories are more directly FSA relevant and (2) these categories are less in number (6 compared to 13) and more operational. Since LLMs are observed to be robust to unrecognized words and spellings from the web, no special agent is designed according to this error. The five agents and their characteristic prompts are:
  • A1 (the mood agent): Please pay special attention to any irrealis mood used.
  • A2 (the rhetoric agent): Please pay special attention to any rhetorics (sarcasm, negative assertion, etc.) used.
  • A3 (the dependency agent): Please focus on the speaker sentiment, not a third party.
  • A4 (the aspect agent): Please focus on the stock ticker/tag/topic, not other entities.
  • A5 (the reference agent): Please pay special attention to the time expressions, prices, and other unsaid facts.
The summative prompt takes the form of “Considering this message: [test message] and additional opinions from experts [opinions], what is the sentiment, positive/negative/neutral?”. Some nuances are adjusted according to whether the testbed classification is binary or ternary.

4 Evaluation

Hevner et al. [18] described five kinds of design evaluation methods. This study leverages three out of them: (1) empirical testing on existing datasets and the produced performance metrics, (2) ablation analysis with manipulated module components, and (3) observational evaluation based on case studies.
Figure 3: An illustrative comparison between naive prompting (the upper example) and the proposed HAD framework (the lower example) with 3 heterogeneous agents inspired by FSA error types.

4.1 Performance Improvement

The proposed design framework is evaluated on five existing datasets, i.e., the Financial PhraseBank [26], StockSen [39], CMC [3], FiQA Task 1 [25], and SEntFiN 1.0 [33]. The last two are finer-grained financial sentiment analysis datasets with sentiment intensity scores or multiple targets/entities labels, though I applied quantization and filtering to fit the evaluations into a consistent classification problem. For example, the original FiQA dataset [25] has 1173 messages with sentiment scores ranging from -1 to +1 . By filtering those scores with an absolute value larger than 0.3 , only 771 messages are left and mapped to the positive/negative classes. The detailed statistics are reported in Table 2. In terms of text genre, Financial PhraseBank (FPB) is from news and SEntFiN is from news headlines. StockSen and CMC are from social media (StockTwits and CoinMarketCap.com respectively), and the whole FiQA is consolidated from crawling a mix of StackExchange, Reddit, and StockTwits.
The HAD framework is tested on two instruction-finetuned language models: GPT-3.5 as a restrictaccess representative, and BLOOMZ (the 560 m version [28]) as an open-access representative. The performance metrics on GPT-3.5 are obtained through OpenAI API, and metrics on BLOOMZ are computed using a laptop with an 8-core Apple M1 chip and 16 GB memory. For both LLMs, one experiment takes minutes to hours to execute. The performance metrics are reported in Table 3. For ternary classifications (FPB and SEntFiN), macro F-1 scores are used. Some metrics (in grey color) of BloombergGPT [36] and (Fin-)BERT [39, 32, 12, 3, 33] are included to help roughly assess the gaps to fine-tuning based results. Noteworthy, these metrics are cited from other studies and BloombergGPT is a proprietary model, so the metrics may be obtained from different evaluation settings (e.g., 3/5-classes or different data splits).
The first observation is the different behaviors of GPT-3.5 and BLOOMZ as base models. GPT-3.5 was trained mainly on the Common Crawl corpus [2], which archives the web. BLOOMZ was trained on an even larger Open-science Open-collaboration Text Sources corpus [19], which is mainly crowd-sourced scientific datasets. The five testing datasets are all from the web: this may be closer to GPT-3.5’s trained language domain. It is observed that GPT-3.5 is better instruction-tuned with its proprietary human feedback. In contrast, BLOOMZ inclines to the language completion task. An example is that the prompt “Translate to English: Je t’aime” without a full stop (.) at the end may result in the model trying to continue the French sentence instead of translating it. BLOOMZ inclines to complete/answer with concise language. For the sentiment-related open-ended questions to heterogeneous agents, BLOOMZ often answers a final judgment of positive/negative without much justification, and is not good at predicting “neutral” messages. For the afore-discussed factors,
Table 2: Summary statistics of the five FSA datasets (post-processing).
Dataset FPB StockSen CMC FiQA SEntFiN
Positive 570 4542 12022 507 2832
Negative 303 1676 1523 264 2373
Neutral 1391 2701
Total Size 2264 6218 13545 771 7906
Table 3: Effects of instantiating the HAD design framework on different LLMs.
ModellDataset FPB StockSen CMC FiQA SEntFiN
Acc. F-1 Acc. F-1 Acc. F-1 Acc. F-1 Acc. F-1
(Fin-)BERT 91.69 89.70 76.90 84.50 93.50 94.29 93.27
BloombergGPT 51.07 75.07
GPT-3.5 78.58 81.06 67.64 73.93 85.31 91.05 90.53 92.41 67.99 63.21
GPT-3.5 (HAD) 80.48 81.41 70.44 76.55 87.55 92.50 93.91 95.22 77.45 76.93
BLOOMZ 34.63 32.90 63.65 72.47 87.16 92.62 78.33 83.64 51.32 41.87
BLOOMZ (HAD) 34.19 32.93 72.80 83.97 87.67 92.95 76.78 83.03 50.16 40.69
BLOOMZ performance metrics are generally inferior except for the CMC dataset, and the differences are more pronounced for FPB and SEntFiN, which contain neutral classes.
The second observation is that HAD generally improves the accuracies and F-1 scores on the base models (Table 3). The improvements (from to for accuracy and from to for F1-score) are very consistent on GPT-3.5, probably due to the richer intermediary analysis generated. HAD’s effect on BLOOMZ is minimal except for on the StockSen dataset, where the ca. improvements are significant. Noteworthy, StockSen is the dataset on which the error types for agent design are derived.
The last observation is on assessing the significance of the improvements. Theoretically, fine-tuning the LLMs to a downstream task will perform better than the ICL/instruction-based/zero-shot setting just as in the differences of supervised/unsupervised learning. The cost of fine-tuning is bi-fold in the context of FSA: you have to ask experts to accumulate and label thousands of examples; and the performance will be fragile to data distribution shifts and dependent on the optimization techniques applied. By comparing the improvements to the overall differences between GPT-3.5 and (Fin)-BERT on FPB, StockSen, CMC, and SEntFiN, a fair estimation is that the HAD framework can fix of the gap between ICL and fine-tuning.

4.2 Ablation Analysis

To test the importance of each LLM agent, their intermediary responses are removed singly and the performance decreases benchmarked on GPT-3.5 (HAD) are reported in Table 4. Because of time constraints, only three datasets and the average results are used: FPB and FiQA have the two smallest sizes, and the effect of HAD is the most pronounced on SEntFiN.
It is observed that the mood agent (A1), the rhetoric agent (A2), and the aspect agent (A4) are the most important: removing any of them will generally have a negative impact on the performance. The reference agent (A5) is less important: the effect of removing it is uncertain across different datasets. The dependency agent (A3) seems ineffective: removing A3 will further improve the performance. The ineffectiveness of A3 may suggest considering this error type is unnecessary, or be attributed to an ineffective prompt design. Either way, the observed performances suggest that heterogeneous agents have complicated non-linear interactions, and the presented design can be further optimized with more empirical evidence.

4.3 Case Study

Five cases are presented to illustrate the quality of HAD outputs and how those outputs predict a polarity different from naive prompting.
Table 4: Effects of removing one agents (using gpt-3.5-turbo-1106 as the base model)
ModellDataset FPB FiQA SEntFiN Average
Acc. F-1 Acc. F-1 Acc. F-1 Acc. F-1
GPT-3.5 (HAD) 80.48 81.41 93.91 95.22 77.45 76.93
GPT-3.5 -1.90 -0.35 -3.38 -2.81 -9.46 -13.72
w/o A1 -0.71 +0.64 -0.01 +0.02 -0.58 -0.61 -0.43 +0.02
w/o A2 -2.12 -0.39 +0.64 +0.52 -0.80 -0.99 -0.76 -0.29
w/o A3 +3.00 +3.56 +0.51 +0.42 +0.01 +0.03 +1.17 +1.34
w/o A4 +0.04 +0.97 +0.25 +0.22 -0.66 -0.69 -0.12 +0.16
w/o A5 +4.32 +4.29 -0.01 -0.00 -0.52 -0.43 +1.26 +1.28
In Case 1, multiple companies are mentioned and naive prompting produces a negative prediction without much explanation. With HAD, A1 and A2 believe this message is neutral according to their perspectives. A1’s argument is reasonable as the positivity is more directly associated to Wells Fargo than to Berkshire. With A3, A4, A5 considering the message as positive, the framework finally summarizes a correct polarity as positive.
Case 2 is challenging and can easily be mistaken as positive by naive prompting with key-phrase such as “drive … higher” spotted. To correctly understand the context, one has to know that Taylor Wimpey and Ashtead are home construction and construction equipment rental companies. So “driving the markets higher” may refer to the index or property markets and is setting an economic scenario. It has complicated implications for the two companies and is not as direct as “Barclays falls”. A1, A4, A5 are correct about the mixed sentiment. With A3’s judgment being neutral and A2 predicting negative, the framework finally summarizes a correct polarity as negative.
Case 3 is predicted as positive by naive prompting. Although as A1 explained, less smuggling is good for society, the message is apparently commenting on gold itself as a commodity. Despite the fact that no irrealis mood or any rhetorics are present, A1, A2, A5 correctly predict the message as negative. With A3 and A4 seeing it as neutral, the final decision is negative as per the majority.

Case 1: Berkshire applies to boost Wells Fargo stake above 10 pct (positive)

(A1) Neutral. No indication of positive or negative sentiment. The use of “applies to” suggests an irrealis mood, means Berkshire is seeking to increase its stake but the action has not yet been completed. (A2) Neutral. No indications of sarcasm or negative assertion in the message. (A3) The sentiment of the speaker in this message is likely positive, as they are expressing their intention to increase their stake, which suggests confidence. (A4) The sentiment is positive for “Wells Fargo” as Berkshire Hathaway’s application suggests confidence and optimism in the company’s potential. (A5) The sentiment of the message is generally positive. Berkshire Hathaway’s decision potentially have a positive impact on Wells Fargo’s stock price and overall reputation. The increase timing suggests potential for long-term success despite any current challenges facing Wells Fargo.

Case 2: London open: Taylor Wimpey and Ashtead drive markets higher, Barclays falls (negative)

(A1) Mixed sentiment. Drive markets higher suggests a positive sentiment, while Barclays falls indicates a negative sentiment. No use of irrealis mood. (A2) Negative. It highlights the fact that Barclays falls, while giving less emphasis to the positive performance of Taylor Wimpey and Ashtead. No specific rhetorics used. (A3) Neutral. They are simply reporting on the market movements and the performance of certain companies. (A4) Positive for Taylor Wimpey and Ashtead as they are driving the markets higher, while the sentiment is negative for Barclays as it is falling. (A5) Overall a mixed sentiment. Some companies are performing well and driving the market higher, others, such as Barclays, are not faring as well.

Case 3: Smuggling of gold sees a decline as its demand softens (negative)

(A1) The sentiment is negative. Word “decline” indicates a decrease in smuggling activity, which could be seen as positive, but the softening demand for gold implies a negative impact on the overall market for gold. There is no irrealis mood used in this message. (A2) The sentiment is negative. Decline and soften indicate a decrease in the demand for gold, which could have negative implications for those involved in the smuggling of gold. No specific rhetorical devices present. (A3) Speaker is neutral. (A4) Neutral. (A5) The sentiment is negative. The decrease in the demand indicates a downturn in the market, leading to a decline in smuggling activities. This suggests a weakening gold market, which could impact prices and trade within the industry.

Case 4: Puravankara’s real estate scheme not a CIS: Sebi (negative)

(A1) The sentiment is negative. The use of the word “not” indicates the negation of a positive outcome, and the mention of Sebi suggests that there may be regulatory or legal issues associated with Puravankara’s real estate scheme. There does not appear to be any irrealis mood used in this message. (A2) The sentiment is negative. “not a CIS” may imply suspicion that Puravankara’s real estate scheme was a CIS (Collective Investment Scheme), which is regulated by SEBI (Securities and Exchange Board of India). The use of the term “scheme” also carries a negative connotation, as it can imply a dubious or deceptive plan. Overall, the message communicates a negative view of Puravankara’s real estate activities in relation to SEBI regulations. (A3) Neutral. The statement just delivers factual information. (A4) Neutral. (A5) The sentiment appears to be negative, indicated by the mention of Sebi not considering Puravankara’s real estate scheme as a Collective Investment Scheme (CIS). There may be some regulatory or compliance issues with the scheme, which could have negative implications for the company and its investors. Additionally, the fact that the scheme is being scrutinized by a regulatory authority implies a potential risk or concern. However, without further details about the specific nature of the scheme or the reasons for Sebi’s decision, it is difficult to fully assess the sentiment.

Case 5: Whirlpool may head to around 450-475: Devang Visaria (neutral)

(A1) The sentiment is neutral. The use of “may” indicates an irrealis mood, suggesting that the statement is hypothetical or uncertain. (A2) The sentiment appears to be neutral. There are no apparent rhetorics or emotional language. The statement simply presents a speculated range for the potential movement of Whirlpool. (A3) Sentiment of the speaker seems to be somewhat positive as they are mentioning a potential increase in the stock price of Whirlpool, indicating a sense of optimism or anticipation. (A4) Neutral. (A5) The sentiment is neutral. It simply provides a prediction regarding the potential price movement without expressing positive or negative. It is based on analysis and does not convey any emotion or bias.
Case 4 is difficult to understand and predicted as positive by naive prompting. Jargon and external reference are the main challenges. From the responses of A1, A2, and A5, it can be observed that “Puravankara is a real estate company”, “CIS means Collective Investment Scheme” and “Sebi is a security regulatory authority” are shared knowledge. Surprisingly, A2 exhibits temporal and counterfactual reasoning, which is helpful in understanding this message.
The last Case 5 was wrongly predicted as positive by naive prompting, probably due to the slight positive color of phrasing “head to”. A1 and A2 correctly identified the uncertainty associated with irrealis mood. A3 detected the same positivity as naive prompting, while the other four agents all predict the message as neutral. With the dominant number of neutral predictions ( ), the framework correctly summarized the polarity as neutral. This shows HAD’s capability to correct slight and uncertain sentiments with a discussion mechanism.

5 Discussion, Conclusion, and Future Work

A novel theory-informed LLM collaboration design for FSA, named HAD, is studied. The design involves heterogeneous LLM agents and specializes them with FSA error types discovered in the past literature. This design is more computationally intensive than naive prompting, but has far less complexity compared to many other LLM collaboration frameworks and fine-tuning-based approaches. In view of the research questions and hypotheses, it has been found that HAD effectively improves FSA accuracies across a number of existing datasets, especially when the LLM agents can produce substantial discussions. The design framework fixes around of the performance gap between prompting and fine-tuning. With error type-based prompts, the LLM agents behave heterogeneously with different focuses. The mood, rhetoric, and aspect agents are more important than the reference agent. The evaluation results support Hypothesis 1 (H1), but reject Hypothesis 2 (H2) with the observation that the performance can be further optimized if the dependency agent is removed.
Technically, this study contributes across two areas in the Knowledge Contribution Framework (KCF) of deep learning in information systems research [31]. The HAD framework is formulated and instantiated in a high-impact application domain of FSA, where fine-tuning is still a dominant paradigm and LLM collaboration is rarely applied. The framework is zero-shot and training-free, therefore, the performance improvement should be able to generalize to other FSA datasets. Practically, financial advisors, traders, fund managers, and other types of investors could use this framework to build their in-house sentiment analysis tools, or extend their knowledge of possible system designs for FSA.
This preliminary study has a few limitations, which may inspire future research. The first limitation is scalability. Predicting or Discussion with LLM agents is slower compared to statistical analysis and incurs costs. For this reason, a large system, i.e., with more agents, is possible, but not preferred during design and evaluation. The second limitation is the confidentiality of evaluation datasets. StockSen, CMC, and SEntFiN are relatively new, but FPB and FiQA have been there for quite a few years. Because the training material for LLMs is usually not fully transparent and some LLMs keep updating using reinforcement learning and human feedback, the possibility that the evaluation datasets have been exposed to the LLMs before, causing some information leaks can not be excluded. Finally, the case studies show that the identified error types can almost be solved. It is therefore interesting to explore what are the reasons for the new/remaining errors made by LLMs and assess what are the human/expert-level performances on these FSA datasets.
Some of the unique challenges in FSA, e.g., external references to facts and world knowledge, were thought to be impossible to solve in the short-term future before the transformer architecture models came into existence. With the hope of artificial general intelligence (AGI) around the corner, this study exhibits the versatile capabilities of LLM that are useful for FSA, and calls for more research on this important task.

References

[1] J. Bollen, H. Mao, and X. Zeng. Twitter mood predicts the stock market. Journal of Computational Science, 2(1):1-8, 2011. doi:10.1016/j.jocs.2010.12.007.
[2] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei. Language models are few-shot learners. In Proceedings of NeuIPS’20, pages 1877-1901, 2020. doi:10.48550/arXiv.2005.14165
[3] S. Chen and F. Xing. Understanding emojis for financial sentiment analysis. In Proceedings of ICIS’23, pages 1-16, 2023. URL https://aisel.aisnet.org/icis2023/socmedia_ digcollab/socmedia_digcollab/3/
[4] X. Chen, M. Lin, N. Schärli, and D. Zhou. Teaching large language models to self-debug, 2023. doi,10.48550/ARXIV.2304.05128.
[5] L. Chu, X.-Z. He, K. Li, and J. Tu. Investor sentiment and paradigm shifts in equity return forecasting. Management Science, 68(6):4301-4325, 2022. doi
[6] K. Cortis, A. Freitas, T. Daudert, M. Huerlimann, M. Zarrouk, S. Handschuh, and B. Davis. Semeval-2017 task 5: Fine-grained sentiment analysis on financial microblogs and news. In SemEval Workshop, 2017. doi 10.18653/v1/S17-2089
[7] D. de França Costa and N. F. F. da Silva. Inf-ufg at fiqa 2018 task 1: predicting sentiments and aspects on financial tweets and news headlines. In Companion Proceedings of the The Web Conference 2018, pages 1967-1971, 2018. doi
[8] J. Deng, M. Yang, M. Pelster, and Y. Tan. Social trading, communication, and networks. Information Systems Research, 2023. doi:10.1287/isre.2021.0143
[9] S. Deng, Z. J. Huang, A. P. Sinha, and H. Zhao. The interaction between microblog sentiment and stock returns: An empirical examination. MIS Quarterly, 42(3):895-918, 2018. doi .
[10] X. Deng, V. Bashlovkina, F. Han, S. Baumgartner, and M. Bendersky. What do llms know about financial markets? a case study on reddit market sentiment analysis. In Companion Proceedings of the ACM Web Conference 2023, 2023. doi .
[11] W. Dong, S. Liao, and Z. Zhang. Leveraging financial social media data for corporate fraud detection. Journal of Management Information Systems, 35(2):461-487, 2018. doi, 10.1080/07421222.2018.1451954
[12] K. Du, F. Xing, and E. Cambria. Incorporating multiple knowledge sources for targeted aspectbased financial sentiment analysis. ACM Transactions on Management Information Systems, 14(3):1-24, 2023. doi
[13] Y. Du, S. Li, A. Torralba, J. B. Tenenbaum, and I. Mordatch. Improving factuality and reasoning in language models through multiagent debate, 2023. doi 10.48550/ARXIV.2305.14325.
[14] H. Fei, B. Li, Q. Liu, L. Bing, F. Li, and T.-S. Chua. Reasoning implicit sentiment with chain-of-thought prompting. In Proceedings of ACL’23, pages 1171-1182, 2023. doi -short. 101
[15] S. Gregor and A. R. Hevner. Positioning and presenting design science research for maximum impact. MIS Quarterly, 37(2):337-355, 2013. doi .
[16] T. Hendershott, X. M. Zhang, J. L. Zhao, and Z. E. Zheng. Fintech as a game changer: Overview of research frontiers. Information Systems Research, 32(1):1-17, 2021. doi 10.1287/isre.2021.0997
[17] D. Hendrycks, C. Burns, S. Basart, A. Zou, M. Mazeika, D. Song, and J. Steinhardt. Measuring massive multitask language understanding. In Proceedings of ICLR’21, 2021. doi:10.48550/arXiv.2009.03300
[18] A. R. Hevner, S. T. March, J. Park, and S. Ram. Design science in information systems research. MIS Quarterly, 28(1):75-105, 2004. doi.10.2307/25148625.
[19] H. Laurençon, L. Saulnier, T. Wang, C. Akiki, A. V. del Moral, T. L. Scao, L. von Werra, C. Mou, E. G. Ponferrada, H. Nguyen, J. Frohberg, M. Sasko, Q. Lhoest, A. McMillan-Major, G. Dupont, S. Biderman, A. Rogers, L. B. Allal, F. D. Toni, G. Pistilli, O. Nguyen, S. Nikpoor, M. Masoud, P. Colombo, J. de la Rosa, P. Villegas, T. Thrush, S. Longpre, S. Nagel, L. Weber, M. Muñoz, J. Zhu, D. van Strien, Z. Alyafeai, K. Almubarak, M. C. Vu, I. Gonzalez-Dios, A. Soroa, K. Lo, M. Dey, P. O. Suarez, A. Gokaslan, S. Bose, D. I. Adelani, L. Phan, H. Tran, I. Yu, S. Pai, J. Chim, V. Lepercq, S. Ilic, M. Mitchell, A. S. Luccioni, and Y. Jernite. The bigscience ROOTS corpus: A 1.6tb composite multilingual dataset. In Proceedings of NeurIPS’22, 2022. doi:10.48550/arXiv.2303.03915
[20] M. Lengkeek, F. van der Knaap, and F. Frasincar. Leveraging hierarchical language models for aspect-based sentiment analysis on financial data. Information Processing & Management, 60(5):103435, 2023. doi. https://doi.org/10.1016/j.ipm.2023.103435.
[21] P. Liu, W. Yuan, J. Fu, Z. Jiang, H. Hayashi, and G. Neubig. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. ACM Computing Surveys, 55(9):1-35, 2023. doi .
[22] V. Liu and L. B. Chilton. Design guidelines for prompt engineering text-to-image generative models. In Proceedings of CHI ’22, 2022. doi:10.1145/3491102.3501825.
[23] Z. Liu, D. Huang, K. Huang, Z. Li, and J. Zhao. Finbert: A pre-trained financial language representation model for financial text mining. In Proceedings of IJCAI’20, pages 4513-4519, 2020. doi:10.24963/ijcai.2020/622.
[24] T. Loughran and B. McDonald. When is a liability not a liability? textual analysis, dictionaries, and 10-ks. Journal of Finance, 66(1):35-65, 2011. doi:10.1111/j.1540-6261.2010.01625.x.
[25] M. Maia, S. Handschuh, A. Freitas, B. Davis, R. McDermott, M. Zarrouk, and A. Balahur. WWW’18 open challenge: financial opinion mining and question answering. In Proceedings of WWW’18, pages 1941-1942, 2018. doi .
[26] P. Malo, A. Sinha, P. Korhonen, J. Wallenius, and P. Takala. Good debt or bad debt: Detecting semantic orientations in economic texts. Journal of the Association for Information Science and Technology, 65(4):782-796, 2014. doi.10.1002/asi.23062
[27] M. Minsky. The Emotion Machine: Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind. Simon & Schuster, 2006.
[28] N. Muennighoff, T. Wang, L. Sutawika, A. Roberts, S. Biderman, T. Le Scao, M. S. Bari, S. Shen, Z. X. Yong, H. Schoelkopf, X. Tang, D. Radev, A. F. Aji, K. Almubarak, S. Albanie, Z. Alyafeai, A. Webson, E. Raff, and C. Raffel. Crosslingual generalization through multitask finetuning. In Proceedings of ACL’23, pages 15991-16111, 2023. doi. long. 891
[29] H. Nori, Y. T. Lee, S. Zhang, D. Carignan, R. Edgar, N. Fusi, N. King, J. Larson, Y. Li, W. Liu, R. Luo, S. M. McKinney, R. O. Ness, H. Poon, T. Qin, N. Usuyama, C. White, and E. Horvitz. Can generalist foundation models outcompete special-purpose tuning? case study in medicine, 2023. doi,10.48550/ARXIV.2311.16452
[30] R. L. Peterson. Trading on Sentiment: The Power of Minds Over Markets. Wiley, 2016. doi:10.1002/9781119219149
[31] S. Samtani, H. Zhu, B. Padmanabhan, Y. Chai, H. Chen, and J. F. Nunamaker. Deep learning for information systems research. Journal of Management Information Systems, 40(1):271-301, 2023. doi,10.1080/07421222.2023.2172772.
[32] R. Shah, K. Chawla, D. Eidnani, A. Shah, W. Du, S. Chava, N. Raman, C. Smiley, J. Chen, and D. Yang. When FLUE meets FLANG: Benchmarks and large pretrained language model for financial domain. In Proceedings of EMNLP’22, 2022. doi 10.18653/v1/2022.emnlp-main. 148.
[33] A. Sinha, S. Kedas, R. Kumar, and P. Malo. SEntFiN 1.0: Entity-aware sentiment analysis for financial news. Journal of the Association for Information Science and Technology, 73(9):1314-1335, 2022. doi 10.1002/asi.24634.
[34] T. Sorensen, J. Robinson, C. Rytting, A. Shaw, K. Rogers, A. Delorey, M. Khalil, N. Fulda, and D. Wingate. An information-theoretic approach to prompt engineering without ground truth labels. In Proceedings of ACL’22, 2022. doi. -long. 60
[35] X. Sun, X. Li, S. Zhang, S. Wang, F. Wu, J. Li, T. Zhang, and G. Wang. Sentiment analysis through 1 lm negotiations, 2023. doi: 10.48550/ARXIV.2311.01876
[36] S. Wu, O. Irsoy, S. Lu, V. Dabravolski, M. Dredze, S. Gehrmann, P. Kambadur, D. Rosenberg, and G. Mann. Bloomberggpt: A large language model for finance, 2023. doi,10.48550/ARXIV.2303.17564.
[37] F. Xing, E. Cambria, and R. Welsch. Intelligent asset allocation via market sentiment views. IEEE Computational Intelligence Magazine, 13(4):25-34, 2018. doi .
[38] F. Xing, E. Cambria, and Y. Zhang. Sentiment-aware volatility forecasting. Knowledge Based Systems, 176:68-76, 2019. doi. 10.1016/j.knosys.2019.03.029.
[39] F. Xing, L. Malandri, Y. Zhang, and E. Cambria. Financial sentiment analysis: An investigation into common mistakes and silver bullets. In Proceedings of COLING’20, pages 978-987, 2020. doi: 10.18653/v1/2020.coling-main.85.
[40] F. Xing, F. Pallucchini, and E. Cambria. Cognitive-inspired domain adaptation of sentiment lexicons. Information Processing & Management, 56(3):554-564, 2019. doi:10.1016/j.jpm.2018.11.002
[41] Y. Yang, Y. Qin, Y. Fan, and Z. Zhang. Unlocking the power of voice for financial risk prediction: A theory-driven deep learning design approach. MIS Quarterly, 47(1):63-96, 2023. doi .
[42] S. Yao, D. Yu, J. Zhao, I. Shafran, T. Griffiths, Y. Cao, and K. Narasimhan. Tree of thoughts: Deliberate problem solving with large language models. In Proceedings of NeuIPS’23, pages 1-14, 2023.
[43] F. Yu, L. Quartey, and F. Schilder. Exploring the effectiveness of prompt engineering for legal reasoning tasks. In Findings of the Association for Computational Linguistics, 2023. doi: . findings-acl. 858 .
[44] B. Zhang, H. Yang, T. Zhou, M. Ali Babar, and X.-Y. Liu. Enhancing financial sentiment analysis via retrieval augmented large language models. In Proceedings of ICAIF’23, 2023. doi:10.1145/3604237.3626866
[45] W. Zhang, Y. Deng, B. Liu, S. J. Pan, and L. Bing. Sentiment analysis in the era of large language models: A reality check, 2023. doi 10.48550/ARXIV.2305.15005.
[46] D. Zimbra, A. Abbasi, D. Zeng, and H. Chen. The state-of-the-art in twitter sentiment analysis: A review and benchmark evaluation. ACM Transactions on Management Information Systems, 9(2):5:1-5:29, 2018. doi

  1. There is no strict definition of “how large” a language model has to be to qualify for the name of LLM. It seems that LLMs are usually far larger than the word2vec models (around 1 million parameters). This definition includes BERT (110-340 M parameters), GPT-3 (around 175 B parameters), and more.
  2. Now has been re-branded as ” X “.