-
Target audience
Industry - Field of Education and Training
Target language
Publish in core platform
No
Link Type
Organization url
Event setting
Digital skill level
IntermediateDigital technology / specialisation
Artificial IntelligenceGeographic Scope - Country
RomaniaType of initiative
National initiative
Image
URL
Link text
https://ilds.ro/llm-for-romanian
Skip to content
Grupp ta’ riċerkaturi Rumeni ħolqu mudell lingwistiku (LLM) dedikat għall-lingwa Rumena, li jista’ jintuża biex jiġi żviluppat għodod u pjattaformi A.I. Il-mudell huwa “open source”, għalhekk jista’ jiġi aċċessat u użat minn kulħadd li jixtieq jibni għodod ibbażati fuq l-intelliġenza artifiċjali. Bil-pubblikazzjoni ta’ dan il-LLM, l-inizjaturi tal-proġett wkoll iħeġġu l-komunità OpenLLM -Ro, li trid tġib flimkien lil dawk kollha li jixtiequ jikkontribwixxu b’modijiet varji għall-iżvilupp tat-teknoloġiji A.I. għall-lingwa Rumena. It-tnejn proġetti huma inizzjati u implimentati minn POLITEHNICA Bucharest, l-Università ta’ Bucharest u l-Istitut tal-Logika u x-Xjenza tad-Dejta, b’appoġġ mill-BRD Groupe Société Générale.
Għalkemm hija teknoloġija li għandna aċċess għalha fuq skala kbira għal ftit snin biss, ħafna minna diġà interagixxew spiss mal-robots konversazzjonali, bħalma huma ChatGPT (produċut minn OpenAI), Copilot (żviluppat minn Microsoft), Gemini (żviluppat minn Google) eċċ. Madankollu, għall-lingwa Rumena r-riżultati huma xi kultant imprecisi, għax il-mudelli li fuqhom huma taħriġ ma kinux esposti għal ħafna sorsi ta’ dejta Rumena. Fl-istess ħin, dawn it-tipi ta’ għodod ma jistgħux jintużaw fil-kumpaniji għax l-aċċess dirett jista’ jkun ristrett minħabba raġunijiet ta’ sigurtà u kunfidenzjalità. Soluzzjoni waħda f’dawn is-sitwazzjonijiet hija l-implimentazzjoni ta’ mudell lokali lokalizzat fl-infrastruttura tal-kumpanija. Dawn il-mudelli pubbliċi li jistgħu jintużaw lokalment huma, madankollu, ġeneralment it-tħejjija tagħhom f’lingwa Ingliża jew użando numru żgħir ta’ dokumenti f’lingwi b’cirkolazzjoni baxxa.
Il-mudell Rumeni l-lum inawgurat huwa l-adattament ta’ LLM pubbliku żviluppat prinċipalment għall-Ingliż. Iżda ġie espost għal diversi miljun dokument f’Rumeni, sabiex jifhem aħjar il-ħsieb tal-kliem. Dan huwa essenzjali għat-tħaddim ta’ dawn il-mudelli f’sitwazzjonijiet fejn l-espressjoni tal-ħtiġijiet jew mistoqsijiet tal-utent kif ukoll il-wieġeb għandhom ikunu f’Rumeni. Mill-lejla tas-sena 2023, grupp ta’ riċerkaturi minn POLITEHNICA Bucharest, l-Università ta’ Bucharest u l-Istitut tal-Logika u x-Xjenza tad-Dejta ħadmu fuq l-iżvilupp u t-taħriġ ta’ dan il-LLM. Il-partners akkademiċi kkontribwixxew bi riċerkaturi li ħadmu pro-bono u, barra minn hekk, POLITEHNICA Bucharest ipprovdet ukoll il-qawwa tal-kompjuter meħtieġa biex it-taħriġ tal-mudell. Il-partner prinċipali tal-proġett huwa BRD Groupe Société Générale, li jappoġġja l-innovazzjoni u t-teknoloġiji tal-futur f’Rumeni f’kull forma tagħhom.
“Biex l-ambjent ekonomiku u/jew istituzzjonali f’Rumeni jkun jista’ juża din it-teknoloġija promettenti ġdida, għandna bżonn mudelli speċjalizzati li jiltaqgħu ma’ ħafna konversazzjonijiet u dokumenti f’Rumeni. Ir-raġuni hija sempliċi: biex tkun kapaċi tipprovdi l-informazzjoni li għandna bżonn. F’BRD aħna dejjem qed naħdmu fuq soluzzjonijiet li jitjieb il-proċessi tax-xogħol tagħna, billi nużaw it-teknoloġiji l-aktar ġodda li jistgħu jagħtu valur miżjud lill-klijenti tagħna fl-ewwel post. Imma nifhmu wkoll li l-bżonnijiet tagħna huma maqsuma ma’ ħafna atturi istituzzjonali oħra, u aħna impenjati li nappoġġjaw l-innovazzjoni fl-intelliġenza artifiċjali kmieni. Billi ninvolvu ruħna fil-pajsaġġ animat tiegħu, nistgħu ngħinu biex it-teknoloġiji l-aktar ġodda jkollhom impatt pożittiv fil-soċjetà Rumena fil-prattikament fl-istess pass bħat-tkabbir fil-qasam fuq livell internazzjonali,” qal Horia Velicu, Kap tal-Laboratorju tal-Iżvilupp f’BRD Groupe Société Générale.
“Xi wħud mill-eżempji ta’ użu tal-mudell Rumeni huma: tfittxija ta’ informazzjoni fil-bażi tad-dejta ta’ organizzazzjoni, b’gwidi u proċeduri tax-xogħol, jew robots konversazzjonali għal klijenti ta’ kumpaniji jew istituzzjonijiet biex jiggwidawhom fil-passi meħtieġa biex jużaw prodott jew servizz. Fil-lakuni ta’ dawn il-każijiet, l-impjegati u/jew il-klijenti jisalvaw ħin fl-aċċess għall-informazzjoni, benefikanti f’ħafna situazzjonijiet u titjieb il-kwalità tagħha,” qal Alin Stefanescu, Direttur tad-Dipartiment tal-Informazzjoni tal-Kompjuter fl-Università ta’ Bucharest u viċi president tal-Istitut tal-Logika u x-Xjenza tad-Dejta.
L-isforz biex jiġu speċjalizzati mudelli lingwistiċi huwa spiss kkoordinat mill-komunità akkademika assoċjata ma’ dik il-lingwa, b’eżempji reċenti minn pajjiżi bħal Franza, Ġermanja, Spanja, il-Finlandja, il-Bulgarija. Madankollu, ir-riżorsi meħtieġa huma kbar kemm fir-rekwiżiti teknoloġiċi meħtieġa (eż. hardwer dedikat bħal karti grafika b’qawwa għolja) kif ukoll fir-riċerkaturi u programmaturi esperti. Għalhekk hemm bżonn ta’ appoġġ wiesa’, ta’ medda u twila mill-atturi soċjali ewlenin: ekonomiċi, akkademiċi u, fl-aħħar iżda mhux l-inqas, l-ambjent governattiv, permezz ta’ programmi dedikati għall-iżvilupp tat-teknoloġiji ta’ intelliġenza artifiċjali.
Hekk kif iċ-ċreaturi ta’ dan il-mudell qed inawgura l-komunità OpenLLM.ro fl-istess ħin. Dan għandu l-għan li jinkoraġġixxi l-interazzjoni bejn atturi varji jew faċilitaturi li jixtiequ jikkontribwixxu għall-iżvilupp ta’ din it-teknoloġija għall-lingwa Rumena u li jinawguraw mudelli speċjalizzati għal oqsma ċerti. L-ibliet ta’ dan id-djalogu f’ambjent open source se jippromwovi l-ħolqien ta’ mudelli aktar effettivi, implimentati fil-kumpaniji jew istituzzjonijiet Rumeni, li jirriżultaw fi tnaqqis fil-produttività ġenerali tas-soċjetà kollha.
“Nisperaw li l-inawgurar ta’ dan il-mudell ikun biss l-bidu ta’ sforz twil li jirriżulta fi LLMs aħjar għall-lingwa Rumena. Diġà skoprejna metodu li rridu nippplikaw għal mudelli oħra li ġew inawgurat reċentement (Llama-3 u Mistral) u li ġeneralment juru prestazzjoni aħjar minn dik li nibdew minnha (Llama-2). Madankollu, biex ikollna mudelli tajbin għall-lingwa Rumena għandna bżonn 2 tipi ta’ riżorsi: kollezzjonijiet ta’ dejta kbar u kkurati, ta’ kwalità tajba, kif ukoll riżorsi ta’ hardwer (b’mod partikolari, GPUs għall-it-taħriġ tal-mudell). Nisperaw li kemm entitajiet privati u pubbliċi jifhmu l-importanza li jiġu żviluppati mudelli lingwistiċi kbar u multi-modal (test-immaġini) għall-lingwa Rumena. Nistennew lil kulħadd jissieħeb magħna fl-inizjattiva OpenLLM-Ro u l-proġetti ta’ riċerka li jappoġġjawha,” qal Traian Rebedea, lektur fil-POLITEHNICA Bucharest u riċerkatur anzjan f’NVIDIA, wieħed mill-koordinaturi tekniċi tal-inizjativa OpenLLM-Ro.
Il-rapport tekniku jista’ jinstab hawn: https://arxiv.org/abs/2405.07703
Il-mudell LLM jista’ jitniżżel mill-pjattaforma Hugging Face: https://huggingface.co/OpenLLM-Ro
Il-kodiċi assoċjat mal-mudell jista’ jitniżżel minn GitHub: https://github.com/OpenLLM-Ro
Aktar dettalji dwar il-proġett: https://ilds.ro/llm-for-romanian
BRD għall-Edukazzjoni, Teknoloġija u Innovazzjoni
BRD tappoġġja l-preparazzjoni tal-ġenerazzjonijiet futuri ta’ speċjalisti u intraprendituri fit-teknoloġija. Il-proġetti li BRD qed tippjana jmorru lejn l-edukazzjoni fil-disċiplini STEM: First Tech Challenge Romania, laboratorji tal-robotika fil-POLITEHNICA University ta’ Bucharest, programm Innovation Labs, f’kollaborazzjoni mal-Applied Data Science Centre tal-Università ta’ Bucharest, programm Innovators for Children jew How to Web Conference. Dan kollu jiġbor flimkien studenti, riċerkaturi, għalliema, intraprendituri żgħażagħ, esperti u għandu impatt fuq aktar minn 50,000 benefiċjarju sa issa.




