Mivel különösen érdekesnek gondoltam, hogy összegyűjtsem a magyar politikával foglalkozó blogok kikkel és mivel foglalkoznak elsősorban valamint ezekről mi a véleméyük, ezért úgy döntöttem megalkotom a magyar poltikai blog hangulat indexet. Nagyon fontos kiemelni, hogy a blogok feldolgozása teljesen automatikusan történt, így értelemszerűen pontatlanságok előfordulhatnak, valamint nem tudtam az összes politikával foglalkozó blogot össszegyűjteni. A feldolgozott blogok listája itt elérhető. Természetesen, ha valaki úgy érzi, hogy ismer vagy ír olyan politikai témájú blogot ami még nem szerepel a listában, a kommentek közt jelezheti ezt a hiányosságot. A feldolgozás egyetlen feltétele, hogy a blog rendelkezzen rss feed-l.
A blogokat alapvetően három osztályba soroltam: valamilyen hivatalos intézet, párt blogja mint például a hazaeshaladas vagy a republikon blogja. Politikusok blogjai, mint Scheiring Gábor vagy Szabó Rebeka blogja (sajnos itt az LMP erősen felül van reprezentálva, de sajnos nem nagyon találtam más politikusokat akik blogot vezetnének). Végül a poltikival foglalkozó blogok amiket magánszemélyek írnak, remélhetőleg csupán maguk szorakozatátására. Ide kerültek többek közt az olyanok mint a vastagbőr vagy az örülünkvincent blog.
Tehát a listában szereplő cirka 100 blog rss feedjei kerültek feldolgozásra. Egy nyelvi elemző modul segítségével automatikus morfológia valamint szintaktikai elemzést végeztem a feedekből kinyert szövegeken. Erre azért volt szükség, hogy kinyerhessem az egyes tulajdonnevekhez milyen jelzők, milyen szavak kapcsolódnak (tehát nem bizonyos szavakat keresek a tulajdonnevek környékén, hanem pontosan megnézem melyik tulajdonnév milyen más szóval kapcsolódik). A szövegekben egy névelemfelismerő modell segítségével automatikusan azonosítottam a különböző tulajdonneveket. A kinyert tulajdonnevek szótövesített alakjai kerültek végül feldolgozásra. Végül 1555 bejegyzés 34068 mondata került feldolgozásra.
Jelen bejegyzésben a szövegekben előforduló személynevek kerülnek elsősorban bemutatásra. A nevek esetében egyértelműsítést hajtottam végre: az "Orbán" személynevet "Orbán Viktor"-nak, a "Bajnai"-t "Bajnai Gordonnak" feleltettem meg. Az 1. táblázat mutatja az egyes személynevek előfordulási gyakoriságát a bejegyzésekben.
Név |
Előfordulás |
Orbán Viktor |
751 |
Bajnai Gordon |
173 |
Gyurcsány Ferenc |
105 |
Mesterházy Attila |
44 |
Varga Mihály |
44 |
Matolcsy György |
27 |
Schiffer András |
20 |
1. táblázat: nevek előfordulási gyakorisága blogbejegyzésekben.
1. ábra: címke felhő a blogbejegyzésekben szereplő nevek gyakorisága alapján.
Mivel úgy találtam, hogy Orbán Viktor annyira felül van reprezentálva minden más névhez képest, ezért elkészítettem egy másik címke felhőt, Orbán Viktor nélkül. Ez a 2. ábrán látható:
2. ábra: címke felhő a blogbejegyzésekben szereplő nevek gyakorisága alapján, Orbán Viktor nélkül.
Ami táblázatokból és a képekből is látszik, hogy a blogokban erőteljes a túlsúlya a Orbán Viktornak minden más szereplővel szemben. Ugyanakkor Bajnai Gordon neve majdnem négyszer többször szerepel mint Mesterházy Attiláé. Kicsit meglepő Gyurcsány Ferenc relatív gyakori és Varga Mihány kevés említése. Matolcsy György neve sem túl gyakran szerepel, ennek elsődleges oka, a ráaggatott egyéb nevek lehetnek. A 2. táblázat mutatja a blogok szövegeiben előforduló pártok említéseinek gyakoriságait:
Párt |
Politikus blog |
Politikai blog |
Intézeti blog |
Összesen |
Fidesz |
152 |
434 |
250 |
836 |
MSzP |
33 |
181 |
77 |
291 |
LMP |
17 |
50 |
61 |
128 |
Együtt2014 |
6 |
20 |
7 |
33 |
Összesen |
208 |
685 |
395 |
1288 |
2. táblázat: pártok említési gyakoriságai blogok bejegyzéseiben.
Amint a 2. táblázatban is látható a Fidesz 2/3-s többséggel rendelkezik az említések terén is, míg az ellenzéki pártok nem nagyon tudják elérni a bloggerek ingerküszöbét. Második legemlítettebb párt az MSzP bizonyult, míg az Együtt2014 meglepően kevésszer került említésre.
Összeségében elmondható, hogy kormányzó párt és elsősorban Orbán Viktor uralja a magyar politikai bloggerek témáit. A következő bejegyzésekben majd megnézem, milyen szavak kapcsolódnak ezekhez a tulajdonnevekhez. A jövőben minden hónapban meg kívánom vizsgálni, az elmúlt hónap bejegyzéseit, és az eredményeket itt, a blogon fogom publikálni, remélhetőleg valamilyen trendek is kirajzolódnak majd.
Amennyiben bárkinek mármilyen ötlete, megjegyzése van, hogyan lehetne fejleszteni a rendszert azt természetesen szívesen veszem.