Semantisk information

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 30 mars 2018; kontroller kräver 4 redigeringar .

Semantisk information  är den semantiska aspekten av information, som återspeglar förhållandet mellan meddelandets form och dess semantiska innehåll.

Utgående från verk av Claude Shannon , är det allmänt accepterat [1] att begreppet information består av tre aspekter: syntaktisk , semantisk och pragmatisk . Den syntaktiska är relaterad till de tekniska problemen med att lagra och överföra information, den semantiska är relaterad till innebörden och innebörden av budskapens sanning, den pragmatiska berör frågorna om informations påverkan på människors beteende. Teorin om semantisk information utforskar området för mänsklig kunskap och är en integrerad del av utvecklingen av artificiell intelligens [2] .

Historik

Bildandet av begreppet semantisk information

Framväxten av semiotik på 1800-talet skapade förutsättningarna för framväxten av begreppet semantisk information [3] . Det tog slutligen form efter tillkomsten av Mathematical Theory of Communication , skapad av Claude Shannon 1948 [4] . Shannons teori, som nu betraktas som en teori om syntaktisk information, ignorerar helt innebörden av meddelandet. Det var då behovet av att skapa en teori om semantisk information insågs.

Teorin om Bar-Hillel och Carnap

År 1952 föreslog Yehoshua Bar-Hillel och Rudolf Carnap en teori om semantisk information baserad på begreppet logiska sannolikheter [5] . Semantisk information tolkas av författarna som en synonym för semantiskt innehåll, vilket både sanna och falska uttryck har. Två huvudmått på mängden semantisk information i en mening beaktas . Den första definieras så här:

,

var  är meningens absoluta logiska sannolikhet . Det andra måttet är en icke-linjär funktion av det första:

.

Det är intressant genom att för två logiskt oberoende meningar och vi har olikheten: , där " " är tecknet på det logiska bindemedlet "OCH", medan:

, (*)

vilket är mer lämpat för att mäta mängden information.

För att bestämma värdena för meningarnas logiska sannolikheter konstruerar Bar-Hillel och Carnap ett formellt språk och använder det för att komponera beskrivningar av alla möjliga tillstånd i universum (den så kallade " uppsättningen av möjliga världar "). Låt oss ge ett exempel på ett enkelt språk där det finns en konstant (med vilken vi menar flickan Alice) och två predikat : och , betecknar egenskaperna "vacker" och "smart". Då betyder uttrycket meningen "Alice är vacker", och uttrycket betyder "Alice är  smart". Nu använder vi det logiska bindemedlet "NOT", som vi betecknar med symbolen: " ". Då kommer uttrycket att betyda meningen "Alice är inte vacker", och uttrycket  - "Alice är inte smart." Vi kan nu komponera alla möjliga beskrivningar av universums tillstånd för vårt ödmjuka språk. Det blir fyra totalt.

Som kan ses består varje värld i universum av logiskt oberoende atomära meningar (och deras negationer), kallade grundläggande. Vanligtvis använder formella språk många konstanter och många predikat, och inte nödvändigtvis enstaka . Så antalet världar kan vara mycket stort.

Om inga förutsättningar ges, så är alla världars logiska sannolikheter desamma. I det här fallet är storleken på meningens absoluta logiska sannolikhet lika med förhållandet mellan antalet världar där det är sant och det totala antalet världar i universum. I teorin om Bar-Hillel och Carnap är de logiska sannolikheterna för analytiska uttryck desamma och lika med ett (eftersom de är sanna i alla världar), och den logiska sannolikheten för motsägelse är noll. Värdena för logiska sannolikheter för syntetiska uttryck ligger i intervallet från noll till ett.

Ju fler världar i universum, desto högre är osäkerheten (om vilken värld som är sann). Efter att ha mottagit meddelandet minskar osäkerheten, eftersom de världar där det är falskt kan uteslutas från övervägande. Semantisk information i en mening förstås som en uppsättning uteslutna världar (den betecknas med symbolen ). Angående denna definition skriver författarna att den överensstämmer med den uråldriga filosofiska principen " omnis determinatio est negatio " (" varje definition är ett undantag "). Nu för måttet kan vi skriva:

,

var  är uppsättningens kardinalitet ,  är kardinaliteten för uppsättningen av alla världar i universum .

Mängden semantisk information i ett meddelande om mottagarens kunskap definieras enligt följande:

,

var  är den relativa (villkorliga) logiska sannolikheten för påståendets sanning under förutsättning att uttrycket är sant .

Det är anmärkningsvärt att, rent utåt, liknar formlerna för Bar-Hillel- och Carnap-teorin dem i Shannons teori. Både där och här har vi logaritmer och sannolikheter . Endast i Shannon är alla sannolikheter statistiska (det vill säga empiriska ), och inte logiska.

Om den logiska sannolikheten för uttrycket är mindre än den logiska sannolikheten för uttrycket bär meddelandet ny information till mottagaren, vilket berikar hans kunskap. Om det antyder är det likvärdigt och meddelandet innehåller ingen information till adressaten (eftersom det inte finns något nytt i det för honom). Om uttrycket är en motsägelse, så . Mängden semantisk information i motsägelsen enligt Bar-Hillel och Carnap är lika med oändlighet . Detta paradoxala resultat kritiserades senare av Luciano Floridi.

Alternativa idéer

Även om teorin om Bar-Hillel och Carnap fortfarande åtnjuter forskarnas uppmärksamhet, orsakade den en flod av nya idéer. Alexander Kharkevich föreslog att mäta värdet av information genom att ändra sannolikheten för att uppnå ett visst mål som inträffar under påverkan av detta meddelande [6] . Julius Schrader menade att mängden semantisk information i ett meddelande av vilken karaktär som helst kan bedömas som graden av förändring i mottagarens kunskapssystem till följd av uppfattningen av meddelandet [7] . Idén om den semantiska aspekten av förhållandet mellan information och entropi föreslogs först 1966 av den sovjetiska filosofen och logikern Yevgeny Kazimirovich Voishvillo i hans arbete " Ett försök till en semantisk tolkning av de statistiska begreppen information och entropi ".

Moderna teorier om semantisk information

Floridi-teorin

I sitt arbete från 2004 attackerar Luciano Floridi teorin om Bar Hillel och Carnap från första raden: "Triangeln har fyra sidor": enligt den klassiska teorin om semantisk information innehåller denna motsägelse mer semantiskt innehåll än det villkorligt sanna uttalandet " jorden har bara en måne " " [8] . Floridi kallade detta " Bar-Hillel-Carnap-paradoxen ". Han ser lösningen på denna paradox i det faktum att mängden semantisk information i meddelanden inte bara bör bero på det semantiska innehållet i dem, utan också på sanningsvärdet i dessa meddelanden. Floridi introducerade begreppet en villkorligt falsk mening ( contingently falsk mening ), som är en konjunktion av dess två beståndsdelar, varav den ena är sann och den andra är falsk. Ett exempel på en sådan mening är uttalandet: "Månen kretsar runt jorden och inuti är den ihålig." En sådan mening bär samtidigt information (för den som inte vet att Månen kretsar runt jorden) och desinformation (i det vanliga livet stöter man ofta på detta - desinformation är lättare att främja om den kompletteras med lite information).

Ur klassisk logiks synvinkel är en villkorligt falsk mening helt enkelt falsk och innehåller endast desinformation. Men exemplet ovan visar att så inte är fallet. Den ursprungliga teorin om Bar-Hillel och Carnap misslyckas med att lösa denna antinomi . Därför förkastade Floridi den (som en "svag" teori) och skapade sin egen - "stark". Han övergav användningen av logiska sannolikheter och påstod att teorin om semantisk information inte borde likna Shannons [9] . I hans egen tolkning bestäms mängden semantisk information i ett meddelande av i vilken grad detta meddelande motsvarar situationen (det vill säga vad som händer på en given plats och vid en given tidpunkt). En inkonsekvens uppstår antingen som ett resultat av bristen på innehåll i meddelandet, eller som ett resultat av dess felaktighet. I sin teori använder Floridi inte direkt begreppet desinformation, istället introducerar han begreppet graden av felaktighet i villkorligt falska meningar. Graden av felaktighet i en villkorligt falsk mening är lika med:

,

var  är antalet falska atomuttryck i ;  är det totala antalet atomära meningar i . Att fastställa sanningen i atomära påståenden kräver att man accepterar principen om a priori allvetande. Graden av innehållslöshet för en sann mening beräknas med formeln:

,

var  är antalet världar i universum där det är sant;  är det totala antalet världar i universum (observera att enligt denna definition är värdet exakt lika med värdet av den logiska sannolikheten ). Vidare introducerar Floridi konceptet med funktionen av graden av informativitet:

.

Mängden semantisk information i meddelandet är lika med en viss integral av funktionen av graden av informativitet :

.

Trots alla skillnader mellan den klassiska teorin och den Floridiska teorin har de något gemensamt. Om är en sann mening, då är värdet lika med värdet av den logiska sannolikheten . Måttet liknar måttet , men till skillnad från det senare är det en icke-linjär funktion . Tyvärr finns det i Floridis teori ingenting som ett mått som har den anmärkningsvärda egenskapen (*) för logiskt oberoende meningar.

Teori om semantisk information och desinformation

Problemet som Floridi tar upp kan lösas inom en teori baserad på logiska sannolikheter. Det bör noteras att i början av det nuvarande århundradet bildade vissa vetenskapsmän en skeptisk inställning till Carnaps induktiva logik [10] . Men moderna matematiker har kunnat förändra situationen genom att modifiera denna teori [11] [12] [13] . Tack vare detta återupplivades intresset för logiska sannolikheter igen.

I [14] föreslås det att modifiera den klassiska teorin om semantisk information genom att inkludera begreppet desinformation, som bärs av ett falskt meddelande. I den nya teorin, liksom i Floridi-teorin, beaktas många olika situationer (punkter i rum-tid). Samma mening i ett språk kan vara sann i en situation och falsk i en annan. Eftersom mottagaren av meddelanden inte kan vara immun mot fel i att utvärdera deras sanning, utvärderas mängden semantisk information separat från mottagarens synvinkel och från en allvetande experts synvinkel.

I varje specifik situation innehåller ett sant meddelande endast information och ett absolut falskt endast desinformation. En villkorligt falsk mening betraktas som en konjunktion : , där  är den sanna delen av meddelandet,  är den falska delen av meddelandet. Det krävs att och vara logiskt oberoende (detta är särskilt nödvändigt för att motsägelsen inte ska visa sig vara en villkorligt falsk mening). Sedan definieras de icke- normaliserade måtten på mängden information och mängden desinformation i en villkorligt falsk mening från en experts synvinkel enligt följande:

, .

Indexet " ", som markerar symbolerna " " och " " i formlerna, indikerar att mängden information och desinformation betraktas från en experts synvinkel. Normaliserade mått på mängden semantisk information och desinformation i en villkorligt falsk mening från en experts synvinkel:

, .

Kontroverser från expertens synvinkel bär på noll information och en oändlig mängd desinformation. Detta löser Bar-Hillel-Carnap-paradoxen. Den oändliga mängden desinformation förklaras av det faktum att om motsägelsen plötsligt föreföll någon som sanning, då skulle världen förändras för honom till oigenkännlighet. Två ord kan inte beskriva det. Antag att mottagaren av information har villkorligt falsk kunskap , motsvarande konjunktionen: , där  är den sanna delen av hans kunskap,  är villfarelse. Sedan, från en experts synvinkel, efter att ha fått ett villkorligt falskt meddelande , har adressaten faktiskt semantisk information och felaktig information i följande kvantiteter:

, .

Om mottagaren uppfattar som en sann mening och konjunktionen inte är en motsägelse, fick han från hans synvinkel följande mängd information:

.

Suffixet " " indikerar adressatens betyg. Uppenbarligen kan endast en expert fastställa den exakta mängden information (och felaktig information) i ett inkommande meddelande, och mottagaren kan bara göra mer eller mindre exakta uppskattningar.

Teorin om universell semantisk information

En formell beskrivning av semantisk information som är tillämplig på alla typer av fysiska system (levande och icke-levande) ges av matematikern David Wolpert i hans arbete "Semantic information, agency, and nonequilibrium statistical physics": den syntaktiska informationen som ett fysiskt system har om miljön, och som är orsaksmässigt nödvändig för att systemet ska kunna upprätthålla sin egen existens i ett tillstånd av låg entropi.

Casual nödvändighet definieras i termer av kontrafaktiska ingrepp som randomiserar sambanden mellan systemet och miljön. Kriteriet för graden av autonomi för ett fysiskt system är mängden tillgänglig semantisk information.

Anteckningar

  1. Shannon CE, Weaver W., (1949), The Mathematical Theory of Communication, Urbana: University of Illinois Press. Förord ​​av Richard E. Blahut och Bruce Hajek; omtryckt 1998.
  2. Luger D.F. Artificiell intelligens: strategier och metoder för att lösa komplexa problem. – M.: Williams Publishing House, 2005. – 864 sid. ISBN 5-8459-0437-4 (ryska)
  3. Dmitriev V.I. Tillämpad informationsteori. - M.: Högre skola, 1989. - 320 sid. ISBN 5-06-000038-9
  4. Shannon CE, (1948), A Mathematical Theory of Communication. Bell System. Tech. J., 27: 379-423, 623-656.
  5. Bar-Hillel Y., Carnap R., (1952), "An Outline of a Theory of Semantic Information", teknisk rapport nr. 247, 27 oktober, Research Laboratory of Electronics. – 49. [1] Arkiverad 12 juli 2013.
  6. Kharkevich A. A. Om värdet av information, "Problems of Cybernetics", 1960, ca. 4. - sid. 54.
  7. Shreider Yu. A., (1965), På en modell av den semantiska informationsteorin, "Problems of Cybernetics", v. 13. - sid. 233-240.
  8. Floridi L. (2004), "Outline of a Theory of Strongly Semantic Information", Minds and Machines, 14(2), 197-222. [2] Arkiverad 2 augusti 2014 på Wayback Machine
  9. Floridi L. (2011), Semantic Conception of Information, In The Stanford Encyclopedia of Philosophy, ed. Edward N. Zalta, [3] Arkiverad 5 september 2015 på Wayback Machine
  10. Hajek Alan. (2007). Tolkning av sannolikhet. I The Stanford Encyclopedia of Philosophy, red. Edward N. Zalta, [4]  (länk ej tillgänglig)
  11. Maher Patrick, (2010). Förklaring av induktiv sannolikhet. Journal of Philosophical Logic 39(6): 593-616.
  12. Zabell S.I. (2004). Carnap och induktiv slutlednings logik. I Dov M. Gabbay, John Woods & Akihiro Kanamori (red.), Handbook of the History of Logic. Elsevier 265-309.
  13. Ruurik Holm (2013). Icke-noll sannolikheter för universella generaliseringar. Synthese 190 (18): 4001-4007.
  14. Pogorelov O. A. (2015). Semantisk information och desinformation // Samling av vetenskapliga artiklar baserade på resultaten från V International Scientific and Practical Conference "Informatics, Mathematical Modeling, Economics" (Smolensk, 11-15 maj 2015), sid. 132-143. [5]