Lucene

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 15 april 2019; kontroller kräver 10 redigeringar .

Apache Lucene

Sorts	sökning och programmering
Utvecklaren	Apache Software Foundation
Skrivet i	Java
Operativ system	plattformsoberoende
Första upplagan	30 mars 2000
Hårdvaruplattform	Java Virtual Machine
senaste versionen	9.2.0 [1] (23 maj 2022 ) ( 2022-05-23 )
Licens	Apache-programvarulicens
Hemsida	lucene.apache.org
Mediafiler på Wikimedia Commons

Lucene är ett gratis bibliotek för högpresterande fulltextsökning av Apache Foundation, som används som bas i två av de mest populära replikerade sökmotorerna i mitten av 2010-talet - Elasticsearch och Solr . Skrivet i Java .

Utvecklad av Doug Cutting 1999, ursprungligen publicerad av författaren på SourceForge.net . År 2001 överfördes det till Apache Foundation, där det ursprungligen utvecklades som en del av Jakarta -projektet och flyttades 2005 till status som ett projekt på toppnivå i stiftelsen. Som en del av toppnivåprojektet har Lucene gett upphov till ett antal delprojekt som har blivit självständiga, bland dem - Hadoop (initierat av Cutting och bildande av ett enormt ekosystem av produkter), Nutch och Solr (som anses vara en del av Hadoop-ekosystemet ). Dessutom används biblioteket som en intern mekanism i ett antal projekt, inklusive YaCy (decentraliserad sökmotor), CrateDB ( dokumentorienterad DBMS med SQL -stöd ), Swiftype (replikerad sökmotor för organisationer) , DocFetcher ( lokal sökmotor ).

Den huvudsakliga funktionella egenskapen hos biblioteket är att tillhandahålla skalbar och ganska höghastighetsindexering (cirka 100 GB per timme på en massklassserver). Det skapade indexet tar upp cirka 20-30 % av storleken på originaltexten.

Sökalgoritmen stöder rankad sökning (bästa resultaten visas först), suddig sökning , många olika typer av sökningar (frasfråga, sökningar med jokertecken , sökning efter intervaller och annat), sökning med metadatavärden (som titel , författare, text) ). Sökning stöds av flera index med möjlighet att kombinera resultat, sortering av sökresultat efter olika fält implementeras. Sökningen är möjlig samtidigt som indexuppdateringsprocessen. Bibliotekets logiska arkitektur representerar vilket dokument som helst som en uppsättning textfält, vilket gör att det kan fungera oavsett format , så snart textinformation kan erhållas från dem.

Porteras till många andra programmeringsspråk: C (Lucene4c), C++ (CLucene), Node.js , Go , Delphi (MUTIS), Perl (PLucene), Ruby (Ferret och RubyLucene), PHP (inom Zend- ramverket ), Lisp ( Montezuma), C# (Lucene.Net), Python (PyLucene).

Litteratur

Erik Hatcher och Otis Gospodnetic. Lucene i aktion. — 2:a. - Stamford: Manning, 2010. - P. 528. - ISBN 978-1-933988-17-7 .

Anteckningar

↑ Lucene Change Log . (obestämd)

Länkar

Apache Lucene

Apache Software Foundation

Projekt på högsta nivå

ActiveMQ
luftflöde
Myra
Apache HTTP-server
APR
Cassandra
Cayenne
kamel
Commons
Kokong
CouchDB
DB
katalog
Druid
Flink
Forrest
Geronimo
Gump
Hadoop
HBase
HttpComponents
Jackkanin
James
jmeter
Kafka
Lenya
Maven
Mina
mod perl
mod_wsgi
MyFaces
Nutch
OFBiz
Oozie
öppet kontor
POI
Portaler
Santuario
servicemix
Shiro
Gnista
SpamAssassin
stag
omstörtning
superset
Gobeläng
Tcl
hankatt
Turbin
Hastighet
WebWork2
Grind
Xalan
Xerces
XMLBeans
Zeppelin
Djurskötare

Delprojekt

Apache Commons	BCEL BSF JCS
Apache Lucene	Luce Java Lucene4c Lucy Solr
ApacheDB	Derby Moment DdlUtils OJB JDO

Apache

Axel
Axis2
CXF
WS-
EWS
JaxMe
jUDDI
Kandula
Mirae
Muse
Prenumerera
Sandesha
Scout
TVÅL
Synapse
TSIK
Toscana
Woden
WSIF
WSRF
WSS4J
XML-RPC

Andra projekt

Batik
SNOBB
Log4j

Utveckla projekt ( inkubator )

XAP
River
OpenEJB
Öppna JPA
Graffito
Toscana
Log4Net
Vält
Felix
Abdera
CeltiXfire
FtpServer
Heraldik
Murgröna
Juice
Kabuki
Lokahi
Lucene.Net
mod_ftp
NMaven
Ode
stdcxx
Woden
WSRP4J
Yoko
WADI
Qpid
TripleSoup
UIMA
Adobe Flex

Avvecklade projekt ( Attic )

AxKit
Beehive
Kaktus
ECS
Excalibur
Harmoni
HiveMind
iBATIS
Jakarta
ORO
Regexp
Skiffer
Skjut
Taglibs

Licens: Apache-licens

Sökmotorer och maskiner _
Allmän	Ask.com (Fråga Jeeves, Teoma- mekanismen ) Blekko Cuil (stängt) DuckDuckGo Exalead Gigablast Google Bing (Live Search/MSN Search) Qwant Yahoo! Sök Inktomi AltaVista (stängt) Alltheweb ) Yandex.Search Aliweb Lycos
Regional	Accoona (Kina/USA) Alleba (Filippinerna) Ansearch (Australien/USA/UK/Nya Zeeland) Aport (Ryssland, stängt) Daum (Sydkorea) Guruji.com (Indien) [email protected] (Ryssland) Maktoob (Bl. East) META (Ukraina, stängt) Miner.hu (Ungern) Najdi.si (Slovenien) Onkosh (Bl. East) Rambler-Poisk (Ryssland, stängt) Rediff (Indien) SAPO (Portugal) Search.ch (Schweiz) Sesam (Norge/Sverige) Seznam.cz (Tjeckien) Sputnik (Ryssland, stängt) Walla! (Israel)
ledare	Baidu (Kina) Naver (Sydkorea) Yahoo! Japan (Japan) Yandex.Search (Ryssland)
Tematisk	TinEye UniPage Lexxe Topsy FindBook.ru
Metasök	AskNet Brainboost Clusty Dogpile exactus.ru Ecosia Excitera FarSEER hotbot info.com Ixquick Krozilo Mamma Metacrawler MetalLib Nigma (stängt) Myriad sökning sidosteg Surfvax Turbo10 sökrobot GlobalFileSearch
öppen / gratis	DataparkSearch Egotor Gonzui Röja ht://dig gräshoppa Jag söker Lucene Lemur Toolkit & Indri sökmotor mnoGoSearch Namazu Nutch ÖppnaFTS Sciencenet (vetenskapligt, baserat på YaCy- teknik ) Wikia-sökning Sfinx SWISH-E Terrier sökmotor Xapian YaCy Zettair VuFind
Bebis	AGAKIDS (Ryssland) Ask Kids (Storbritannien) Frag Finn (Tyskland) Kids AOL (USA) Barn Yahoo! (USA) Quintura Kids (Ryssland) Familj Yandex (Ryssland) Gogul (Ryssland)