How to Create a Content Source

Overview

Content source Content Sources do the following: Receive data from the Source System via the Connection, Filter the data it receives, Provide the results to the Target, Define the specific search index that contains the content you wish to index (and later search). determines the data that is retrieved using the IBM Connections connection Connection defines the how Connectivity Hub connects to your Source System (which contains your documents, graphics, etc.,). Your Connection includes identifying elements such as: URL of the BA Insight web service connector you are using, (File Share connector, SharePoint Online connector, etc.), Authentication mode, User Accounts and Credentials, Database information (for database connectors)

  • For this reason, you must install and configure this BA Insight Connector and add a Connection before you add a content source. 

  • For more information, see Configuring Your Connection

Hint: Multiple content sources can be configured for a single connection. 

Some of the Web Services Connectors such as the IBM Connections connector, are unique because there are different schemas within these connectors' databases. 

  • For example, there might be files, blogs, wikis, and bookmarks. 

  • For this reason, you must identify the network paths for each of these schemas.

This section explains the configurations that are available when you create new content source or choose to edit an existing content source. 

Setting Up an Index

Set Up the Content Repository

Use the Content Info page to set up a connection between your IBM Connections connector and the content source that this connector accesses.

To set up the content repository, follow these steps:  

  1. On the Central Administration page, click Connector Framework. The Content Management page appears.
  2. Use the down arrow in Connector Framework SPWeb to select WebService Content. The WebService Content page appears.
  3. Connection Information (required): Enter the Connection information such as "IBM Connections 4.5."

  4. Title (required): Enter a unique name for this content item into Title such as "Connections 4.5." This name is also the content source name in the SSA. 

    Note: Do not change the name in Title unless you want to delete the index and recreate the content source in the SSA. For more information about this note and enabling indexing, see Notes on Enabling Indexing.

  5. Click Enable SharePoint/FASTIndexing and New is activated for both:

    1. Incremental Crawl Scanning and capturing only new data from all of your content sources. This data did not exist when the last crawl was run. Schedule

    2. Full Crawl Schedule 

  6. Click New for either of the above selections and the Manage Schedules window appears.

    1. Leave the default selection Daily, or click Weekly, or Monthly for Type. 

    2. (Required) Enter a number into Run Every _ Days.
      Hint: If you select Weekly or Monthly, Run Every changes to On and the days of the week or the months of the year appear below this check-box.

    3. Click the down arrow to enter a Starting Time.

    4. Click Repeat within the Day in order to access Every and For where you can enter the number of minutes for each occurrence of the crawl.

    5. Click OK to schedule this crawl.

  7. Select a Security Target A Target is a "pointer" to a specific instance of a search application, such as Elasticsearch. - (A Search application instance has one or more indexes)

    1. escbasebadocacl property: Choose this property when you are not mapping your source system Your Source System is the repository where your data is stored (data to be indexed). This repository is managed by applications such as: - SharePoint O365 - SharePoint 2013/16/19 - Documentum - File Share - OpenText - Lotus Notes - etc. Your Source System repository can also be a database such as SQL or Oracle. security groups to the Active Directory but are using custom query security filters. 

    2. If the Security Target is set to escbasedocacl property, all security information is written to the special managed property escbasedocacl

      Note: The escbasedocacl property setting is only appropriate for complex security scenarios, and requires the Federator and the advanced security trimmer module that you deploy on your farm. For more information, see the online Connector Framework Help. 

  8. Leave the default entry 1/1/1990 or enter another date for the Crawl Start Point using mm/dd/yyyy format.
    Hint: All items that have a creation, or last update, date that is before the date that you specify, are not returned by the IBM Connections Connector. 

  9. Leave the default (and recommended) setting 20000 in Max Paging Size or enter a value for the number of items that can wait for a crawl operation. 

    Hint: When you specify this value, consider the performance of both the SharePoint farm and the Connector source system.  

  10. Leave the default setting 1033 (English) in Content Localization or enter a valid localization ID (LCID). This ID applies to metadata Provides context with details such as the source, type, owner, and relationships to other data sets. Metadata provides details around the item being crawled by Connectivity Hub. values, not to attachments or files. Attachments and files are automatically localized during the indexing process. To see the list of the current content localization IDs, click Local IDs Assigned by Microsoft.

  11. Leave the default setting 50 (MB) in Max File Size or enter the maximum file size to be processed in MB. Any files that are larger than this size are not indexed.

  12. Leave the default setting Include All under Document Types. Alternatively, choose one of the following selections in order to filter indexed content: 

    1. Exclude the Following

    2. Include Only the Following 

      and expand and select:

      1. Wiki

      2. File

      3. Blog

        Warning: Changes to the filtered information might affect the metadata application.
  13. Choose to enter a comma-separated (,) list of Item IDs. These IDs are the unique identifiers that are added by your Web Services connector.
    Notes: This is useful to test and troubleshoot to ensure that the right metadata is returned per item.
    Typically for production environments, this field is empty. 

  14. Click Save now or when you have made all of your changes to the information in all of the accessible tabs on this page.

How to Enable Indexing

When you enable indexing, make sure that you follow the guidelines below:

  1. Create a new content source using the Content Info tab:
    1. Click Enable SharePoint/FAST Indexing
    2. Select New.
    3. Save your settings.
      • Hint: This content source is named using the Title specification that you enter in the Content Info tab. 
    4. Remove the content source:
      1. When you clear the Enable SharePoint/FAST Indexing
      2. Click Save.
    5. When you remove the content source:
      1. The content source is removed from the SSA and the related crawl history is deleted.
      2. The content source is not immediately removed from the index. Future crawling and searching operations might be impacted until the content source is cleaned up.
Note: After you create the content source, you cannot change  the title that you originally specified unless you want to delete  the index and remove the content source.

Accessing Crawl Logs

When you index content, SharePoint  log entries are created in multiple locations.

These log entries can be used to debug crawling issues:

  • Errors in the Content Source in the Connector Framework online Help
    • SharePoint displays the current crawl status and the item level  errors and successes are logged. 
    • Most of the errors that are logged in this system are generic. 
    • For this reason, use the ESC log directory, as explained below, to identify the errors.
  • About the Log Files Found in the ESC Folder in the Connector Framework online Help
    • This folder is located on all of the crawling servers that are located on the SharePoint farm. 
    • This folder is a sub-directory for the normal SharePoint trace logs:
         C:\Program Files\Common Files\Microsoft Shared\Web Server Extensions\15\LOGS\ESC

Specify the Item Definition

Click the Item Definition tab to specify the information for the items that you choose to index. 

The Item Definition page lets you customize your search results for your IBM Connections Connector Content.

To specify the Item Definition information, follow these steps:  

  1. On the Central Administration page, click Connector Framework
  2. The Content Management page appears. 
  3. Use the down arrow in Connector Framework SPWeb to select your content. 
  4. On the WebService Content page that appears, click the Item Definition tab.
  5. By default, [SPW_EXTENSION]is entered into Item Extension. This is the file extension that is pulled from the content  repository. (The brackets ([]) indicate the repository location. ) 
    1. To select a column, use the drop-down menu in Reference DS Columnswith brackets
    2. Alternatively, to use a VB.NET script: 
      1. Click Advanced
      2. Enter your script. For more information, see the online Connector Framework Help or contact your BA Insight representative. 
      3. Click Compile.
  6. Important! Enter a URL into Item URL using the format:
       http://myserver/pages/show.aspx?id=[SPW_ID].
    Note: If you specify invalid URLs, the links that users click on in their search results are also invalid.
  7. Alternatively, follow the sub-steps in the step above.
  8. Choose to leave the default entry, or create a new entry such as webservice, in Item Grouping
    1. This field is available in all of the search results as the managed property escbaseclass and customizes the XSLT results. 
    2. Use this field to group results. 
    3. The results can be grouped by the value provided in this field. 
  9. Alternatively, follow the sub-steps in the step above.
  10. Click Save now or when you have made all of your changes to the information in all of the accessible tabs on this page.

Specify the Advanced Content Settings

The Advanced Content tab is available for many of the BA Insight Connectors. This tab lets you access advanced scripting functions.  Note For more information, see the Connector Framework online Help or contact your BA Insight representative. To access and write advanced scripts, follow these steps:  

  1. Click the Content tab. 
    1. On the Content Management page that appears, select your content from the Content column.  
    2. On the Content Management page click the Advanced tab.
  2. Select a separate Cache Database to index this content item. This cache database is different from the list that you configured on the Connector Framework Configuration page.
  3. Add a custom filter script if you want to query values from the Connector and filter out unwanted items. 
    Return:  
    • True: To include an item
    • False: To exclude an item

      For example, see the following code:

      dim flag as string = HOST.GetStringValue("myflag")
      if (flag = "bad") then
      return false
      else
      return true
      end if

  4. Use the ACL Script to enter a VB.NET script that overrides or modifies the  security attributes of an item.
    1. Using this feature, you can add or remove users and groups from the list of  granted or denied users. 
    2. You have access to all of the item datasets in the  script for more complex analysis. 
    3. For example, you can choose to add a special group to each item that goes into the index using a script such as:
         HOST.AddGroupByID("domain\groupname", true) 

  5. When you select Purge Mode Only, only the items that are missing from the index are removed during subsequent incremental crawls. 
  6. Use Script Library to enter VB.NET script functions that are used in all of the other scripts as library methods.
    For example, see the following script:

      function doSomeThing(inval as string) as string
      return inval.replace("a","b")
      end function

Access Existing Content

After you add new content, you can:  

  • Access information about this content
  • Edit, add, and delete this information

To access existing content, follow these steps:  

  1. On the Connector Framework page, click Content. The Content Management page appears.
  2. See the existing content types listed in the table below Connector Framework SPWeb.

  3. Click the following links under Actions: 
    1. Test: For more information, see the Test Bench in the Connector Framework online Help. 
    2. Tasks: For more information, see Managing Tasks in the Connector Framework online Help. 
    3. Metadata: For more information, see Filter Your Metadata.
  4. Click a name, such as "IBM Connections," to see the page where you can select a tab to perform an operation such as specifying Content Info.
  5. Check the content Type for this content source. For example, see IBM Connections Content.
  6. Click the Connection link to see the Connection page for the selected content source. Perform tasks such as Map Users and Groups to the Active Directory A directory service for Windows domain networks. A hierarchical structure that stores information about objects on the network. Used to manage permissions and control access to critical network resources. Settings. 
  7. Check whether Enable Indexing is True or False.
  8. Check whether there are any Datasets that are associated with this content source.
  9. Check if Connector Framework generated an Alert for this content source.
  10. Enrich indexed content with metadata from an associated content source.
    • For example, you could link an employee profile record with a separate status record by using the shared employee ID field to create a dataset.